데이터 통계 분석

기술통계학 (Descriptive Statistics)

기술통계학은 데이터의 일반적인 특성을 요약하는 방법으로, 데이터 분석에서 제일 먼저 사용된다.

기술통계는 데이터의 기본적인 특성을 설명하는 데 사용되는 수치다. 다음은 기술통계학적 수치를 나열 한 것이다.

  • 평균 (Mean): 모든 수치 데이터의 합을 그 데이터의 갯수로 나눈 값이다. 평균은 데이터의 중심 경향을 나타내지만, 이상치에 매우 민감하다.
  • 중앙값 (Median): 데이터를 크기 순으로 나열했을 때 정확히 중간에 위치하는 값이다. 이상치의 영향을 덜 받는다.
  • 최빈값 (Mode): 데이터 세트에서 가장 자주 나타나는 값이다. 범주형 데이터에서 중요하게 사용된다.
  • 분산 (Variance): 데이터가 평균으로부터 얼마나 멀리 떨어져 있는지를 나타내는 측정치다. 각 데이터 포인트와 평균과의 차이를 제곱한 값들의 평균이다.
  • 표준편차 (Standard Deviation): 분산의 제곱근으로, 데이터 포인트들이 평균에서 얼마나 퍼져 있는지의 측정치다.
  • 왜도 (Skewness): 데이터의 대칭성을 측정한다. 왜도가 0에 가까우면 대칭, 양의 값은 오른쪽 꼬리가 길다는 것을, 음의 값은 왼쪽 꼬리가 길다는 것을 의미.
  • 첨도 (Kurtosis): 데이터의 뾰족한 정도를 측정한다. 정규분포의 첨도는 0, 이보다 높으면 뾰족하고, 낮으면 평평하다.

이상치는 데이터 집합에서 다른 관측값들과 확연히 다른 값을 가지는 데이터 포인트를 말한다. 이상치는 측정 오류나 분포의 자연적 변동성 때문에 발생할 수 있고, 데이터 분석 결과에 큰 영향을 미친다.

자료의 시각적 정리 방법

데이터 시각화는 정보를 효과적으로 전달할 수 있는 방법이다.

  • 막대 그래프: 범주별 데이터 값을 막대 형태로 나타내며, 범주 간 비교에 유용하다. 우리가 가장 흔히 접할 수 있는 시각 자료다.
  • 원형 차트: 원형 차트는 각 카테고리의 비율을 시각적으로 나타낸 것이다. 각 항목의 값에 따라 원형의 비율이 결정되고, 각 부분에 비율 값이 표시되어 있다.
  • 산점도: 위의 산점도는 상관관계가 있는 데이터를 시각화한 예시다. x축 데이터에 따라 y축 데이터가 선형적으로 증가하는 경향을 보여주고 있다.
  • 산점도 행렬: 위의 산점도 행렬은 각 변수 간의 명확한 상관관계를 보여준다. “Variable A”와 “Variable B”는 양의 상관관계를, “Variable C”와 “Variable D”는 음의 상관관계를 나타낸다.
  • 상자그림: 위의 상자 그림(Box Plot)은 세 그룹의 데이터 분포를 시각적으로 나타낸 것이다. 상자 내의 선은 중앙값을 나타내고, 상자의 상단과 하단은 1사분위수(Q1)와 3사분위수(Q3)를 나타낸다. 수염(whisker)은 데이터 범위를, 이상치(outlier)는 상자의 밖에 위치한 점으로 표현된다.
  • 히스토그램: 히스토그램은 세 그룹의 데이터 분포를 시각적으로 보여준다. 각 그룹의 데이터가 서로 어떻게 겹치는지, 그리고 각 데이터의 빈도 분포를 쉽게 비교할 수 있다.
  • 정규확률도: 위의 Q-Q(정규확률도) 그래프는 각 그룹의 데이터가 정규분포와 얼마나 가까운지를 시각적으로 나타낸 것이다. 데이터가 직선에 가까울수록 해당 그룹의 데이터가 정규분포에 더 가깝다는 것을 의미한다
  • 중심위치의 측도: 각기 다른 세 그룹의 데이터 분포를 시각적으로 나타내며, 평균(Mean), 중앙값(Median), 최빈값(Mode)의 차이를 강조한 것이다. 각 그룹은 서로 다른 비대칭 분포와 이상치를 포함하여, 각 중심위치 측도가 명확히 구분되도록 되어있다.

확률 밀도함수 (Probability Density Function, PDF)

확률 밀도함수는 연속 확률 변수의 분포다. 이 함수는 변수가 특정 구간 내에 존재할 확률을 나타내며, 구간에 대한 확률은 해당 구간에서 함수를 적분하여 구한다. PDF는 항상 양의 값을 가지며, 전체 가능한 값에 대해 적분하면 그 결과는 1이다. PDF는 변수의 밀도를 나타내므로, 특정 값에서의 확률은 0이다.

이항분포 (Binomial Distribution)

이항분포의 확률질량함수(PMF)는 $p(x) = \binom{n}{x} p^x (1-p)^{n-x} $ 형태로, 여기서 $n$은 시행 횟수, $p$는 각 시행에서 성공할 확률을 나타낸다. 이 분포는 $x$가 0에서 $n$까지의 값을 가질 수 있으며, 기댓값은 $E(X) = np $, 분산은 $V(X) = np(1-p) $ 이다.

포아송 분포 (Poisson Distribution)

포아송 분포는 주어진 시간이나 공간에서 일어날 이벤트의 수를 모델링한다. 확률질량함수는 $p(x) = \frac{m^x e^{-m}}{x!} $로 표현되며, 여기서 $ m$은 시간이나 공간 단위 내에서 기대되는 이벤트 수다. 이 분포의 기댓값과 분산은 모두 $m$이다.

정규분포 (Normal Distribution)

정규분포의 확률밀도함수(PDF)는 $f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ 형태이다. 이는 연속 확률 변수 $x$ 가 어떤 값 근처에서 발생할 확률을 나타낸다. 여기서 $\mu $는 평균, $\sigma^2 $는 분산이다. 정규분포는 실수 전체 범위에서 정의되며, 그 모양은 평균을 중심으로 대칭적인 종 모양을 띈다.

표준정규분포 (Standard Normal Distribution)

정규 분포 $\mathcal{N}(\mu, \sigma^2)$를 가진 변수 $X$에 대하여, $X$를 표준 정규 분포로 변환하는 공식은 다음과 같다.

$Z = \frac{X – \mu}{\sigma}$

이 과정을 통해, 평균이 $\mu$, 표준편차가 $\sigma$인 분포를 평균 0, 표준편차 1의 분포로 변환한다. 변환된 변수 $Z$는 표준 정규분포 $\mathcal{N}(0, 1)$을 따른다.

구간 [a, b]에 대해 원본 변수 $X$가 그 구간 안에 포함될 확률을 표준 정규분포를 사용하여 계산하려면, 먼저 표준화 변환을 적용한다.

$P(a < X < b) = P\left(\frac{a – \mu}{\sigma} < \frac{X – \mu}{\sigma} < \frac{b – \mu}{\sigma}\right) = P\left(\frac{a – \mu}{\sigma} < Z < \frac{b – \mu}{\sigma}\right)$

이 식에서 $Z$는 표준 정규분포를 따르므로, $Z$의 값이 변환된 구간 $\left(\frac{a – \mu}{\sigma}, \frac{b – \mu}{\sigma}\right)$ 안에 있을 확률은 표준 정규분포 테이블 또는 관련 함수를 사용하여 계산할 수 있다.

모집단이 어떤 분포를 따르든지(정규분포든 비정규분포든 관계없이), 표본의 크기가 커질수록 표본 평균의 분포는 점점 정규분포에 가까워진다. 모집단이 정규분포를 따르지 않더라도, 표본 크기가 충분히 크다면 표본 평균은 정규분포로 수렴하게 된다.

표본 분포

위 이미지는 카이제곱 분포의 다양한 자유도(degree of freedom, df)에 따른 분포 곡선을 나타낸다. 자유도가 2,3,4,5인 경우 각각의 분포가 어떻게 변하는지 보여주고 있다.

카이제곱 분포의 특징

  • 자유도 2 (df=2ㅏ): 매우 뾰족하고 오른쪽으로 크게 치우친 형태를 가진다. 매우 큰 값이 나올 확률이 높다는 것을 의미한다.
  • 자유도 3 (df=3): 오른쪽으로 치우치긴 하지만, df=1보다는 덜 뾰족하고, 분포의 범위가 넓어진다.
  • 자유도 4 (df=4): 분포가 좀 더 평탄해지며, 오른쪽 치우침도 줄어든다. 중심 주변에 데이터가 많이 몰리기 시작한다.
  • 자유도 5 (df=5): 분포가 더욱 평탄하고 정규분포에 가까워지는 모습을 보인다. 좌우 대칭에 가까워지며, 중심 주변에 데이터가 더 많이 집중된다.

t-분포 (Student’s t-Distribution)

t-분포는 작은 표본 크기에서 모집단의 평균을 추정할 때 주로 사용된다. 이 분포는 1908년 윌리엄 시어리 “스튜던트” 고셋이 소개했으며, 정규 분포와 비슷한 형태를 가지지만, 꼬리 부분이 더 두껍고 폭이 넓다. 이 특성 때문에 작은 표본에서의 극단값이 더 자주 나타나는 것을 잘 보여준다.

  • 정의: 표준 정규 분포를 따르는 변수 $Z$와 자유도 $df$를 갖는 카이제곱 분포를 따르는 독립 변수 (V)에 대해, t-값은 다음과 같이 정의된다.

    $T = \frac{Z}{\sqrt{V/df}}$

    여기서 $Z$는 표준 정규 분포에서 나온 값이고, $V$는 카이제곱 분포에서 나온 값이다.
  • 주로 두 모집단의 평균 차이의 검정, 회귀 계수의 유의성 검정 등에 사용된다.

F-분포 (Fisher’s F-Distribution)

F-분포는 두 개의 서로 독립적인 카이제곱 분포된 변수의 비율로 정의된다. 주로 두 표본의 분산이 동일한지를 비교하는 분산분석(ANOVA)에서 사용된다. 이 분포는 로널드 피셔가 1920년대에 개발했다.

  • 정의: 자유도가 $df_1$인 카이제곱 분포 $V_1$과 자유도가 $df_2$인 카이제곱 분포 $V_2$를 독립적으로 갖는 두 변수에 대해, F-값은 다음과 같이 정의된다.

    $F = \frac{V_1/df_1}{V_2/df_2}$

    여기서 각 카이제곱 변수는 독립적이며, 각각의 분모는 해당 변수의 자유도로 나눠진 카이제곱 분포의 값을 사용한다.
  • 주로 분산분석(ANOVA)에서 여러 그룹 간의 평균 차이가 통계적으로 유의한지를 검정하는 데 사용된다.

가설검정의 기본 개념

가설검정은 두 가지 가설, 즉 귀무가설$(H_0)$과 대립가설$(H_1)$을 비교하여 어떤 주장이 통계적으로 유의미한지를 확인하는 과정이다.

연구자의 결정실제 상태실제 상태
(H_0) 참(H_0) 거짓
(H_0) 채택옳은 결정2종 오류
(H_0) 기각1종 오류옳은 결정
  • 귀무가설$(H_0)$: 연구자가 검증하고자 하는 현상이 실제로 없다고 가정하는 가설. 즉, 아무런 변화나 차이가 없다는 것이 귀무가설의 핵심.
  • 대립가설$(H_1)$: 귀무가설과 반대로, 변화나 차이가 존재한다고 주장하는 가설. 연구자는 보통 이 가설을 증명하려고 한다.

1종 오류와 2종 오류

  • 1종 오류: 실제로 $H_0$가 참인데도 불구하고 $H_0$를 기각하는 오류. 즉, 잘못된 결정을 통해 변화가 없는데도 변화가 있다고 판단하는 상황.
  • 2종 오류: 실제로 $H_0$가 거짓인데도 불구하고 $H_0$를 채택하는 오류. 즉, 변화가 있음에도 불구하고 변화가 없다고 결론을 내리는 상황. 예를 들어, 실제 상태가 $H_0$가 참일 때 $H_0$를 기각하면 1종 오류가 발생하며, 실제로 $H_0$가 거짓일 때 $H_0$를 채택하면 2종 오류가 발생한다.

3. 검정 통계량


검정 통계량 (확률 변수)

Z-value (정규분포)

$Z = \frac{\overline{X} – \mu_0}{\frac{\sigma}{\sqrt{n}}}$

사용 분포: 정규분포

t-value (t분포)

$t = \frac{\overline{X} – \mu_0}{\frac{S}{\sqrt{n}}}$

사용 분포: t분포

χ²-value (카이제곱 분포)

$\chi^2 = \frac{(n – 1)S^2}{\sigma_0^2}$

사용 분포: 카이제곱 분포

F-value (F분포)

$F = \frac{S_1^2}{S_2^2}$

사용 분포: F분포


1. 회귀분석 (Regression Analysis)

회귀분석은 독립변수(설명변수 또는 예측변수)와 종속변수(반응변수 또는 결과변수) 간의 관계를 모델링하는 통계적 방법이다. 주로 어떤 독립변수가 종속변수에 얼마나 영향을 미치는지를 파악하는 데 사용된다.

YX (X₁, X₂, …, Xₚ)
반응변수 (response var.)설명변수 (explanatory var.)
결과변수 (outcome var.)예측변수 (predictor var.)
종속변수 (dependent var.)독립변수 (independent var.)
  • 독립변수(X): 설명변수, 예측변수, 독립변수로 불리며 종속변수에 영향을 주는 요인이다.
  • 종속변수(Y): 반응변수, 결과변수, 종속변수로 불리며 독립변수에 의해 설명되는 변수이다.

회귀방정식은 다음과 같다.

$\hat{Y} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p$

여기서, $\hat{Y}$는 종속변수의 예측값, $\beta_0$는 절편, $\beta_1, \beta_2$ 등은 각각의 독립변수에 대한 회귀계수(설명변수의 기울기)를 나타낸다.

다수의 독립변수(X)를 사용해 종속변수(Y)를 예측하는 다중 회귀 분석의 형태는 다음과 같다.

$\hat{Y}$i = $\beta_0 $+ $\beta_1$X$_{i1}$ + $\beta_2$X$_{i2}$, $\quad i$ = 1, 2, $\dots$, n

이 식은 각 데이터 포인트 i에 대해 예측된 값을 나타낸다.

2. 상관분석 (Correlation Analysis)

상관분석은 두 변수 간의 관계의 정도와 방향을 측정한다. 상관계수(r)는 -1에서 1 사이의 값을 가지며, 이 값에 따라 관계가 긍정적, 부정적, 또는 무관한지를 판단할 수 있다.

$r=Corr(X,Y)={{Cov(X,Y)}\over{\sqrt{Var(X)}\sqrt{Var(Y)}}}={{\sigma_{XY}}\over{\sigma_{X}\sigma_{Y}}}$

  • CCov(X,Y): X와 Y간의 공분산을 의미한다. 이는 두 변수의 변화가 어떻게 함께 움직이는지를 나타낸다.
  • Var(X), Var(Y): 각각 X와 Y의 분산을 의미하며, 변수의 산포도를 측정한다.
  • $\sigma_X$​, $\sigma_Y$​: 각각 X와 Y의 표준편차로, 분산의 제곱근이다.
  • $\sigma_{XY}$​: X와 Y간의 공분산 값이다.

  • 상관계수 r: 두 변수(X와 Y)가 함께 변하는 정도를 나타낸다.
  • ( r = 1 ): 두 변수가 완벽한 양의 상관관계에 있다.
  • ( r = -1 ): 두 변수가 완벽한 음의 상관관계에 있다.
  • ( r = 0 ): 두 변수 간에 상관관계가 없다.

위에서는 상관계수 (r = 0.4), (r = 0), (r = -0.4)에 대한 예시를 보여주며, 각각 양의 상관관계, 무상관, 음의 상관관계를 나타내고 있다.

다음은 상관계수의 절대값에 따른 상관성 해석 기준이다.

  • 0.2 이하: 상관관계 거의 없음
  • 0.2 ~ 0.4: 낮은 상관관계
  • 0.4 ~ 0.6: 보통 상관관계
  • 0.6 ~ 0.8: 높은 상관관계
  • 0.8 이상: 매우 높은 상관관계

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

위로 스크롤