[연속형 분포] 중심극한정리
안녕하세요! 확률론과 통계학에 있어서 가장 중요하다고 여겨지는 중심극한정리에 대해 알아보겠습니다. 다소 이론적인 내용까지도 다룰 예정입니다!
정의
중심극한정리(Central Limit Theorem ; CLT)의 내용은 아래와 같습니다.
평균이 $\mu < \infty$이고 분산이 $\sigma^2 < \infty$인 $f(x)$로 부터 랜덤표본 $X_1,~\cdots,~X_n$을 얻었다. 이때 확률변량
$ \displaystyle{ Z_n=\frac{\sum_{i=1}^{n} X_i -E(\sum_{i=1}^{n}X_i)}{\sqrt{Var(\sum_{i=1}^{n}X_i)}}=\frac{\sum_{i=1}^{n}(X_i-\mu)}{\sqrt{n}\sigma}=\frac{\sqrt{n}( \overline{X_n} - \mu)}{\sigma} }$
의 분포는 표본의 크기 $n$이 무한대로 접근함에 따라 표준정규분포 $N(0, ~1)$으로 수렴한다.
즉, 모집단이 어떠한 분포를 따른다 하더라도, 모집단에서 추출한 표본의 크기가 수없이 커지게 되면, 표준정규분포로 수렴하게 된다는 내용입니다. 데이터가 끝없이 만들어지고 있는 현재 빅데이터 세상에서 위의 정리는 통계학에서 상당히 중요한 위치에 자리 잡고 있습니다. 이것이 이전 포스트에서 정규분포의 PDF가 상당히 복잡함에도 불구하고, 정말 중요한 분포라고 말씀드렸던 이유입니다!
그렇다면 이에 대해서 이론적으로 증명을 해보도록 하겠습니다. 다만, 완전한 증명은 상당히 어렵기 때문에 모집단의 분포의 MGF가 존재하는 경우로만 가정하여 증명하겠습니다!
$\displaystyle{X_i~{\sim}~(\mu, \sigma^2),~~ ~Y_i = \frac {X_i - \mu} {\sigma}, ~~~ i = 1,~\cdots,~n}$ 라고 두었을 때,
$\displaystyle{E(X_i) = \mu,~Var(X_i) = \sigma^2,~E(X_i) = 0,~Var(X_i) = E(Y_i^2) = ~1}$
$\displaystyle{M_{Y_i}(t) = E(e^{tY_i}) \approx E([1 + \frac {tY_i} {1!} + \frac {(tY_i)^2} {2!} + \cdots]) = 1 + \frac {t^2} {2} + R_{n, t}~~ (\because Taylor ~~expansion)~ (LET.~ ~R_{n, t} = \sum_{k = 3}^{\infty} \frac {t^k \cdot E(Y_{i}^{k})} {k!}) }$
$\displaystyle{Z_n = \frac {1} {\sqrt{n}} \sum Y_i }$에서
$\displaystyle{M_{Z_n}(t) = E({\rm exp}(\frac {1} {\sqrt{n}} \sum Y_{i}~t)) = E({\rm exp}(\frac {1} {\sqrt{n}} Y_{1}~t)) \times \cdots \times E({\rm exp}(\frac {1} {\sqrt{n}} Y_{n}~t))}$
여기서
$\displaystyle{M_{Y_i}(\frac {t} {\sqrt {n}}) = E({\rm exp}(\frac {1} {\sqrt{n}} Y_{i}~t)) = 1 + \frac {t^2} {2n} + R^{\star}_{n, t}}$
$\displaystyle{(R^{\star}_{n, t} = \sum_{k = 3}^{\infty} \frac {(\frac {t} {\sqrt {n}})^k E(Y_{i}^{k})} {k!} = \sum_{k = 3}^{\infty} \frac {t^k E(Y_{i}^{k})} {k! \cdot (\sqrt{n})^{k}})}$
$\displaystyle{ \therefore \lim_{n \rightarrow \infty} n \cdot R^{\star}_{n, t} = 0 }$
다시 $\displaystyle{M_{Z_n}(t)}$ 에서
$\displaystyle{M_{Z_n}(t) = [1 + \frac {t^2} {2n} + R^{\star}_{n, t}]^n = [1 + \frac {1} {n} (\frac {t^2} {2} + n \cdot R^{\star}_{n, t})]^n }$
$\displaystyle{n \cdot R^{\star}_{n, t} \longrightarrow 0,~~ \lim_{n \rightarrow \infty} (1 + \frac {a} {n})^n \longrightarrow e^a}$이므로
$\displaystyle{ \therefore ~ \lim_{n \rightarrow \infty} M_{Z_n}(t) = e^{\frac {t^2} {2}} }$
이것은 $MGF~ ~of~ ~N(0, 1) = Z$ 이므로
$\displaystyle{ \therefore Z_n = \frac {\sqrt {n} (\overline{X_n} - \mu)} {\sigma} ~\overset{d}{\longrightarrow}~N(0,1)} $
중심극한정리에서 가장 중요한 점 중 하나는 모분포에 대해 특정한 꼴을 필요로 하지 않는다는 것입니다. 유한한 평균과 분산만 존재한다면 $Z_n$의 분포는 표준정규분포로 수렴합니다. 따라서 유한한 평균을 가지지 않는 코시 분포의 경우에는 중심극한 정리가 성립되지 않습니다. (코시 분포에 대한 내용은 나중에 포스팅하도록 하겠습니다!)
특징
그렇다면 특정 분포들이 중심극한정리를 이용하여 어떻게 정규근사하는지를 알아보도록 하겠습니다.
먼저 포아송분포 $X_{i}~\overset{\mathrm{iid}}{\sim}~Poi(\lambda)$에 대한 정규근사입니다.
$\displaystyle{ E(X_i) = Var(X_i) = \lambda }$ 이므로
$\displaystyle{ \overline{X}~\overset{d}{\longrightarrow}~N(\lambda,\frac {\lambda} {n}) }$
$\displaystyle{ \therefore \lim_{n \rightarrow \infty} P(\frac { \overline{X} - \lambda} {\sqrt {\frac {\lambda} {n}}} \leq x) = P(Z \leq x),~~Z~{\sim}~N(0, 1)} $
다음으로 균일분포 $X_{i}~\overset{\mathrm{iid}}{\sim}~U(0, 1)$에 대한 정규근사입니다.
$\displaystyle{ E(X_i) = \frac {1}{2},~Var(X_i) = \frac {1}{12} }$ 이므로
$\displaystyle{ \overline{X}~\overset{d}{\longrightarrow}~N(\frac {1}{2},\frac {1}{12n}) }$
$\displaystyle{ \therefore \lim_{n \rightarrow \infty} P(\frac { \overline{X} - \frac {1} {2} } {\sqrt {\frac {1} {12n}}} \leq x) = P(Z \leq x),~~Z~{\sim}~N(0, 1)} $
다음 포스트는 연속형 분포의 마지막 포스트로 와이블분포에 대해 정리하는 시간을 가져보겠습니다!
Reference
- 수리통계학 [송성주, 전명식 지음]
- 수리통계학 [김우철 지음]
- 서울시립대학교 수리통계학 I 수업 [정병철 교수님]
- 고려대학교 추론통계학 I 수업 [송성주 교수님]
댓글남기기