이번 시간에는 무작위 비복원추출에서 많이 사용되는 분포인 초기하분포에 대해서 설명드리겠습니다! 이산형 분포 파트가 얼마 안 남았네요! 😁

정의

고등학교 수학의 경우의 수나 확률 파트에서, 주머니에서 공을 뽑는 문제들을 많이 보셨을 겁니다. 예를 들어 어떤 주머니에 $M$개의 빨간 공과 $B$개의 파란 공, 총 $M+B=N$개의 공들이 들어있을 때, $K$개의 공을 비복원추출로 뽑는 경우의 수 문제들 있잖아요! 여기서 확률변수 $X$를 뽑은 빨간 공의 개수라고 한다면 $X$는 초기하분포(Hypergeometric Distribution)를 따릅니다! 역시 pdf를 보시면 더 쉽게 이해가 될 겁니다.

$ f(x)= \frac { \begin{pmatrix} M\\ x \end{pmatrix} \begin{pmatrix} N-M\\ K-x \end{pmatrix} } {\begin{pmatrix} N\\ K \end{pmatrix}} ~~~~x=max(0, M-N+K), \ldots, min(K, M)$

빨간 공은 $M$개 중 $x$개를 뽑습니다. 따라서 파란 공은 $(N-M)$개 중 $(K-x)$개를 뽑습니다. 이 값은 분자로 들어가게 되고, 분모는 공의 색깔과 관계없이 전체 공 개수 $N$개 중 $K$개를 뽑는 경우의 수가 들어갑니다. 따라서 위와 같은 pdf가 도출됩니다. 여기서 중요한 부분은 $x$의 범위입니다. 저도 처음에 초기하분포를 접했을 때, $x$ 범위가 다소 복잡하게 나타나져 있어서 왜 이렇게 되는 것인지 궁금했던 기억이 있습니다. 이 부분에 대해서 설명드리겠습니다!

뽑는 공의 개수는 $K$개 입니다. 따라서, $x \geq 0~ ~\&~ ~x \leq K$가 성립합니다. 또한 뽑혀지는 빨간 공 개수 $x$는 전체 빨강 공 개수 $M$보다 작아야 하며, 뽑혀지는 파란 공 개수 $(K-x)$는 전체 파란 공 개수 $(N-M)$보다 작아야 합니다. 따라서, $x \leq M~ ~\&~ ~(K-x) \geq (N-M)$이 성립합니다. 결론적으로 정리하면 $x \geq 0~ ~\&~ ~x \geq (M-N+K)$, 그리고 $x \leq M~ ~\&~ ~x \leq K$가 성립되야 하고, $x=max(0, M-N+K), \ldots, min(K, M)$ 범위가 만들어집니다!

그런데 사실 $min(K, M)=M$일 때, 또는 $max(0, M-N+K)=M-N+K$일 때라도 $x$의 범위를 $0, 1, \cdots, K$로 해도 됩니다! 이를 증명해보겠습니다.

$ \begin{align*} &1.~ ~if~ ~ min(K, M) = M \\ &when~ ~ M < x \leq K~ ~\Rightarrow~ ~ \begin{pmatrix} M\\ x \end{pmatrix} = 0 \\ &2.~ ~if~ ~ max(0, M-N+K) = M-N+K \\ &when~ ~ 0 \leq x < M-N+K~ ~\Leftrightarrow N-M < K-x~ ~ \Rightarrow~ ~ \begin{pmatrix} N-M\\ K-x \end{pmatrix} = 0 \\ \end{align*} $

즉, 정리하면 $x$의 범위를 $0$부터 $K$로 두었을 때 생기는 공백범위가 있는데 이 부분이 모두 $0$값이 나옵니다. 따라서 $x=0, 1, \cdots, K$로 해도 됩니다! 마지막으로 $X$가 초기하분포를 따를 때, 편의상 $X~{\sim}~HYP(N, M, K)$로 표기합니다.

특징

알아두면 좋은 공식 하나를 아래에 소개합니다. 이를 이용하면 초기하분포의 기댓값을 쉽게 구할 수 있습니다.

$ \begin{align*} \begin{pmatrix} D\\ x \end{pmatrix} &= \frac{D}{X} \begin{pmatrix} D-1\\ x-1 \end{pmatrix} \\ \end{align*} $

$ \begin{align*} E(X)&=\sum_{x=0}^{K} x \frac { \begin{pmatrix} M\\ x \end{pmatrix} \begin{pmatrix} N-M\\ K-x \end{pmatrix} } { \begin{pmatrix} N\\ K \end{pmatrix} } \\ &=\sum_{x=1}^{K} x \frac { \frac{M}{x} \begin{pmatrix} M-1\\ x-1 \end{pmatrix} \begin{pmatrix} N-M\\ K-x \end{pmatrix} } { \frac{N}{K} \begin{pmatrix} N-1\\ K-1 \end{pmatrix} } \\ &= \frac{MK}{N} \sum_{x=1}^{K} x \frac { \begin{pmatrix} M-1\\ x-1 \end{pmatrix} \begin{pmatrix} (N-1)-(M-1)\\ (K-1)-(x-1) \end{pmatrix} } { \begin{pmatrix} N-1\\ K-1 \end{pmatrix} } \\ &= K \times \frac{M}{N} \\ \end{align*} $

기댓값의 형태를 보았을 때, $B(n, p)$에서 평균이 $np$인 것과 비슷한 개념으로 도출된 것을 볼 수 있습니다. $(K \rightarrow n, \frac{M}{N} \rightarrow p)$ 이와 같이 분산도 구할 수 있습니다.

$ \begin{align*} E(X(X-1))&=\sum_{x=0}^{K} x(x-1) \frac { \begin{pmatrix} M\\ x \end{pmatrix} \begin{pmatrix} N-M\\ K-x \end{pmatrix} } { \begin{pmatrix} N\\ K \end{pmatrix} } \\ &=\frac{M(M-1)K(K-1)}{N(N-1)} \\ Var(X)&=E(X(X-1))+E(X)-[E(X)]^2 \\ &=\frac{M(M-1)K(K-1)}{N(N-1)}+\frac{MK}{N}-\frac{M^2K^2}{N^2} \\ &=K \times \frac{M}{N} \times \frac{N-M}{N} \times \frac{N-K}{N-1} \\ \end{align*} $

이 역시 분산의 형태를 보았을 때, $B(n, p)$에서 분산이 $np(1-p)$인 것과 비슷한 개념으로 도출된 것을 볼 수 있습니다. $(K \rightarrow n, \frac{M}{N} \rightarrow p, \frac{N-M}{N} \rightarrow (1-p))$ 여기서 $\frac{N-K}{N-1}$은 유한모집단 수정계수라고 하는데 비복원추출의 결과로 인해 모집단이 유한집합이 되기 때문에 나타나는 항을 의미합니다. 즉, 전체 공의 개수 $N$이 무한이 아닌 유한의 숫자로 나타나기 때문에 이를 보정해주기 위한 항이라고 생각하시면 됩니다!

그렇다면 만약 모집단 크기 $N$이 표본 크기 $n$에 비해 충분히 큰 경우에는 어떻게 될까요? 예상하셨을 수도 있겠지만, 이항분포로 근사하게 됩니다! 아래와 같이 증명할 수 있습니다.

$ \begin{align*} \frac { \begin{pmatrix} M\\ x \end{pmatrix} \begin{pmatrix} N-M\\ K-x \end{pmatrix} } { \begin{pmatrix} N\\ K \end{pmatrix} } &= \frac{M!}{x!(M-x)!} \frac{(N-M)!}{(K-x)!(N-M-K+x)!} \frac{K!(N-K)!}{N!} \\ &= \begin{pmatrix} K\\ x \end{pmatrix} \frac{M(M-1) \cdots (M-x+1)}{N(N-1) \cdots (N-x+1)} \frac{(N-M) \cdots (N-M-K+x+1)}{(N-x) \cdots (N-K+1)} \\ &\fallingdotseq \begin{pmatrix} K\\ x \end{pmatrix} (\frac{M}{N})^x (1-\frac{M}{N})^{K-x} \\ \end{align*} $

결론적으로, $X~{\sim}~HYP(N, M, K)$에서 $N \rightarrow \infty,~ ~M \rightarrow \infty,~ ~\frac {M}{N} \rightarrow p$이면, 초기하분포의 근사에 $B(K, p)$를 활용할 수 있습니다.

사진 1

보다시피 $N, M$이 점점 커질수록 $B(12, 0.2)$로 근사하는 것을 위의 시각화를 통해 알 수 있습니다!


Reference

  1. 수리통계학    [송성주, 전명식 지음]
  2. 수리통계학    [김우철 지음]
  3. 서울시립대학교 수리통계학 I 수업    [정병철 교수님]
  4. 고려대학교 추론통계학 I 수업    [송성주 교수님]


DATA_100%_LOGO_LIGHT



댓글남기기