지난 번 베르누이 분포 포스트에 이어서 이항 분포에 대해 알아보겠습니다! 이항 분포의 기댓값과 분산 그리고 베르누이 분포와의 관계에 대해 정리했습니다.

정의

앞면이 나올 확률이 $p$인 동전 던지기를 시행하는 것과 같이, 두 가지의 결과만을 갖는 시행을 베르누이 시행이라 합니다. 이때 그 결과가 성공이면 1, 실패이면 0의 값을 가지는 확률변수 $X$는 베르누이 분포를 따릅니다.

이항분포(Binomial Distribution)는 위에서 설명하고 있는 베르누이 분포의 확장입니다. 베르누이 시행을 독립적으로 $n$번 반복 시행했을 때의 얻어지는 성공의 횟수를 확률변수 $X$라고 한다면, $X$는 이항 분포를 따르게 됩니다. 다르게 설명드리자면, 확률변수 $X_{1}, \ldots, X_{n}$이 독립적으로 베르누이 분포를 따를 때, 그들의 합으로 나타나는 $X = \sum_{i=1}^{n} X_{i} $는 이항분포를 따릅니다! 또한, $X_{i}$는 0 혹은 1의 값을 가지지만, $X$는 {$0, 1, 2, \ldots, n$} 중에서 하나의 값을 가집니다. 각각의 베르누이 시행에서의 성공 확률을 $p$, 실패 확률을 $q$라고 한다면, 이항분포를 따르는 확률변수 $X$의 pdf는 아래와 같습니다.

$f(x)= \begin{pmatrix} n\\ x \end{pmatrix} p^{x}q^{n-x}, ~~~x=0,1,2,\ldots,n$

위의 식에서 $x$는 $n$번의 시행 중의 성공개수를 의미하고, $X~{\sim}~Binom(n, p)~or~X~{\sim}~B(n, p)$로 표기합니다.
아래와 같이 이항분포는 베르누이 분포를 이용한 대의적 정의를 가집니다.

$X~{\sim}~B(n, p)~~\Leftrightarrow~~X\overset{\mathrm{d}}{\equiv}X_{1}+\cdots+X_{n},~~X_{i}~\overset{\mathrm{iid}}{\sim}~Bernoulli(p)(i=1,\cdots,n) $

특징

$X_{i}~\overset{\mathrm{iid}}{\sim}~Ber(p)$에서 $X = \sum_{i=1}^{n} X_{i}~{\sim}~B(n, p)$의 기댓값과 분산은 아래와 같이 구할 수 있습니다. 베르누이 분포를 따르는 확률변수들의 합으로써 이항분포가 만들어지므로, 베르누이 분포의 기댓값과 분산만 알고 있다면 쉽게 구할 수 있습니다.

$ \begin{align*} E(X) &= E(\sum_{i=1}^{n} X_{i}) \\ &=\sum_{i=1}^{n}E(X_{i}) \\ &=nE(X_{1}) \\ &=np ~~~~ (\because E(X_{1})=p) \\ Var(X)&=Var(\sum_{i=1}^{n} X_{i}) \\ &= \sum_{i=1}^{n}Var(X_{i}) ~~~~ (\because X_{i}~\overset{\mathrm{iid}}{\sim}~Ber(p)) \\ &=nVar(X_{1}) \\ &=npq ~~~~ (\because Var(X_{1})=pq) \\ \end{align*} $

또한, 적률생성함수도 아래와 같이 구할 수 있습니다.

$ \begin{align*} M_X(t) &= E(e^{tX}) \\ &= \sum_{x=0}^{n} \begin{pmatrix} n\\ x \end{pmatrix} p^{x}q^{n-x} \times e^{tx} \\ &= \sum_{i=0}^{n} \begin{pmatrix} n\\ x \end{pmatrix} (pe^{t})^{x}q^{n-x} \\ &=(pe^{t} + q)^{n} ~~~~ (\because Binomial~~Theorem) \\ &=(pe^{t} + 1 - p)^{n} \\ \end{align*} $

이항분포의 성질 중 하나를 소개합니다. $X_{1} ~{\sim}~B(n_{1}, p), X_{2} ~{\sim}~B(n_{2}, p)$이고, $X_{1},~ X_{2}$가 서로 독립이면, $X_{1}+X_{2} ~{\sim}~B(n_{1} + n_{2}, p)$가 됩니다. 이는 적률생성함수의 분포 결정성으로부터 쉽게 증명할 수 있습니다.

$pf.$

$ \begin{align*} M_{X_{1}}(t) &= (pe^{t} + 1 - p)^{n_{1}} \\ M_{X_{2}}(t) &= (pe^{t} + 1 - p)^{n_{2}} \\ M_{X_{1} + X_{2}}(t) &= M_{X_{1}}(t) \times M_{X_{2}}(t) ~~~~ (\because ~~ properties ~~ of ~~ mgf) \\ &= (pe^{t} + 1 - p)^{n_{1} + n_{2}} \\ &\therefore X_{1}+X_{2} ~{\sim}~B(n_{1} + n_{2}, p) \\ \end{align*} $

사진 1


Reference

  1. 수리통계학    [송성주, 전명식 지음]
  2. 수리통계학    [김우철 지음]
  3. 서울시립대학교 수리통계학 I 수업    [정병철 교수님]


DATA_100%_LOGO_LIGHT



댓글남기기