안녕하세요! 블로그 운영 초반에는 적어도 이틀에 한 번씩은 포스팅을 하려 했는데 회사를 다니다보니 글 쓰는게 쉽지가 않네요 😅. 이번 포스트에서는 기하분포와 밀접한 관계인 음이항분포에 대해 설명드리려고 합니다.

정의

기하분포란 성공확률이 $p$인 베르누이 시행을 독립적으로 반복할 때, 첫 번째 성공이 일어날 때까지 필요한 시행횟수 $X$에 대한 분포를 말합니다.

위는 지난 포스트에서 소개했었던 기하분포의 정의입니다. 그렇다면 다음과 같은 의문점이 생길 수 있습니다. “첫 번째 성공까지 걸리는 시행횟수에 대한 분포는 기하분포인 것은 알겠어. 그렇다면 두 번째, 세 번째 성공이 일어날 때까지 걸리는 시행횟수에 대한 분포도 있을까?” 네! 있습니다! 그게 바로 음이항분포(Negative Binomial Distribution)입니다. 즉, 성공확률이 $p$인 베르누이 시행을 독립적으로 반복할 때, $r$번째 성공이 일어날 때까지 필요한 시행횟수 $X$에 대한 분포는 $NB(r, p)$를 따르게 됩니다. 아래 pdf를 소개하면서 더 자세하게 설명드릴게요.

$f(x)= \begin{pmatrix} x-1\\ r-1 \end{pmatrix} p^{r}(1-p)^{x-r}, ~~~x=r,r+1,\ldots$

$x$는 총 $r$번째 성공이 일어날 때까지 필요한 시행횟수를 의미합니다. 따라서 정확히 $x$번째 시행은 성공이어야만 할 것이고, $x-1$번째 시행까지는 성공이 $r-1$번, 실패는 $x-r$번이 있을 것입니다. 결론적으로 시행 $x-1$번째까지 $_{x-1}C_{r-1}~p^{r-1}(1-p)^{(x-1)-(r-1)}$ 식이 만들어지고 마지막 $x$번째 시행에 성공확률인 $p$가 곱해지면서 pdf가 만들어집니다.

$W_{r}~{\sim}~NB(r, p)$라고 할 때, 각각의 성공 후 다음 성공까지의 시행횟수는 $W_{1}, W_{2}-W_{1}, \cdots, W_{r}-W_{r-1}$로 나타낼 수 있습니다. 그리고 이들은 각각 독립적으로 한 번의 성공이 나올 때까지의 시행횟수에 대한 확률변수를 뜻하므로, $W_{1}, W_{2}-W_{1}, \cdots, W_{r}-W_{r-1}~\overset{\mathrm{iid}}{\sim}~Geo(p)$가 성립합니다. 즉, 음이항분포는 기하분포를 이용한 대의적 정의를 가집니다.

$X~{\sim}~NB(r, p)~~\Leftrightarrow~~X\overset{\mathrm{d}}{\equiv}Z_{1}+\cdots+Z_{r},~~Z_{i}~\overset{\mathrm{iid}}{\sim}~Geo(p)(i=1,\cdots,r) $

결론적으로 음이항분포는 기하분포를 따르는 확률변수의 합으로써 정의할 수 있습니다!

그렇다면 왜 음이항분포라는 이름이 붙여졌는지에 대해 설명을 드리겠습니다! 이 부분을 먼저 설명드려야 뒷 내용을 이해하기가 쉽거든요 😁. 먼저 이항정리에 대한 정의부터 알아야 합니다.

$(x+y)^{r}= \sum_{k=0}^{\infty} \begin{pmatrix} r\\ k \end{pmatrix} x^{k}y^{r-k}$

$x, y, r \in \mathbb{R},~~|x| < |y|,~~r : positive~integer,~~\begin{pmatrix} r\\ k \end{pmatrix} = 0~~if~~k>r$

위와 같이 $(x+y)^{r}$에 대한 이항전개를 그릴 수가 있습니다. 그렇다면, $(1-x)^{-s}$에 대한 이항전개는 어떻게 될까요? $(x+y)^{r}$에서 $x$ 대신 $-x$, $y$ 대신 $1$, $r$ 대신 $-s$를 넣으면 됩니다. 그러면 아래 식이 만들어집니다.

$(1-x)^{-s}= \sum_{k=0}^{\infty} \begin{pmatrix} -s\\ k \end{pmatrix} (-x)^{k} = $$\sum_{k=0}^{\infty} \begin{pmatrix} s+k-1\\ k \end{pmatrix} x^{k} $ $ ,~~~~|x|<1 $

그럼 지금부터 $(1-x)^{-s}$ 식이 위 식의 빨강색으로 표시한 식과 같음을 아래와 같이 증명해보겠습니다.

$ \begin{align*} \begin{pmatrix} -s\\ k \end{pmatrix} &= \frac{(-s)(-s-1)\cdots(-s-k+1)}{k!} \\ &= \frac{(-1)^{k}s(s+1)\cdots(s+k-1)}{k!} \\ &= (-1)^{k} \times \frac{s(s+1)\cdots(s+k-1)}{k!} \\ &= (-1)^{k} \begin{pmatrix} s+k-1\\ k \end{pmatrix} \\ \therefore (1-x)^{-s} &= \sum_{k=0}^{\infty} \begin{pmatrix} -s\\ k \end{pmatrix} (-x)^{k} = \sum_{k=0}^{\infty} \begin{pmatrix} s+k-1\\ k \end{pmatrix} x^{k},~~~~|x|<1,~~s>0 \\ \end{align*} $

다시 돌아가서, 성공확률이 $p$인 베르누이 시행을 독립적으로 반복할 때, r 번째 성공이 일어날 때까지 필요한 시행횟수 $X$에 대한 분포가 $NB(r, p)$를 따른다고 하겠습니다. 그렇다면 이에 대해서 확률변수 $Y$도 정의해볼 수 있습니다. $Y$를 $r$번째 성공이 일어날 때까지 실패한 시행횟수라고 정의하겠습니다. 즉, $Y=X-r$입니다. 이럴 때의 pdf는 아래와 같습니다.

$g(y)= \begin{pmatrix} y+r-1\\ r-1 \end{pmatrix} p^{r}(1-p)^{y}, ~~~y=0,1,\ldots$

$X$대신 $Y+r$을 기입하여 pdf가 완성됩니다. 이렇듯 음이항 분포는 $x$에 대한 pdf 뿐 아니라 위와 같이 $y$에 대한 pdf 형식으로도 많이 이용됩니다. 모두 알아두는 것이 좋습니다! 위의 pdf는 pdf의 성질에 따라 당연히 모든 $y$값에 대한 확률을 더하면 $1$이 될 것입니다. 즉, 아래의 식을 계산하면 1이 나와야 합니다.

$\sum_{y=0}^{\infty} \begin{pmatrix} y+r-1\\ r-1 \end{pmatrix} p^{r}(1-p)^{y} = \sum_{y=0}^{\infty} \begin{pmatrix} y+r-1\\ y \end{pmatrix} p^{r}(1-p)^{y} $

이를 앞에서 설명한 $(1-x)^{-s}$ 이항정리를 적용하면 쉽게 증명이 가능합니다.

$ \begin{align*} \sum_{y=0}^{\infty} \begin{pmatrix} y+r-1\\ r-1 \end{pmatrix} p^{r}(1-p)^{y} &= \sum_{y=0}^{\infty} \begin{pmatrix} y+r-1\\ y \end{pmatrix} p^{r}(1-p)^{y} \\ &= p^{r} \times [1-(1-p)]^{-r} \\ &= 1 \\ \end{align*} $

결론적으로, 음이항분포라는 이름이 붙여진 이름은 위와 같이 음의 지수 $-s$을 갖는 $(1-x)^{-s}$ 이항정리를 이용한 것에서 유래되었습니다!

마지막으로, 음이항분포와 이항분포의 관계에 대해서 설명을 드리겠습니다. $X~{\sim}~NB(r, p), Y~{\sim}~B(n, p)$에서 아래와 같은 식이 성립합니다.

$ P(X \leq n)=\sum_{k=r}^{n}\begin{pmatrix} n\\ k \end{pmatrix} p^{k}(1-p)^{n-k} = P(Y \geq r) $

중변과 우변의 등식은 자명하고, 좌변의 $P(X \leq n)$은 $r$번의 성공이 $n$번 시행 전에 이루어질 수 있다는 뜻이므로, 그 말은 $n$번 시행까지 $r$번의 성공을 이미 달성하고 더 달성할 수 있다는 뜻이 됩니다. 따라서, 좌변과 중변의 등식이 성립합니다. 결론적으로 $X \leq n$은 $r$개의 성공을 거두는데 $n$ 이하의 시행횟수가 필요한 사건, $Y \geq r$은 $n$개의 시행에서 $r$개 이상의 성공을 거두는 사건을 의미함으로써 위의 등식이 성립함을 직관적으로 알 수 있습니다. 내용은 같지만 관점에 따라 부등호가 달라지는 식이 만들어지는 것으로 봐서는 음이항분포라는 이름이 개인적으로는 잘 만들어진 분포 이름이라고 생각되네요!

특징

음이항분포의 기댓값과 분산을 구하는 방법을 두 가지로 설명드리겠습니다. 먼저 기하분포를 따르는 확률변수의 합을 이용한 방법입니다.

$X~{\sim}~NB(r, p),~~X\overset{\mathrm{d}}{\equiv}Z_{1}+\cdots+Z_{r},~~Z_{i}~\overset{\mathrm{iid}}{\sim}~Geo(p)(i=1,\cdots,r)$에서

$ \begin{align*} E(X) &= E(\sum_{k=1}^{r}Z_k) \\ &=rE(Z_1) \\ &=\frac{r}{p} \\ Var(X) &= Var(\sum_{k=1}^{r}Z_k) \\ &=rVar(Z_1) \\ &=\frac{r(1-p)}{p^2} \\ \end{align*} $

두 번째 방법은 $r$번째 성공이 일어날 때까지 실패한 시행횟수 $Y$를 이용한 방법입니다. $Y=X-r$에서 기댓값을 먼저 구해보면,

$ \begin{align*} E(Y)&=\sum_{y=0}^{\infty} y \begin{pmatrix} y+r-1\\ y \end{pmatrix} p^r(1-p)^y \\ &=\sum_{y=1}^{\infty} y \frac{(y+r-1)(y+r-2)\cdots(y+r-1-y+1)}{y!} p^r(1-p)^y \\ & let.~~g=y-1 \\ &=rp^r \sum_{y=1}^{\infty} \frac{(y+r-1)\cdots(r+1)}{(y-1)!} (1-p)^y \\ &=rp^r \sum_{g=0}^{\infty} \frac{(r+g)(r+g-1)\cdots(r+1)}{g!} (1-p)^g(1-p) \\ &=rp^r(1-p) \sum_{g=0}^{\infty} \begin{pmatrix} (r+1)+g-1\\ g \end{pmatrix} (1-p)^g \\ &=rp^r(1-p)[1-(1-p)]^{-(r+1)} \\ &=\frac{r(1-p)}{p} \\ E(X)&=E(Y+r) \\ &=\frac{r(1-p)}{p}+r \\ &=\frac{r}{p} \\ \end{align*} $

또한, 분산은 아래와 같이 구할 수 있습니다.

$ \begin{align*} E(Y(Y-1))&=\sum_{y=0}^{\infty} y(y-1) \begin{pmatrix} y+r-1\\ y \end{pmatrix} p^r(1-p)^y \\ & let.~~g=y-2 \\ &=r(r+1)p^r \sum_{g=0}^{\infty} \begin{pmatrix} (r+2)+g-1\\ g \end{pmatrix} (1-p)^g(1-p)^2 \\ &=r(r+1)p^r(1-p)^2p^{-r-2} \\ &=\frac{r(r+1)(1-p)^2}{p^2} \\ \therefore Var(Y)&=E(Y(Y-1))+E(Y)-[E(Y)]^2 \\ &= \frac{r(r+1)(1-p)^2}{p^2}+\frac{r(1-p)}{p}-\frac{r^2(1-p)^2}{p^2} \\ &=\frac{r(1-p)}{p^2} \\ &=Var(X)~~~~(\because Var(Y)=Var(X-r)=Var(X)) \\ \end{align*} $

적률생성함수는 기하분포를 따르는 확률변수의 합과 mgf의 성질을 이용하여 구해보았습니다! $X~{\sim}~NB(r, p),~~X\overset{\mathrm{d}}{\equiv}Z_{1}+\cdots+Z_{r},~~Z_{i}~\overset{\mathrm{iid}}{\sim}~Geo(p)(i=1,\cdots,r)$에서

$ \begin{align*} M_{X}(t) &= M_{Z_1+\cdots+Z_r}(t) \\ &= M_{Z_1}(t) \times \cdots \times M_{Z_r}(t)~~~~(\because ~~ properties ~~ of ~~ mgf) \\ &= [M_{Z_1}(t)]^r \\ &= [\frac{pe^{t}}{1-e^{t}(1-p)}]^r, ~~~~t<-log(1-p)~~~~(\because ~~ M_{Z_1}(t)=\frac{pe^{t}}{1-e^{t}(1-p)}) \\ \end{align*} $

기하분포도 이항분포와 비슷한 성질이 있습니다. $X_{1} ~{\sim}~NB(r_{1}, p), X_{2} ~{\sim}~NB(r_{2}, p)$이고, $X_{1},~ X_{2}$가 서로 독립이면, $X_{1}+X_{2} ~{\sim}~NB(r_{1} + r_{2}, p)$가 됩니다. 적률생성함수의 분포 결정성을 이용하여 증명할 수 있습니다.

$pf.$

$ \begin{align*} M_{X_{1}}(t) &= [\frac{pe^{t}}{1-e^{t}(1-p)}]^{r_1} \\ M_{X_{1}}(t) &= [\frac{pe^{t}}{1-e^{t}(1-p)}]^{r_2} \\ M_{X_{1} + X_{2}}(t) &= M_{X_{1}}(t) \times M_{X_{2}}(t) ~~~~ (\because ~~ properties ~~ of ~~ mgf) \\ &= [\frac{pe^{t}}{1-e^{t}(1-p)}]^{r_1+r_2} \\ &\therefore X_{1}+X_{2} ~{\sim}~NB(r_{1} + r_{2}, p) \\ \end{align*} $

첫 번째 그래프에서는 성공 개수를 5개로 고정했을 때, 성공확률이 증가할수록 점점 왼쪽으로 치우친 형태를 보이고 있습니다. 즉, 성공확률이 증가할수록 실패 개수가 적어질 확률이 커지기 때문에 왼쪽으로 점점 이동하게 됩니다.

사진 1

두 번째 그래프에서는 성공확률을 0.5로 고정했을 때, 성공 개수가 증가할수록 점점 오른쪽으로 치우친 형태를 보이고 있습니다. 성공 개수가 증가한다는 것은 그만큼을 달성하기 위해 실패의 개수도 증가할 가능성이 높아지는 것이므로 오른쪽으로 점점 이동하게 됩니다.

사진 2


Reference

  1. 수리통계학    [송성주, 전명식 지음]
  2. 수리통계학    [김우철 지음]
  3. 서울시립대학교 수리통계학 I 수업    [정병철 교수님]
  4. 고려대학교 추론통계학 I 수업    [송성주 교수님]


DATA_100%_LOGO_LIGHT



댓글남기기