[연속형 분포] 베타 분포
오랜만에 글쓰러 왔습니다. 분명 회사에서는 출장 1주일이면 된다고 했는데 뜻밖의 사정으로 미국에 2주 반을 잡혀있었네요… 덕분에 5월이 순식간에 지나가버렸고, 어느덧 6월이 되었습니다. 😅 한국에 귀국한지 얼마 안되서 아직 시차적응도 덜 됐습니다. 이번 시간에는 베타 분포에 대해 설명드리려 합니다. 연속형 분포 포스팅도 얼마 남지 않았네요!
정의
구간 $(0, 1)$상의 연속형 확률변수의 분포를 표현하는 데 사용될 수 있는 분포가 있습니다. 그것이 바로 베타분포(Beta Distribution)입니다. 베타분포를 설명하려면 베타함수(Beta Distribution)에 대한 정의가 필요합니다. 정의는 아래와 같습니다.
$ \begin{align*} B(a, b) &= \int_{0}^{1} x^{a - 1}(1 - x)^{b - 1} ~dx \\ &= \frac {\Gamma(a) \Gamma(b)}{\Gamma(a + b)} \\ \end{align*} $
감마함수에 대해서는 감마분포 포스트를 참고 부탁드립니다. 위의 베타함수를 이용한 베타분포의 pdf는 다음과 같습니다.
$ \begin{align*} f(x) &= \frac {1}{B(a, b)}x^{a - 1}(1 - x)^{b - 1}, ~~~0 < x < 1 \\ \end{align*} $
위는 $X~{\sim}~Beta(a, b)$를 따르는 확률변수의 pdf 입니다. 베타함수에 감마함수가 들어가있듯이, 베타분포는 감마분포와 연관이 있습니다. 이는 두 개의 서로 다른 감마분포의 결합확률밀도함수와 주변확률밀도함수를 통해 증명할 수 있으나 여기에서는 다루지 않겠습니다. 베타분포의 정의는 감마분포를 이용하여 아래와 같이 나타낼 수 있습니다.
$X~{\sim}~Beta(\alpha_{1}, \alpha_{2})~~\Leftrightarrow~~X\overset{\mathrm{d}}{\equiv}\frac {Z_{1}}{Z_{1} + Z_{2}}, ~~Z_{i}~{\sim}~Gamma(\alpha_{i}, \beta)(i = 1, 2)~~and~~ Z_{1} \perp Z_{2} $
특징
$X~{\sim}~Beta(a, b)$인 $X$의 기댓값과 분산을 구해보겠습니다. 베타분포는 $E(X^{k})$ 값을 이용하면 쉽게 구할 수 있습니다.
$ \begin{align*} E(X^{k}) &= \frac {1}{B(a, b)} \int_{0}^{1} x^{k + a - 1}(1 - x)^{b - 1} ~dx \\ &= \frac {B(k + a, b)}{B(a, b)} \int_{0}^{1} \frac {1}{B(k + a, b)} x^{k + a - 1}(1 - x)^{b - 1} ~dx \\ &= \frac {B(k + a, b)}{B(a, b)} \\ &= \frac {\Gamma(a + b)}{\Gamma(a) \Gamma(b)} \times \frac {\Gamma(k + a) \Gamma(b)}{\Gamma(k + a + b)} \\ &= \frac {\Gamma(a + b) \Gamma(k + a)}{\Gamma(a) \Gamma(k + a + b)} \\ \end{align*} $
따라서, $X$의 평균과 분산은 위의 값을 이용하여 쉽게 구할 수 있습니다.
$ \begin{align*} E(X) &= \frac {\Gamma(a + b) \Gamma(1 + a)}{\Gamma(a) \Gamma(1 + a + b)} \\ &= \frac {a}{a + b} \\ E(X^{2}) &= \frac {\Gamma(a + b) \Gamma(2 + a)}{\Gamma(a) \Gamma(2 + a + b)} \\ &= \frac {a(a + 1)}{(a + b)(a + b + 1)} \\ Var(X) &= E(X^{2}) - [E(X)]^{2} \\ &= \frac {a(a + 1)}{(a + b)(a + b + 1)} - (\frac {a}{a + b})^{2} \\ &= \frac {ab}{(a + b)^{2}(a + b + 1)}\\ \end{align*} $
위의 그래프에 대해 해석해보겠습니다.
- $X~{\sim}~Beta(1, 1)$이라면 pdf는 $f(x) = 1,~~0<x<1$이 됩니다. 즉, $X~{\sim}~U(0, 1)$이 되고 수평선의 pdf를 가지게 됩니다.
-
$X~{\sim}~Beta(0.5, 0.5)$라면 pdf는 Tube 형태의 그래프가 만들어집니다. $x$와 $(1-x)$의 승수가 음수가 되어버리므로 $x = 0.5$일 때, pdf 값이 가장 낮아집니다. 반대로 $x$가 $0.5$에서 벗어날수록 $x$와 $(1-x)$ 둘 중 하나의 값이 작아지게 되고, 승수가 음수이므로 pdf 값은 기하급수적 상승하게 됩니다. 즉, 양끝으로 갈수록 끝없이 상승하는 형태의 그래프가 생성됩니다.
- $X~{\sim}~Beta(3, 3)$라면 pdf는 0.5를 기준으로 언덕 형태의 그래프가 만들어집니다. $x$와 $(1-x)$의 승수가 $2$로 같으므로 $x = 0.5$일 때, pdf 값이 가장 커집니다. 이 형태는 추후에 다룰 정규분포와 비슷하게 되는데 $Beta(\alpha, \beta)$에서 $\alpha$가 $\beta$보다 크다면 오른쪽으로, 작다면 왼쪽으로 치우쳐진 형태의 그래프가 만들어집니다. 이에 대한 자세한 내용은 나중에 기회가 된다면 베이지안 통계학 포스팅을 할 때 말씀드리겠습니다.
Reference
- 수리통계학 [송성주, 전명식 지음]
- 수리통계학 [김우철 지음]
- 서울시립대학교 수리통계학 I 수업 [정병철 교수님]
- 고려대학교 추론통계학 I 수업 [송성주 교수님]
댓글남기기