조금은 느리게 살자: 이항 분포(Binomial Distribution)

[경고] 아래 글을 읽지 않고 "이항 분포"를 보면 바보로 느껴질 수 있습니다.

[그림 1] 베르누이 시행의 예인 동전 던지기(출처: wikipedia.org)

동전 던지기, 예-아니오 질문(yes-no question)과 같이 2가지 상반된 사건만 발생하는 통계 실험(statistical experiment)은 베르누이 시행(Bernoulli trial)이라 명한다. 베르누이 시행의 제안자는 야곱 베르누이Jacob Bernoulli(1655–1705)이다. 이 베르누이 시행이 만드는 이산 확률 분포(discrete probability distribution)는 베르누이 분포(Bernoulli distribution)로 이름 붙인다. 베르누이 시행에서 가능한 경우는 2가지라서 베르누이 분포의 확률 변수(random variable)는 이진 확률 변수(binary random variable)인 $X$ = $x$만 가능하다.

(1)

여기서 $x \in \{0, 1\}$; $p$는 성공, 참, 예, 1인 확률, $q$는 실패, 거짓, 아니오, 0인 확률; $p, q$는 이진 질문(binary question)의 답변 확률이므로 배반 사건(exclusive event)의 확률이다. 베르누이 분포의 평균과 분산은 공식으로 쉽게 계산된다.

(2)

산술–기하 평균 부등식(inequality of arithmetic and geometric means)에 따라 베르누이 분포의 표준 편차는 $\sigma_X$ = $\sqrt{pq}$ $\le$ $(p+q)/2$라서 항상 0.5보다 작거나 같다.

[그림 2] 이항 분포의 예시(출처: wikipedia.org)

베르누이 시행이 독립적으로 여러 번 실행되는 경우는 베르누이 과정(Bernoulli process)이 된다. 베르누이 과정이 구성하는 이산 확률 분포가 바로 이항 분포(binomial distribution)이다.

(3)

여기서 $k$ = $0,1,\cdots, n$; $n$은 시행 회수, 이항 분포를 구성하는 계수는 이항 정리(binomial theorem)에 기인한다. 이항 분포를 따르는 확률 변수는 $X$ $\sim$ $B(n, p)$ 혹은 ${\rm Bin}(n, p)$로 표기하며, $i$번째 베르누이 확률 변수 $T_i$의 합으로 공식화한다.

(4)

여기서 각 $T_i$는 독립 사건(independent event)이다. 이항 분포 관점에서 베르누이 분포는 $X$ $\sim$ $B(1, p)$로 기술한다. 식 (4)처럼 베르누이 과정은 성공이 나온 순서를 고려하지 않고 성공과 실패가 나온 최종 결과만 가지고 판정하기 때문에, 이항 분포는 조합(combination)을 이용해서 만든다. 모두 성공이나 실패가 나올 수 있어서 $X$의 정의역은 $0, 1, \cdots, n$이다. 식 (4)와 공분산(covariance)을 이용하면 이항 분포의 평균과 분산을 편하게 결정할 수 있다.

(5)

여기서 서로 독립인 $T_i$의 공분산은 0이다.

시행 회수 $n$이 매우 커질 때는 이항 분포를 다른 확률 분포로 근사할 수 있다. 대표적인 보기가 정규 분포(normal distribution)이다. 성공 확률 $p$가 0이나 1에 근접하지 않으면서 $n$이 매우 커지면, 이항 분포는 $\mu$ = $np$, $\sigma^2$ = $npq$인 정규 분포에 수렴한다. 이항 분포의 이런 수렴 특성은 발견자 이름을 따서 드 무아브르–라플라스 정리(de Moivre–Laplace theorem)로 명한다. 드 무아브르Abraham de Moivre(1667–1754)는 아주 늦은 나이인 1738년드 무아브르 71세, 조선 영조 시절에 놀라운 이 정리를 발표했다.[발견 연도는 대략 1733년] 드 무아브르의 연구를 열심히 개선한 라플라스Pierre-Simon Laplace(1749–1827)는 이 정리 외에 드 무아브르가 시작한 Z 변환(Z-transform) 개념도 적극적으로 사용했다.

[드 무아브르–라플라스 정리(de Moivre–Laplace theorem)]
변수 $n, np, nq, x$가 모두 함께 커질 때, 이 이항 분포의 확률 변수 $X$ = $x$ $\sim$ $B(n, p)$는 정규 분포 $N(np, npq)$에 수렴한다.

(6)

여기서 $\mu$ = $np$, $\sigma^2$ = $npq$이다.

[증명]

이항 분포에 나오는 계승(factorial)을 스털링의 공식(Stirling's formula)에 따라 점근식으로 바꾼다.

(7a)

식 (7)을 식 (6)의 좌변에 대입해서 정리한다.

(7b)

가정에 의해 확률 변수에서 뽑은 $x$는 $np$와 함께 커지므로, $z$ = $x-np$인 유한한 값을 설정해서 식 (7b)에 넣는다.

(7c)

여기서 $x$ = $np + z$, $n-x$ = $nq-z$이다. 식 (7c)에 나오는 지수는 테일러 급수(Taylor series)로 전개해서 점근적 움직임을 추정한다.

(7d: 뉴턴–메르카토르 급수)

(7e)

식 (7e)를 식 (7c)의 지수에 대입해서 식 (6)을 최종적으로 얻는다.

______________________________

드 무아브르–라플라스 정리는 스털링의 공식이 가진 존재의 의미를 명확히 보여준다. 스털링이 힘들게 예측한 상수 $\sqrt{2 \pi}$는 절묘하게 정규 분포를 완성한다. 실제로 드 무아브르–라플라스 정리는 위와 같은 방식으로 라플라스Pierre-Simon Laplace(1749–1827)가 1812년라플라스 63세, 조선 순조 시절에 증명했다.

우리가 설정하는 수렴이나 발산 조건에 따라 이항 분포는 다른 분포로 바뀔 수 있다. 만약 평균 $np$가 발산하지 않고 유한한 $\lambda$에 수렴할 때는 이항 분포가 푸아송 분포(Poisson distribution)로 접근한다. 이런 특성은 중심 극한 정리(central limit theorem)에 빗대서 푸아송 극한 정리(Poisson limit theorem)로 칭한다.

[푸아송 극한 정리(Poisson limit theorem)]
시행 회수 $n$이 커지지만 평균 $np$는 $\lambda$에 수렴하는 경우, 이 이항 분포는 푸아송 분포에 수렴한다.

(8)

여기서 푸아송 분포의 평균인 $\lambda$는 주어진 시간당 평균적으로 발생하는 사건 회수이다.

[증명]

식 (7b)처럼 식 (8)의 우변에 스털링의 공식을 넣는다.

(9a)

발생 확률을 $p$ = $\lambda / n$으로 바꾸어서 식 (9a)에 대입해 정리한다.

(9b)

______________________________

시행 회수 $n$이 커질 때 평균 $np$가 유한하면 베르누이 시행의 발생 확률 $p$는 0으로 수렴해서 희귀해진다. 그래서 푸아송 극한 정리는 드물게 일어나는 사건을 다루고 있어서 희귀 사건의 법칙(law of rare events)으로도 불린다.

식 (4)는 베르누이 분포 $T_i$를 계속 더하면 이항 분포 $X$가 된다고 가정한다. 이 가정을 쉽게 증명하는 방법이 있을까? 확률 변수의 합에 대한 전체 PDF는 보통 적률 생성 함수(moment-generating function, MGF) $M_X(s)$로 구한다. 베르누이 분포의 $M_T(s)$는 식 (1)을 써서 간단히 계산한다.

(10a)