[경고] 아래 글을 읽지 않고 "이항 분포"를 보면 바보로 느껴질 수 있습니다.
[그림 1] 베르누이 시행의 예인 동전 던지기(출처: wikipedia.org)
동전 던지기, 예-아니오 질문(yes-no question)과 같이 맞고 틀리는 2가지 경우만 나오는 통계 실험(statistical experiment)은 베르누이 시행(Bernoulli trial)이라 명한다. 베르누이 시행의 제안자는 야곱 베르누이Jacob Bernoulli(1655–1705)이다. 이 베르누이 시행이 만드는 이산 확률 분포(discrete probability distribution)는 베르누이 분포(Bernoulli distribution)로 이름 붙인다. 베르누이 시행에서 가능한 경우는 2가지라서 베르누이 분포의 확률 변수(random variable)는 이진 확률 변수(binary random variable)인 $X$ = $x$만 가능하다.
(1)
여기서 $x \in \{0, 1\}$; $p$는 성공, 참, 예, 1인 확률, $q$는 실패, 거짓, 아니오, 0인 확률; $p, q$는 이진 질문(binary question)의 답변 확률이므로 배반 사건(exclusive event)의 확률이다. 베르누이 분포의 평균과 분산은 쉽게 계산된다.
(2)
산술–기하 평균 부등식(inequality of arithmetic and geometric means)에 따라 베르누이 분포의 표준 편차는 $\sigma_X$ = $\sqrt{pq}$ $\le$ $(p+q)/2$라서 항상 0.5보다 작다.
[그림 2] 이항 분포의 예시(출처: wikipedia.org)
베르누이 시행이 독립적으로 여러 번 실행되는 경우는 베르누이 과정(Bernoulli process)이 된다. 베르누이 과정이 구성하는 이산 확률 분포가 바로 이항 분포(binomial distribution)이다.
(3)
여기서 $k$ = $0,1,\cdots, n$; $n$은 시행 회수, 이항 분포를 구성하는 계수는 이항 정리(binomial theorem)에 기인한다. 이항 분포를 따르는 확률 변수는 $X$ $\sim$ $B(n, p)$로 표기하며, $i$번째 베르누이 확률 변수 $T_i$의 합으로 공식화한다.
(4)
여기서 $T_i$는 독립 사건(independent event)이다. 식 (4)처럼 베르누이 과정은 성공이 나온 순서를 고려하지는 않고 성공과 실패가 나온 최종 결과만 가지고 판정하기 때문에, 이항 분포는 조합(combination)을 이용해서 만든다. 모두 성공이나 실패가 나올 수 있어서 $X$의 정의역은 $0, 1, \cdots, n$이다. 식 (4)와 공분산(covariance)을 이용하면 이항 분포의 평균과 분산을 편하게 결정할 수 있다.
(5)
여기서 서로 독립인 $T_i$의 공분산은 0이다.
[다음 읽을거리]