[경고] 아래 글을 읽지 않고 "이항 분포"를 보면 바보로 느껴질 수 있습니다.
[그림 1] 베르누이 시행의 예인 동전 던지기(출처: wikipedia.org)
동전 던지기, 예-아니오 질문(yes-no question)과 같이 맞고 틀리는 2가지 경우만 나오는 통계 실험(statistical experiment)은 베르누이 시행(Bernoulli trial)이라 명한다. 베르누이 시행의 제안자는 야곱 베르누이Jacob Bernoulli(1655–1705)이다. 이 베르누이 시행이 만드는 이산 확률 분포(discrete probability distribution)는 베르누이 분포(Bernoulli distribution)로 이름 붙인다. 베르누이 시행에서 가능한 경우는 2가지라서 베르누이 분포의 확률 변수(random variable)는 이진 확률 변수(binary random variable)인 $X$ = $x$만 가능하다.
(1)
여기서 $x \in \{0, 1\}$; $p$는 성공, 참, 예, 1인 확률, $q$는 실패, 거짓, 아니오, 0인 확률; $p, q$는 이진 질문(binary question)의 답변 확률이므로 배반 사건(exclusive event)의 확률이다. 베르누이 분포의 평균과 분산은 쉽게 계산된다.
(2)
산술–기하 평균 부등식(inequality of arithmetic and geometric means)에 따라 베르누이 분포의 표준 편차는 $\sigma_X$ = $\sqrt{pq}$ $\le$ $(p+q)/2$라서 항상 0.5보다 작다.
[그림 2] 이항 분포의 예시(출처: wikipedia.org)
베르누이 시행이 독립적으로 여러 번 실행되는 경우는 베르누이 과정(Bernoulli process)이 된다. 베르누이 과정이 구성하는 이산 확률 분포가 바로 이항 분포(binomial distribution)이다.
(3)
여기서 $k$ = $0,1,\cdots, n$; $n$은 시행 회수, 이항 분포를 구성하는 계수는 이항 정리(binomial theorem)에 기인한다. 이항 분포를 따르는 확률 변수는 $X$ $\sim$ $B(n, p)$로 표기하며, $i$번째 베르누이 확률 변수 $T_i$의 합으로 공식화한다.
(4)
여기서 $T_i$는 독립 사건(independent event)이다. 식 (4)처럼 베르누이 과정은 성공이 나온 순서를 고려하지는 않고 성공과 실패가 나온 최종 결과만 가지고 판정하기 때문에, 이항 분포는 조합(combination)을 이용해서 만든다. 모두 성공이나 실패가 나올 수 있어서 $X$의 정의역은 $0, 1, \cdots, n$이다. 식 (4)와 공분산(covariance)을 이용하면 이항 분포의 평균과 분산을 편하게 결정할 수 있다.
(5)
여기서 서로 독립인 $T_i$의 공분산은 0이다.
시행 회수 $n$이 매우 커질 때는 이항 분포를 다른 확률 분포로 근사할 수 있다. 대표적인 보기가 정규 분포(normal distribution)이다. 성공 확률 $p$가 0이나 1에 근접하지 않으면서 $n$이 매우 커지면, 이항 분포는 $\mu$ = $np$, $\sigma^2$ = $npq$인 정규 분포에 수렴한다. 이항 분포의 이런 수렴 특성은 발견자 이름을 따서 드 무아브르–라플라스 정리(de Moivre–Laplace theorem)로 명한다. 드 무아브르Abraham de Moivre(1667–1754)는 아주 늦은 나이인 1738년드 무아브르 71세, 조선 영조 시절에 놀라운 이 정리를 발견했다. 드 무아브르의 연구를 열심히 개선한 라플라스Pierre-Simon Laplace(1749–1827)는 이 정리 외에 드 무아브르가 시작한 Z 변환(Z-transform) 개념도 적극적으로 사용했다.
[다음 읽을거리]
댓글 없음 :
댓글 쓰기
욕설이나 스팸글은 삭제될 수 있습니다. [전파거북이]는 선플운동의 아름다운 인터넷을 지지합니다.