2024년 12월 29일 일요일

정규 분포(Normal Distribution)

[경고] 아래 글을 읽지 않고 "정규 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 표준 편차 $\sigma$에 대한 정규 분포의 확률 밀도 함수 크기(출처: wikipedia.org)

모든 확률 분포 중에서 가장 기본이 되면서도 너무나 중요한 개념은 정규 분포(正規分布, normal distribution) 혹은 가우스 분포(Gaussian distribution)이다. 정규라는 어려운 말을 쓰고 있지만, 정규 분포 대신 평범한 분포라고 생각해도 된다. 모든 확률 변수(random variable)가 내재적으로 가지고 있는 평범성이나 정상인 상태를 추출해서 만든 기적의 범용 분포이기 때문에[중심 극한 정리(central limit theorem, CLT)에 따라 임의 확률 분포의 합은 항상 정규 분포에 수렴하기 때문에], [그림 1]과 같은 종 모양의 확률 밀도를 가지는 특성을 정규 분포라고 부른다. 다른 관점으로 정규 분포를 제외한 다른 모든 확률 분포는 일상성을 잃은 특이하고 비정상적인 분포가 된다. 전체 실수 영역에서 정의된 정규 분포가 가진 확률 밀도 함수(probability density function, PDF) $f_X(x)$는 다음과 같다.

                          (1)

여기서 $X$는 확률 변수, $\mu$는 평균(mean or average), $\sigma$는 표준 편차(standard deviation)이다. 정규 분포는 $X$ $\sim$ $N(\mu, \sigma^2)$으로 간략히 쓰기도 한다. 정규 분포의 누적 분포 함수(cumulative distribution function, CDF)오차 함수(error function)로 표현된다.

                          (2)

여기서 $\operatorname{erf}(x)$는 오차 함수, $x$가 커질 때 $\operatorname{erf}(x)$는 1에 수렴한다. 정규 분포의 PDF와 CDF는 다소 복잡해 보이므로, $z$ = $(x- \mu) \mathbin{/} \sigma$로 변수 치환해서 간략화한 표준 정규 분포(standard normal distribution)가 많이 사용된다. 이때 $z$는 표준화 확률 변수(standardized random variable) $Z$ = $(X- \mu) \mathbin{/} \sigma$의 값이 된다.

                          (3)

여기서 표준 정규 분포의 평균과 표준 편차는 각각 0과 1이다. 식 (3)처럼 $z$로 정규화한 점수는 표준 점수(standard score) 혹은 Z점수(z-score)로 부른다. 표준 점수는 수치가 너무 작기 때문에, 우리에게 익숙한 100점 만점 기준으로 근사하는 T점수(t-score)도 쓰인다. T점수는 $t$ = $50 + 10 z$로 다시 변수를 바꿈으로써 평균을 50, 표준 편차를 10으로 맞춘다. T점수는 대학수학능력시험의 상대 척도로 사용된다. 정규 분포의 평균과 분산을 계산하기 위해 식 (1)에 대해 무한 적분을 해본다.

                          (4a)

                          (4b)

정규 분포는 측정 오차(measurement error)를 정량화할 때 많이 쓰이지만, 정규 분포의 시작은 이항 분포(binomial distribution)와 함께 한다[2, 3]. 니콜라우스 베르누이 1세Nicolaus I Bernoulli(1687–1759)와 긴밀하게 교류하던 네덜란드 법학자 및 수학자 스 흐그라베산데Willem 's Gravesande(1688–1742)[옛날 네덜란드어에서 's는 영어 of the에 해당]는 1712년스 흐그라베산데 24세, 조선 숙종 시절 무렵 런던시(London)의 신생아 출산율에 관심을 가졌다[2], [4]. 런던시는 1629–1710년인 82년 동안 자기 도시에서 태어난 성별 출생아 통계를 가지고 있었다. 런던시의 출생 성비(natural sex ratio at birth)를 관찰하면 남아가 여아보다 조금 더 많았다.[대략 1.03~1.07 정도로 남아가 더 많다.] 이 비율은 우연히 얻어진 숫자일까 아니면 자연의 섭리가 작용한 결과일까?

[그림 2] 대한민국의 합계 출산율(total fertility rate) 추이(출처: wikipedia.org)

출생 성비의 신비를 밝히기 위해 스 흐그라베산데는 남여 성비가 $p$ = $q$ = $1/2$로 동일하다고 가정했다. 여기서 해마다 태어나는 전체 신생아 수는 평균 $n$ = 11,429명으로 어림한다. 그러면 통계에 나오는 82년 동안의 출생 성비를 사용해 남아수의 범위가 5,745–6,128명일 확률을 이항 분포로 예측한다.

                          (5a)

스 흐그라베산데는 고통스러운 계산을 반복해서 식 (5a)의 값을 대략 1/4로 얻었다. 런던시의 82년 통계를 고려한 경우, 계속 식 (5a)가 나오는 확률은 $(1/4)^{82}$ $\approx$ $4.28 \times 10^{-50}$이 된다. 이 확률은 말도 안되게 작은 값이므로, 남여 성비는 같을 수 없고 반드시 달라야 한다. 1733년드 무아브로 66세, 조선 영조 시절에 드 무아브르Abraham de Moivre(1667–1754)는 드 무아브르–라플라스 정리(de Moivre–Laplace theorem)를 활용하여 식 (5a)를 더 빠르고 정확하게 계산했다.

                          (5b)

여기서 $\mu$ = $np$ = 5714.5, $\sigma^2$ =  $npq$ = 2857.25 $\approx$ $(53.45)^2$이다.

[그림 3] 가우스가 궤도를 예측한 왜행성(dwarf planet) 세레스(Ceres)(출처: wikipedia.org)

이항 분포를 오차 함수로 간단히 근사하는 PDF라면 정규 분포란 거창한 이름을 붙일 필요가 없다. 드 무아브르가 발견한 $e^{-x^2}$ 함수는 1801년가우스 24세, 조선 순조 시절 가우스Carl Friedrich Gauss(1777–1855)에 의해 최소 제곱법(least squares)으로 새롭게 등장한다[3]–[5]. 1801년이 시작되는 첫날인 1월 1일에 이탈리아의 사제 겸 천문학자인 피아치Giuseppe Piazzi(1746–1826)가 항성처럼 움직이는 새로운 천체를 발견했다. 계속 관측하면서 다시 행성으로 바꾸어 판단하고 관찰 활동을 지속했다. 하지만 이 천체가 태양 뒷편으로 사라지면서 그후에는 탐색이 불가능했다. 이 소식을 들은 가우스는 자신이 10대때부터 갈고 닦은 선형 최소 제곱법(linear least sqaures)을 적용해서 세레스의 다음 궤도를 확실히 예측하여 목표물을 다시 찾았다. 지속적인 연구 결과로 세레스는 행성이 아닌 소행성(小行星, asteroid)임이 밝혀졌다. [그림 3]에 보인 세레스는 인류가 처음으로 확인한 소행성이며, 명왕성과 함께 왜행성(矮行星, dwarf planet) 분류에 속한다. 가우스가 선형 최소 제곱법을 적용하며 유도한 측정 오차의 확률 분포를 증명한다.

[정규 분포(normal distribution)] [5]
다음 조건을 만족하는 측정 오차 $\epsilon$이 보이는 확률 밀도 함수 $f(\epsilon)$은 오차 함수 모양을 따른다.
  • (a) 큰 오차보다는 작은 오차가 빈번하게 발생: $f(0)$이 최대
  • (b) 참값 $s$를 기준으로 $\epsilon$만큼 벗어날 확률은 $-\epsilon$만큼 어긋날 확률과 동일: $f(\epsilon)$ = $f(-\epsilon)$
  • (c) 최소 제곱법에 의해 반복 측정으로 얻는 가장 그럴듯한 혹은 최대 우도(maximum likelihood, 最大偶度)인 값은 평균 $\bar x$: $n$번 측정의 평균은 $\bar x$ = $(x_1 + x_2 + \cdots + x_n) \mathbin{/} n$
                          (6)

여기서 $x$와 $s$는 각각 측정의 확률 변수값 및 참값, $\epsilon$은 $x-s$인 측정 오차, $k$는 분산의 역수와 관계된 양수인 상수이다.

[증명]
각 측정은 독립 사건(independent event)이기 때문에 모든 측정을 관장하는 결합 확률 밀도 함수(joint probability density function) $F(x_1, x_2, \cdots, x_n)$을 각각의 확률 밀도 함수로 공식화한다.

                          (7a)

여기서 $x_i$는 $i$번째 측정의 확률 변수값이다. 식 (7a)를 $s$에 대해 미분하고 $s$ = $\bar x$를 넣으면 조건 (c)에 의해 0이 되어야 한다.

                          (7b)

식 (7b)의 마지막에 나타난 함수의 합을 참고해서 $\psi(x)$ = $f'(x) / f(x)$로 정의한다.

                          (8a)

확률 변수값 $x_i$는 임의로 선택될 수 있어서 가능한 측정값 종류 $M$을 바꾸면서 $\psi(x)$의 성질을 탐구한다. 먼저 $M$ = $1$이면 $x_i$ = $x_1$만 될 수 있다. 그러면 $\psi(0)$ = $0$이 되어야 한다. 이는 $\epsilon$ = $0$에서 $f(\epsilon)$이 최대라서 $f'(0)$ = $0$이 산출되는 조건 (a)와 동치이다. 다음 단계로 측정값 종류를 하나 늘려 $M$ = $2$로 두면, $x_i$ = $x_1$ 혹은 $x_2$가 가능하다. 여기서 임의의 측정값 $x_1, x_2$의 개수는 각각 $m_1, m_2$로 가정하고 $n$ = $m_1 + m_2$로 둔다. 이 전제를 식 (8a)에 대입해서 정리한다.

             (8b)

여기서 $w_i$ = $m_i / n$, $w_1 + w_2$ = $1$, $\bar x$ = $w_1 x_1 + w_2 x_2$이다. 조건 (b)는 $f(x)$가 우함수(even function)라는 뜻이므로, 그 미분인 $f'(x)$는 기함수(odd function)가 되어야 한다. 즉, $\psi(x)$는 기함수로 나와서 식 (8b)가 1차 동차 함수(the first degree homogeneous function)로 바뀐다.

                          (8c)

오일러의 동차 함수 정리(Euler's homogeneous function theorem)를 써서 $\psi(x)$를 유일하고 확정적으로 유도한다.

                          (8d)

여기서 $c$는 0이 아닌 적분 상수, $\psi(0)$ = $0$도 나온다. 측정값 종류를 $M$ = $3$으로 다시 증가시켜서 식 (8a)를 재구성한다.

                          (8e)

식 (8e)에 $\psi(x)$ = $cx$를 대입해도 잘 성립하기 때문에, 식 (8d)는 측정값 종류에 상관없는 해가 된다. 따라서 우리가 얻기 원하는 PDF인 $f(x)$를 확정한다.

                          (9)

식 (9)가 조건 (a)를 만족하기 위해서는 $d$ = $0$, $c$ = $-k$가 되어야 한다. 여기서 $d$는 적분 상수, $k$는 양의 실수이다.
______________________________

정규 분포의 확률 변수는 여러 개를 더해서 쓰는 경우가 많다. 전체 확률 변수를 $X$ = $X_1 + X_2 + \cdots + X_n$ 및 서로 독립이라 가정하면 전체 평균과 분산은 개별 평균과 분산의 합이 된다.

                          (10a)

                          (10b)

여기서 $X_i$는 독립 사건이라서 같지 않은 사건의 공분산(covariance)은 ${\rm Cov}(X_i, X_j)$ = $0$이다. 특히 독립인 확률 변수가 동일한 분포를 가진 경우는 독립 항등 분포(independent and identical distribution) 혹은 i.i.d.(iid 혹은 IID)라 이름 붙인다. 측정 과정에서 유도한 정규 분포는 측정 오차를 정의할 때 독립 항등 분포를 선택한다. 즉, 다양한 원인으로 생기는 측정 오차를 개별 정규 분포로 각각 가정한다. 측정 오차의 평균은 0이므로, 측정 오차에서 중요한 양은 분산이다. 식 (10b)에 나온 분산은 측정이 얼마나 틀어지는지 알려주는 불확도(不確度, uncertainty)를 정량화하는 중요 지표이다.
다만 정규 분포의 합인 $X$의 평균과 분산이 식 (10)으로 나온다고 해서 $X$가 정규 분포라는 보장은 없다. 이를 확인하기 위해 하나의 정규 분포에 대한 적률 생성 함수(moment-generating function, MGF) $M_X(s)$를 유도한다.

                          (11a)

그러면 상호 독립인 정규 분포의 합으로 표현한 $X$ = $X_1 + X_2 + \cdots + X_n$의 MGF가 간단히 구해진다.

                          (11b)

이 MGF는 식 (10b)로 계산된 평균과 분산을 가진 정규 분포의 MGF와 동일하다.

[그림 4] 로빗 함수로 근사하는 프로빗 함수(출처: wikipedia.org)

표준 정규 분포 $\Phi(z)$의 역함수로 프로빗 함수(probit function)도 많이 쓰인다. 프로빗은 확률 단위(probability unit)의 약어이다.

                          (12)

프로빗 함수를 아주 잘 근사하는 함수로 로짓 함수(logit function)도 있다. 로짓 함수는 표준 로지스틱 함수(standard logistic function) $\sigma(x)$의 역함수이다.

                          (13a)

                          (13b)

프로빗 함수의 계산 예시를 들면, $\Phi(1)$ = $0.841344746\cdots$이므로 ${\rm probit}(0.8413)$ $\approx$ $1$이다. 이 값은 로짓 함수를 써서 $\sqrt{\pi/8}\operatorname{logit}(0.8413)$ $\approx$ $1.0452$로 어림할 수 있다.

[그림 5] 여러 확률 분포에 대한 과잉 첨도(excess kurtosis) $\kappa_e$ = $\kappa - 3$의 특성(출처: wikipedia.org)
N: 정규 분포(normal distribution), U: 균등 분포(uniform distribution)

최빈값에서 확률 분포가 뾰족한 정도를 정규 분포 기준으로 나타낸 지표를 첨도(尖度, kurtosis)라 부른다. 이를 위해 표준화 확률 변수 $Z$ = $(X- \mu) \mathbin{/} \sigma$의 4차 적률(the fourth moment)을 첨도 $\kappa$로 정의한다. 4차 적률로 표현한 첨도는 피어슨Karl Pearson(1857–1936)이 1905년피어슨 48세, 대한제국 시절에 제안했다[7]. 재미있게도 1892년피어슨 35세, 조선 고종 시절에 피어슨은 관념론을 기반으로 자연 법칙의 상대론(relativity)을 주창함으로써[∵ 자연 법칙은 관찰자의 인식에 상대적이며, 시공간(space and time)은 분리될 수 없고 무한하지도 않다.] 아인슈타인의 특수 상대성 이론 형성에 큰 영향을 주었다.

                          (14a)

식 (14a)에 2차 적률과 분산의 관계식인 $E[X^2]$ = $\text{Var}[X] + \mu^2$을 대입해서 간략화한다.

                          (14b)

여기서 $E[Z]$ = $0$, $\text{Var}[Z]$ = $1$, $E[Z^2]$ = $1 + 0$ = $1$이다. 따라서 첨도는 $Z^2$이 퍼진 정도인 $Z^2$의 분산에 정비례하며, $\kappa \ge 1$이 항상 성립한다.
첨도값의 기준이 되는 정규 분포의 첨도를 적분으로 구한다. 표준화 확률 변수를 사용하기 때문에 표준 정규 분포(standard normal distribution)의 4차 적률을 계산해서 정규 분포의 첨도값을 결정한다. 

                          (15)

여기서 $\Gamma(1/2)$ = $\sqrt{\pi}$이다. 정규 분포에 중심축을 두고 첨도를 정의하기 위해 과잉 첨도(excess kurtosis)를 $\kappa_e$ = $\kappa - 3$으로 만든다. [그림 5]는 여러 종류의 확률 분포에 대해 과잉 첨도를 계산한 결과를 보여준다. 당연히 정규 분포의 과잉 첨도는 0이며, 정규 분포보다 중앙부가 뾰족하고 양쪽 꼬리가 더 부풀어오르면 과잉 첨도가 0보다 커진다. 반면에 균등 분포처럼 중앙부가 평평하고 양쪽 꼬리가 거의 없는 경우는 과잉 첨도가 0보다 작아진다.
첨도란 말에는 중앙부가 굽은 모양[kurtosis의 어원이 곡선(curve)]이란 뜻이 있지만 식 (14)는 다른 관점을 보여준다. 평균 근처의 기여도는 $X-\mu$로 인해 거의 없고 평균에서 벗어날수록 $\kappa$는 점점 커진다. 따라서 첨도는 중앙보다 멀리 떨어진 이탈값(離脫値, outlier)이 있는 양끝단의 성질이 중요해서 첨도 특성을 나타내는 용어로 꼬리 성질 혹은 미부성(尾部性, tailedness)도 자주 쓰인다. 여기서 더 나가서 애매한 첨도란 명칭 대신 꼬리 두터움을 뜻하는 척도로 미후도(尾厚度, kurtosis)를 쓰자는 주장도 있다[8].
첨도는 금융 분야에 쓰이는 꼬리 위험(tail risk: 통계 분포의 양 극단에 있어서 거의 발생하지 않지만, 일단 출현하면 극단적 위험 내포) 분석에도 사용될 수 있다. 첨도가 높을수록 확률 분포의 양쪽 꼬리가 두꺼워진다. 그래서 높은 첨도를 가진 사건은 꼬리 위험이 파생될 가능성을 크게 가진다.

[참고문헌]
[1] J. L. Devore, K. N. Berk, and M. A. Carlton, Modern Mathematical Statistics With Applications, 3rd ed., Cham, Switzerland: Springer, 2021.
[2] I. Todhunter, A History of the Mathematical Theory of Probability: From the Time of Pascal to That of Laplace, Cambridge and London: Macmillan and Co., 1865.
[3] W. Sundstrom, "The origins of the normal distribution," Medium, Aug. 2019. (방문일 2024-12-29)
[4] S. Stahl, "The evolution of the normal distribution", Math. Mag., vol. 79, no. 2, pp. 96–113, Apr. 2006.
[5] E. G. Forbes, "Gauss and the discovery of Ceres," J. Hist. Astron., vol. 2, no. 3, pp. 195–199, Oct. 1971.
[6] 이지운, "정규분포와 보편성과 랜덤 행렬", HORIZON, 2021년 7월. (방문일 2025-04-25)
[7] K. Pearson, "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson: A rejoinder (The law of error and its generalizations by Fechner and Pearson: A rejoinder)," Biometrika (Biometrics), vol. 4, no. 1–2, pp. 169–212, Jun. 1905.
[8] 엄태웅, 이성백, "4차적률의 올바른 해석", 한국데이터정보과학회지, 제30권, 제5호, pp. 967–976, 2019년 9월.

[다음 읽을거리]

2024년 12월 23일 월요일

푸아송 분포(Poisson Distribution)

[경고] 아래 글을 읽지 않고 "푸아송 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 지진 발생 빈도와 분포(출처: wikipedia.org)

주어진 시간 동안 평균 횟수 $\lambda$의 비율로 무작위 발생하는 사건이 만드는 이산 확률 분포(discrete probability distribution) 중에 유명한 푸아송 분포(Poisson distribution)가 있다[1], [2].

                          (1)

여기서 $k$는 설정된 시간 간격 동안 발생하는 사건 횟수이며 그 평균은 $\lambda$, 각 사건은 서로 떨어져 발생하며 독립이다. 식 (1)의 확률 분포는 $X$ $\sim$ $\operatorname{Poi}(\lambda)$로 간단히 표시할 수 있다. 특별히 $k$ = $0$인 경우는 사건이 전혀 발생하지 않을 확률이다. 식 (1)을 참고하면 사건이 생기지 않는 확률은 $e^{-\lambda}$의 궤적을 따라간다.
푸아송 분포의 예를 들면, [그림 1]에 소개한 지진 발생 빈도는 푸아송 분포를 따른다. 현재까지 지식으로는 지진이 발생하는 원리를 알 수 없어서, 지진은 임의로 생긴다고 가정한다. 하지만 역사적으로 아주 오랜 기간 동안 특정 지역에서 발생하는 지진을 계속 관찰하고 있기 때문에 1년 동안 발생하는 지진의 평균 횟수인 $\lambda$를 알고 있다. 그러면 1년 동안 지진이 $k$번 발생할 확률은 푸아송 분포인 식 (1)로 추정 가능하다.
푸아송 분포를 상상하는 가장 좋은 방법은 이항 분포(binomial distribution)에서 희귀 사건(rare event)이 출현하는 빈도이다. 이 개념은 푸아송 극한 정리(Poisson limit theorem)로 알려져있다. 푸아송 분포의 보기로서 베르누이 과정(Bernoulli process)인 여러 번의 동전 던지기를 생각한다. 확률 실험을 위해 동전을 같은 간격으로 계속 던지며 결과를 10번 모으기 해서, 앞면이 한 번만 나오는 희귀 사건 $R$을 찾는다. 이항 분포로 계산한 이 희귀 사건의 확률은 $P(R)$ = $p$ = ${}_{10}C_1 \cdot (1/2)^{10}$ = $5/512$ $\approx$ $0.0098$이다. 쉽게 말해 10번 모으기를 $n$ = 100회 정도하면 $R$은 평균 $\lambda$ $\approx$ $np$ $\approx$ $0.98$ 혹은 한 번 정도 나온다. 이 분포는 점근적으로 푸아송 분포를 따라가기 때문에 희귀 사건 $R$이 한 번 발생하는 확률인 $\operatorname{Pr}[X = 1]$은 $e^{-0.98} \cdot 0.98$ $\approx$ $36.8$%이다. 이항 분포로 재계산한 확률은 ${}_{n}C_1 p (1-p)^{n-1}$ $\approx$ $37.0$%로 계산되어 푸아송 분포와 이항 분포의 결과는 서로 비슷하다. 이런 희귀 사건에서 이항 분포가 푸아송 분포로 수렴되는 현상이 바로 푸아송 극한 정리이다.

[그림 2] 민중을 이끄는 자유의 여신(출처: wikipedia.org)

1837년푸아송 56세, 조선 헌종 시절에 푸아송 분포를 제안한 푸아송Siméon Denis Poisson(1781–1840)은 사법 제도인 배심제(陪審制, jury system)의 한계를 설명하고 개선하기 위해 이 분포를 제안했다[1]. 푸아송 이전에 니콜라우스 베르누이 1세Nicolaus I Bernoulli(1687–1759)가 법학에 확률론을 도입한 논문으로 22세인 1709년베르누이 22세, 조선 숙종 시절에 박사 학위를 받았다[3]. 니콜라우스의 학위 지도교수는 자기 삼촌인 야곱 베르누이Jacob Bernoulli(1655–1705)였다. 니콜라우스는 형사 소송의 대원칙인 증거 재판주의(證據裁判主義, principle of evidence)의 근거를 확률론으로 증명했다. 기소된 피고인이 혹시 무죄일 수 있기 때문에, 증거 재판주의에 따라 합리적인 의심이 없을 정도로 많은 증거를 모아서 피고인의 유죄 여부를 판단해야 한다. 이 증거 재판주의의 타당성을 밝히기 위한 니콜라우스의 방법론은 간단했다. 하나의 증거가 있을 때, 피고인에 유리하도록 이 증거가 틀리는 비율을 2:1로 가정했다. 즉, 피고인이 유죄라는 명확한 증거지만, 3번중 2번은 증거가 틀릴 수 있다고 극단적으로 생각한다. 그러면 증거가 틀리는 사건을 $E$라고 할 때, $P(E)$ = $2/3$가 된다. 이에 따라 독립적인 증거가 $n$개 있는 경우, 피고인이 잘못된 유죄 판결을 받을 확률은 $(2/3)^n$이다. 그래서 $n$이 매우 커진다면  $(2/3)^n$은 0에 수렴하므로, 피고인이 결백할 확률은 없어진다.
평생 이공과대학(École Polytechnique) 교수였던 수학자 푸아송은 갑자기 왜 배심제와 평결(評決, verdict)이 내포한 근원적 문제점을 고민하고, 자기 연구 결과를 대중에게 적극적으로 알리려 노력했을까? 정치와 혁명에 적극 참여한 푸리에Joseph Fourier(1768–1830)와 거의 같은 이력을 가진 푸아송은 푸리에와 다른 길을 걸었다.[푸리에와 푸아송의 지도교수는 라그랑주; 둘 다 이공과대학 교수] 푸아송은 1830년 이전까지 정치를 멀리하고 수학과 자연 과학에만 집중했다. 이 무렵 푸아송의 연구 관점을 이해하려면 1830년까지도 계속 이어진 혼란한 프랑스의 역사와 주변 환경을 알아야 한다. 1789년조선 정조 시절 부르봉 왕조(House of Bourbon)를 무너뜨린 프랑스 대혁명(French Revolution), 단두대 정치의 정점을 보여준 공포스러운 프랑스 제1공화국(French First Republic), 영웅 나폴레옹의 등장과 쇠락, [그림 2]에 나온 1830년조선 순조 시절 7월 혁명(July Revolution)으로 부르봉 왕조의 방계 가문인 오를레앙 왕조(House of Orléans)로의 복귀를 연이어 겪으면서, 현실적 사회 문제에 관심을 가진 푸아송은 시민이 참여하는 배심제가 지닌 장점과 한계를 자신의 주특기인 확률과 통계로 분석했다.
프랑스는 대륙법에 근간을 두고 있어 영미법의 배심제가 없던 국가였지만, 1789년 프랑스 대혁명을 거치며 1790년부터 배심제를 도입하고 1791년에 배심제의 사법적 기초를 확립했다. 이때 중세 프랑스(French middle ages)부터 존재하던 검사(prosecutor) 및 변호사(lawyer) 역할을 개조해서, 세계 최초로 변호사와 구별되는 검사 제도를 1791년에 발명했다. 이 검사제는 시민의 인권을 존중하면서 범죄자를 처벌하는 중요한 수단이다. 배심제로 인해 프랑스 사법 체계의 구성원으로 시민이 등장하였고, 사법 제도의 중요한 의무중 하나로 평범한 시민들이 이해할 수 있는 법률 해석과 적용이 등장했다. 배심원 평결은 대부분 옳은 판단을 하지만 아주 드물게 사법적으로 잘못된 판결을 내릴 수 있다. 푸아송 극한 정리에 나오는 희귀 사건의 유례가 바로 배심원이 내리는 잘못된 판정이다. 군주와 의회가 위태로운 정치적 동거를 하는 1830년대 프랑스에서 사법제의 순수성에 도전하는 듯한 푸아송의 결과가 용인될 수 있는 분위기는 허약해진 프랑스에 남아있는 위대한 정신을 보여준다. 다만 푸아송은 7월 혁명의 결과로 인해 모든 학술적 영예를 잃을 뻔했지만, 동료 과학자인 아라고François Arago(1786–1853)가 루이-필리프 1세Louis-Philippe I(1773–1850) 왕 앞에서 기지를 발휘해 구해주었다. 이후 연구 업적이 계속 쌓여서 푸아송 분포를 발표한 1837년에는 프랑스 귀족 작위를 받았다.
푸아송 분포는 사회 과학에 확률론을 접목하기 때문에 비판도 많이 받았다. 기계론이 지배하는 자연 과학에 쓰는 확률론을 인간의 자유 의지가 난무하는 사회 과학에 사용할 수 있는가? 푸아송은 여러 자료를 수집하고 통계를 내서, 큰 수의 법칙(law of large numbers)이 지배하는 조건에서는 배심원 판결의 오류를 추정하는 작업에 푸아송 분포를 쓸 수 있다고 당당히 주장했다. 지금은 확률 및 통계가 사회 과학의 기본적인 연구 방법론이 되었다.
푸아송 분포의 평균(mean or average)이 정말 $\lambda$인지 식 (1)로 계산한다.

                          (2)

식 (1)에 나온 푸아송 분포의 가정처럼 평균은 $\lambda$로 유도된다. 비슷한 방식으로 푸아송 분포의 분산(variance)도 확인한다.

                          (3)

신기하게도 푸아송 분포의 평균과 분산은 $\lambda$로 동일하다. 모든 차수의 적률(moment) $E[X^n]$을 담고 있는 적률 생성 함수(moment-generating function, MGF) $M_X(s)$를 계산한다.

                          (4)

푸아송 분포를 이루며 서로 독립인 확률 변수의 합 $X$ = $X_1 + X_2 + \cdots + X_n$의 확률 분포는 MGF로 유도한다.

                          (5)

여기서 $\lambda_i$는 $X_i$의 평균 발생 횟수이다. 따라서 확률 변수의 합 $X$는 다시 푸아송 분포가 되며 $X$ $\sim$ $\operatorname{Poi}(\lambda_1 + \lambda_2 + \cdots + \lambda_n)$을 추종한다.

[참고문헌]
[3] I. Todhunter, A History of the Mathematical Theory of Probability: From the Time of Pascal to That of Laplace, Cambridge and London: Macmillan and Co., 1865.

[다음 읽을거리]

2024년 12월 21일 토요일

이항 분포(Binomial Distribution)

[경고] 아래 글을 읽지 않고 "이항 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 베르누이 시행의 예인 동전 던지기(출처: wikipedia.org)

동전 던지기, 예-아니오 질문(yes-no question)과 같이 2가지 상반된 사건만 발생하는 통계 실험(statistical experiment)베르누이 시행(Bernoulli trial)이라 명한다. 베르누이 시행의 제안자는 야곱 베르누이Jacob Bernoulli(1655–1705)이다. 이 베르누이 시행이 만드는 이산 확률 분포(discrete probability distribution)베르누이 분포(Bernoulli distribution)로 이름 붙인다. 베르누이 시행에서 가능한 경우는 2가지라서 베르누이 분포의 확률 변수(random variable)는 이진 확률 변수(binary random variable)인 $X$ = $x$만 가능하다.

                          (1)

여기서 $x \in \{0, 1\}$; $p$는 성공, 참, 예, 1인 확률, $q$는 실패, 거짓, 아니오, 0인 확률; $p, q$는 이진 질문(binary question)의 답변 확률이므로 배반 사건(exclusive event)의 확률이다. 베르누이 분포의 평균과 분산은 공식으로 쉽게 계산된다.

                          (2)

산술–기하 평균 부등식(inequality of arithmetic and geometric means)에 따라 베르누이 분포의 표준 편차는 $\sigma_X$ = $\sqrt{pq}$ $\le$ $(p+q)/2$라서 항상 0.5보다 작거나 같다.

[그림 2] 이항 분포의 예시(출처: wikipedia.org)

베르누이 시행이 독립적으로 여러 번 실행되는 경우는 베르누이 과정(Bernoulli process)이 된다. 베르누이 과정이 구성하는 이산 확률 분포가 바로 이항 분포(binomial distribution)이다.

                          (3)

여기서 $k$ = $0,1,\cdots, n$; $n$은 시행 횟수, 이항 분포를 구성하는 계수는 이항 정리(binomial theorem)에 기인한다. 이항 분포를 따르는 확률 변수는 $X$ $\sim$ $B(n, p)$ 혹은 ${\rm Bin}(n, p)$로 표기하며, $i$번째 베르누이 확률 변수 $T_i$의 합으로 공식화한다.

                          (4)

여기서 각 $T_i$는 독립 사건(independent event)이다. 이항 분포 관점에서 베르누이 분포는 $X$ $\sim$ $B(1, p)$로 기술한다. 식 (4)처럼 베르누이 과정은 성공이 나온 순서를 고려하지 않고 성공과 실패가 나온 최종 결과만 가지고 판정하기 때문에, 이항 분포는 조합(combination)을 이용해서 만든다. 모두 성공이나 실패가 나올 수 있어서 $X$의 정의역은 $0, 1, \cdots, n$이다. 식 (4)와 공분산(covariance)을 이용하면 이항 분포의 평균과 분산을 편하게 결정할 수 있다.

                          (5)

여기서 서로 독립인 $T_i$의 공분산은 0이다.
시행 횟수 $n$이 매우 커질 때는 이항 분포를 다른 확률 분포로 근사할 수 있다. 대표적인 보기가 정규 분포(normal distribution)이다. 성공 확률 $p$가 0이나 1에 근접하지 않으면서 $n$이 매우 커지면, 이항 분포는 $\mu$ = $np$, $\sigma^2$ = $npq$인 정규 분포에 수렴한다. 이항 분포의 이런 수렴 특성은 발견자 이름을 따서 드 무아브르–라플라스 정리(de Moivre–Laplace theorem)로 명한다. 드 무아브르Abraham de Moivre(1667–1754)는 아주 늦은 나이인 1738년드 무아브르 71세, 조선 영조 시절에 놀라운 이 정리를 발표했다.[발견 연도는 대략 1733년] 드 무아브르의 연구를 열심히 개선한 라플라스Pierre-Simon Laplace(1749–1827)는 이 정리 외에 드 무아브르가 시작한 Z 변환(Z-transform) 개념도 적극적으로 사용했다.

[드 무아브르–라플라스 정리(de Moivre–Laplace theorem)]
변수 $n, np, nq, x$가 모두 함께 커질 때, 이 이항 분포의 확률 변수 $X$ = $x$ $\sim$ $B(n, p)$는 정규 분포 $N(np, npq)$에 수렴한다.

                             (6)

여기서 $\mu$ = $np$, $\sigma^2$ = $npq$이다.

[증명]
이항 분포에 나오는 계승(factorial)스털링의 공식(Stirling's formula)에 따라 점근식으로 바꾼다.

                   (7a)

식 (7)을 식 (6)의 좌변에 대입해서 정리한다.

                  (7b)

가정에 의해 확률 변수에서 뽑은 $x$는 $np$와 함께 커지므로, $z$ = $x-np$인 유한한 값을 설정해서 식 (7b)에 넣는다.

                  (7c)

여기서 $x$ = $np + z$, $n-x$ = $nq-z$이다. 식 (7c)에 나오는 지수는 테일러 급수(Taylor series)로 전개해서 점근적 움직임을 추정한다.

                        (7d: 뉴턴–메르카토르 급수)

                  (7e)

식 (7e)를 식 (7c)의 지수에 대입해서 식 (6)을 최종적으로 얻는다.
______________________________

드 무아브르–라플라스 정리는 스털링의 공식이 가진 존재의 의미를 명확히 보여준다. 스털링이 힘들게 예측한 상수 $\sqrt{2 \pi}$는 절묘하게 정규 분포를 완성한다. 실제로 드 무아브르–라플라스 정리는 위와 같은 방식으로 라플라스Pierre-Simon Laplace(1749–1827)가 1812년라플라스 63세, 조선 순조 시절에 증명했다.
우리가 설정하는 수렴이나 발산 조건에 따라 이항 분포는 다른 분포로 바뀔 수 있다. 만약 평균 $np$가 발산하지 않고 유한한 $\lambda$에 수렴할 때는 이항 분포가 푸아송 분포(Poisson distribution)로 접근한다. 이런 특성은 중심 극한 정리(central limit theorem)에 빗대서 푸아송 극한 정리(Poisson limit theorem)로 칭한다.

[푸아송 극한 정리(Poisson limit theorem)]
시행 횟수 $n$이 커지지만 평균 $np$는 $\lambda$에 수렴하는 경우, 이 이항 분포는 푸아송 분포에 수렴한다.

                             (8)

여기서 푸아송 분포의 평균인 $\lambda$는 주어진 시간당 평균적으로 발생하는 사건 횟수이다.

[증명]
식 (7b)처럼 식 (8)의 우변에 스털링의 공식을 넣는다.

                  (9a)

발생 확률을 $p$ = $\lambda / n$으로 바꾸어서 식 (9a)에 대입해 정리한다.

                  (9b)
______________________________

시행 수 $n$이 커질 때 평균 $np$가 유한하면 베르누이 시행의 발생 확률 $p$는 0으로 수렴해서 희귀해진다. 그래서 푸아송 극한 정리는 드물게 일어나는 사건을 다루고 있어서 희귀 사건의 법칙(law of rare events)으로도 불린다.
식 (4)는 베르누이 분포 $T_i$를 계속 더하면 이항 분포 $X$가 된다고 가정한다. 이 가정을 쉽게 증명하는 방법이 있을까? 확률 변수의 합에 대한 전체 PDF는 보통 적률 생성 함수(moment-generating function, MGF) $M_X(s)$로 구한다. 베르누이 분포의 $M_T(s)$는 식 (1)을 써서 간단히 계산한다.

                  (10a)

식 (10a)와 MGF의 성질을 써서 $X$ = $T_1 + T_2 + \cdots + T_n$인 MGF를 얻는다.

                  (10b)

MGF의 정의에 이항 분포 $X$의 확률 분포인 식 (3)을 넣는다.

                  (10c)

완전 다르게 구한 MGF인 식 (10b)와 (10c)는 동일하기 때문에, 베르누이 시행을 $n$번 실시한 확률 분포는 이항 분포가 된다. 여기서 MGF가 같을 경우에 그 확률 분포가 같다는 보장은 라플라스 변환(Laplace transform)이 담당한다.