[경고] 아래 글을 읽지 않고 "정규 분포"를 보면 바보로 느껴질 수 있습니다.
[그림 1] 표준 편차 $\sigma$에 대한 정규 분포의 확률 밀도 함수 크기(출처: wikipedia.org)
모든 확률 분포 중에서 가장 기본이 되면서도 너무나 중요한 개념은 정규 분포(正規分布, normal distribution) 혹은 가우스 분포(Gaussian distribution)이다. 정규라는 어려운 말을 쓰고 있지만, 정규 분포 대신 평범한 분포라고 생각해도 된다. 모든 확률 변수(random variable)가 내재적으로 가지고 있는 평범성이나 정상인 상태를 추출해서 만든 기적의 범용 분포이기 때문에[중심 극한 정리(central limit theorem, CLT)에 따라 임의 확률 분포의 합은 항상 정규 분포에 수렴하기 때문에], [그림 1]과 같은 종 모양의 확률 밀도를 가지는 특성을 정규 분포라고 부른다. 다른 관점으로 정규 분포를 제외한 다른 모든 확률 분포는 일상성을 잃은 특이하고 비정상적인 분포가 된다. 전체 실수 영역에서 정의된 정규 분포가 가진 확률 밀도 함수(probability density function, PDF) $f_X(x)$는 다음과 같다.
(1)
여기서 $X$는 확률 변수, $\mu$는 평균(mean or average), $\sigma$는 표준 편차(standard deviation)이다. 정규 분포는 $X$ $\sim$ $N(\mu, \sigma^2)$으로 간략히 쓰기도 한다. 정규 분포의 누적 분포 함수(cumulative distribution function, CDF)는 오차 함수(error function)로 표현된다.
(2)
여기서 $\operatorname{erf}(x)$는 오차 함수, $x$가 커질 때 $\operatorname{erf}(x)$는 1에 수렴한다. 정규 분포의 PDF와 CDF는 다소 복잡해 보이므로, $z$ = $(x- \mu) \mathbin{/} \sigma$로 변수 치환해서 간략화한 표준 정규 분포(standard normal distribution)가 많이 사용된다.
(3)
여기서 표준 정규 분포의 평균과 표준 편차는 각각 0과 1이다. 식 (3)처럼 $z$로 정규화한 점수는 표준 점수(standard score) 혹은 Z점수(z-score)로 부른다. 표준 점수는 수치가 너무 작기 때문에, 우리에게 익숙한 100점 만점 기준으로 근사하는 T점수(t-score)도 쓰인다. T점수는 $t$ = $50 + 10 z$로 다시 변수를 바꿈으로써 평균을 50, 표준 편차를 10으로 맞춘다. T점수는 대학수학능력시험의 상대 척도로 사용된다. 정규 분포의 평균과 분산을 계산하기 위해 식 (1)에 대해 무한 적분을 해본다.
(4a)
(4b)
[그림 2] 대한민국의 합계 출산율(total fertility rate) 추이(출처: wikipedia.org)
출생 성비의 신비를 밝히기 위해 스 흐그라베산데는 남여 성비가 $p$ = $q$ = $1/2$로 동일하다고 가정했다. 여기서 해마다 태어나는 전체 신생아 수는 평균 $n$ = 11,429명으로 어림한다. 그러면 통계에 나오는 82년 동안의 출생 성비를 사용해 남아수의 범위가 5,745–6,128명일 확률을 이항 분포로 예측한다.
(5a)
스 흐그라베산데는 고통스러운 계산을 반복해서 식 (5a)의 값을 대략 1/4로 얻었다. 런던시의 82년 통계를 고려한 경우, 계속 식 (5a)가 나오는 확률은 $(1/4)^{82}$ $\approx$ $4.28 \times 10^{-50}$이 된다. 이 확률은 말도 안되게 작은 값이므로, 남여 성비는 같을 수 없고 반드시 달라야 한다. 1733년드 무아브로 66세, 조선 영조 시절에 드 무아브르Abraham de Moivre(1667–1754)는 드 무아브르–라플라스 정리(de Moivre–Laplace theorem)를 활용하여 식 (5a)를 더 빠르고 정확하게 계산했다.
(5b)
여기서 $\mu$ = $np$ = 5714.5, $\sigma^2$ = $npq$ = 2857.25 $\approx$ $(53.45)^2$이다.
[그림 3] 가우스가 궤도를 예측한 왜행성(dwarf planet) 세레스(Ceres)(출처: wikipedia.org)
이항 분포를 오차 함수로 간단히 근사하는 PDF라면 정규 분포란 거창한 이름을 붙일 필요가 없다. 드 무아브르가 발견한 $e^{-x^2}$ 함수는 1801년가우스 24세, 조선 순조 시절 가우스Carl Friedrich Gauss(1777–1855)에 의해 최소 제곱법(least squares)으로 새롭게 등장한다[3–5]. 1801년이 시작되는 첫날인 1월 1일에 이탈리아의 사제 겸 천문학자인 피아치Giuseppe Piazzi(1746–1826)가 항성처럼 움직이는 새로운 천체를 발견했다. 계속 관측하면서 다시 행성으로 바꾸어 판단하고 관찰 활동을 지속했다. 하지만 이 천체가 태양 뒷편으로 사라지면서 그후에는 탐색이 불가능했다. 이 소식을 들은 가우스는 자신이 10대때부터 갈고 닦은 선형 최소 제곱법(linear least sqaures)을 적용해서 세레스의 다음 궤도를 확실히 예측하여 목표물을 다시 찾았다. 지속적인 연구 결과로 세레스는 행성이 아닌 소행성(小行星, asteroid)임이 밝혀졌다. [그림 3]에 보인 세레스는 인류가 처음으로 확인한 소행성이며, 명왕성과 함께 왜행성(矮行星, dwarf planet) 분류에 속한다. 가우스가 선형 최소 제곱법을 적용하며 유도한 측정 오차의 확률 분포를 증명한다.
[정규 분포(normal distribution)] [5]
다음 조건을 만족하는 측정 오차 $\epsilon$이 보이는 확률 밀도 함수 $f(\epsilon)$은 오차 함수 모양을 따른다.
- (a) 큰 오차보다는 작은 오차가 빈번하게 발생: $f(0)$이 최대
- (b) 참값 $s$를 기준으로 $\epsilon$만큼 벗어날 확률은 $-\epsilon$만큼 어긋날 확률과 동일: $f(\epsilon)$ = $f(-\epsilon)$
- (c) 최소 제곱법에 의해 반복 측정으로 얻는 가장 빈번한 혹은 최대 우도(maximum likelihood, 最大偶度)인 값은 평균 $\bar x$: $n$번 측정의 평균은 $\bar x$ = $(x_1 + x_2 + \cdots + x_n) \mathbin{/} n$
(6)
여기서 $x$와 $s$는 각각 측정의 확률 변수값 및 참값, $\epsilon$은 $x-s$인 측정 오차, $k$는 분산의 역수와 관계된 양수인 상수이다.
[증명]
각 측정은 독립 사건(independent event)이기 때문에 모든 측정을 관장하는 결합 확률 밀도 함수(joint probability density function) $F(x_1, x_2, \cdots, x_n)$을 각각의 확률 밀도 함수로 공식화한다.
(7a)
여기서 $x_i$는 $i$번째 측정의 확률 변수값이다. 식 (7a)를 $s$에 대해 미분하고 $s$ = $\bar x$를 넣으면 조건 (c)에 의해 0이 되어야 한다.
(7b)
식 (7b)의 마지막에 나타난 함수의 합을 참고해서 $\psi(x)$ = $f'(x) / f(x)$로 정의한다.
(8a)
확률 변수값 $x_i$는 임의로 선택될 수 있어서 가능한 측정값 종류 $M$을 바꾸면서 $\psi(x)$의 성질을 탐구한다. 먼저 $M$ = $1$이면 $x_i$ = $x_1$만 될 수 있다. 그러면 $\psi(0)$ = $0$이 되어야 한다. 이는 $\epsilon$ = $0$에서 $f(\epsilon)$이 최대라서 $f'(0)$ = $0$이 산출되는 조건 (a)와 동치이다. 다음 단계로 측정값 종류를 하나 늘려 $M$ = $2$로 두면, $x_i$ = $x_1$ 혹은 $x_2$가 가능하다. 여기서 임의의 측정값 $x_1, x_2$의 개수는 각각 $m_1, m_2$로 가정하고 $n$ = $m_1 + m_2$로 둔다. 이 전제를 식 (8a)에 대입해서 정리한다.
(8b)
여기서 $w_i$ = $m_i / n$, $w_1 + w_2$ = $1$, $\bar x$ = $w_1 x_1 + w_2 x_2$이다. 조건 (b)는 $f(x)$가 우함수(even function)라는 뜻이므로, 그 미분인 $f'(x)$는 기함수(odd function)가 되어야 한다. 즉, $\psi(x)$는 기함수로 나와서 식 (8b)가 1차 동차 함수(the first degree homogeneous function)로 바뀐다.
(8c)
(8d)
식 (9)가 조건 (a)를 만족하기 위해서는 $d$ = $0$, $c$ = $-k$가 되어야 한다. 여기서 $d$는 적분 상수, $k$는 양의 실수이다.
여기서 $c$는 0이 아닌 적분 상수, $\psi(0)$ = $0$도 나온다. 측정값 종류를 $M$ = $3$으로 다시 증가시켜서 식 (8a)를 재구성한다.
(8e)
식 (8e)에 $\psi(x)$ = $cx$를 대입해도 잘 성립하기 때문에, 식 (8d)는 측정값 종류에 상관없는 해가 된다. 따라서 우리가 얻기 원하는 PDF인 $f(x)$를 확정한다.
(9)
______________________________
정규 분포의 확률 변수는 여러 개를 더해서 쓰는 경우가 많다. 전체 확률 변수를 $X$ = $X_1 + X_2 + \cdots + X_n$ 및 서로 독립이라 가정하면 전체 평균과 분산은 개별 평균과 분산의 합이 된다.
(10a)
여기서 $X_i$는 독립 사건이라서 같지 않은 사건의 공분산(covariance)은 ${\rm Cov}(X_i, X_j)$ = $0$이다. 특히 독립인 확률 변수가 동일한 분포를 가진 경우는 독립 항등 분포(independent and identical distribution) 혹은 i.i.d.(iid 혹은 IID)라 이름 붙인다. 측정 과정에서 유도한 정규 분포는 측정 오차를 정의할 때 독립 항등 분포를 선택한다. 즉, 다양한 원인으로 생기는 측정 오차를 개별 정규 분포로 각각 가정한다. 측정 오차의 평균은 0이므로, 측정 오차에서 중요한 양은 분산이다. 식 (10b)에 나온 분산은 측정이 얼마나 틀어지는지 알려주는 불확도(不確度, uncertainty)를 정량화하는 중요 지표이다.
다만 정규 분포의 합인 $X$의 평균과 분산이 식 (10)으로 나온다고 해서 $X$가 정규 분포라는 보장은 없다. 이를 확인하기 위해 하나의 정규 분포에 대한 적률 생성 함수(moment-generating function, MGF) $M_X(s)$를 유도한다.
(11a)
(11b)
이 MGF는 식 (10b)로 계산된 평균과 분산을 가진 정규 분포의 MGF와 동일하다.
[그림 4] 로빗 함수로 근사하는 프로빗 함수(출처: wikipedia.org)
표준 정규 분포 $\Phi(z)$의 역함수로 프로빗 함수(probit function)도 많이 쓰인다. 프로빗은 확률 단위(probability unit)의 약어이다.
(12)
(13a)
(13b)
프로빗 함수의 계산 예시를 들면, $\Phi(1)$ = $0.841344746\cdots$이므로 ${\rm probit}(0.8413)$ $\approx$ $1$이다. 이 값은 로짓 함수를 써서 $\sqrt{\pi/8}\operatorname{logit}(0.8413)$ $\approx$ $1.0452$로 어림할 수 있다.
[참고문헌]
[1] J. L. Devore, K. N. Berk, and M. A. Carlton, Modern Mathematical Statistics With Applications, 3rd ed., Cham, Switzerland: Springer, 2021.
[2] I. Todhunter, A History of the Mathematical Theory of Probability: From the Time of Pascal to That of Laplace, Cambridge and London: Macmillan and Co., 1865.
[3] W. Sundstrom, "The origins of the normal distribution," Medium, Aug. 2019. (방문일 2024-12-29)
[4] S. Stahl, "The evolution of the normal distribution", Math. Mag., vol. 79, no. 2, pp. 96–113, Apr. 2006.
[5] E. G. Forbes, "Gauss and the discovery of Ceres," J. Hist. Astron., vol. 2, no. 3, pp. 195–199, Oct. 1971.
[다음 읽을거리]
댓글 없음 :
댓글 쓰기
욕설이나 스팸글은 삭제될 수 있습니다. [전파거북이]는 선플운동의 아름다운 인터넷을 지지합니다.