[경고] 아래 글을 읽지 않고 "베이즈 정리"를 보면 바보로 느껴질 수 있습니다.
[그림 1] 시각화로 증명하는 베이즈 정리(출처: wikipedia.org)
베이즈 정리(Bayes' theorem)는 사건(event) $A, B$의 조건부 확률(conditional probability)을 서로 뒤바꾸어 주는 평범한 수학 정리이다[1, 2].
(1a)
여기서 $P(A^C)$ = $1-P(A)$, $P(A^C|B)$ = $1-P(A|B)$; $P(A), P(B)$는 각각 별다른 조건 없이 관찰한 사건 $A, B$가 발생하는 사전 확률(prior probability), $P(B|A)$는 사건 $A$가 생긴 후 사건 $B$가 나오는 조건부 확률, $P(A|B)$는 사건 $A,B$의 선후 관계가 $P(B|A)$에서 바뀐 우리가 구하고 싶은 조건부 확률이다. 확률 밀도 함수(probability density function, PDF)를 활용해서 식 (1a)를 연속 확률 분포(continuous random distribution)로 변형할 수도 있다.
(1b)
여기서 $f_X(x)$는 확률 변수 $X$의 PDF, $f_{XY}(x, y)$는 결합 PDF, $f_{X|Y=y}(x)$는 $Y$ = $y$일 때 $X$의 조건부 확률 밀도 함수(conditional probability density function)이다.
식 (1a)에서 조건부 확률만 알면 베이즈 정리에서 모를 부분은 없다. 하지만 이런 관점이 베이즈 정리의 전부일까? 베이즈 정리는 수학사 연구의 중요성을 보여준다. 베이즈 정리인 식 (1a)는 완결된 형태로 소개되고 있지만, 영국 장로교 목사인 베이즈Thomas Bayes(1701–1761)가 제안한 모양은 아니다. 베이즈는 드 무아브르Abraham de Moivre(1667–1754)의 책을 통해 열심히 확률론을 연구하고 논문 발표 없이 1761년에 생을 마감했다. 가족들이 베이즈의 유품을 정리하던 중, 베이즈 정리를 담은 원고가 나와서 베이즈의 망년지우(忘年之友)인 수학자 겸 신학자 프라이스Richard Price(1723–1791)에게 전달했다. 프라이스는 2년의 검토와 수정을 거쳐 1763년프라이스 40세, 조선 영조 시절 12월 23일에 런던 왕립학회(The Royal Society of London)에서 베이즈 정리를 발표하고 논문으로 출판했다[1]. 베이즈와 별개로 확률론의 대가인 라플라스Pierre-Simon Laplace(1749–1827)는 1774년라플라스 25세, 조선 영조 시절에 베이즈 정리를 재발견하고 현대적 관점으로 이론을 개선했다. 이후 베이즈 정리가 유명해지면서 조건부 확률이 개발되어, 이제는 누구나 베이즈 정리를 이해하고 활용할 수 있다. 조건부 확률을 놓고 보면 베이즈 정리가 쉽지만, 베이즈 정리에서 조건부 확률을 도출하기는 참 어렵다. 베이즈 정리와 같은 중요한 발견에서 핵심 개념만 뽑아서 누구나 이해할 수 있도록 만드는 연구자가 진정한 수학자이다.
식 (1)은 너무 공식 지향적이라서 베이즈 정리에 이야기를 조금 입힌다[2, 3]. 이를 위해 무미건조한 사건 $A, B$ 대신 가설(hypothesis) 혹은 신념(belief) 및 증거(evidence) 혹은 지식(knowledge)이라는 뜻의 $H, E$로 식 (1a)를 다시 쓴다[3].
(2a)
여기서 사건 $E$는 관찰하거나 경험한 증거 혹은 지식, $H$는 귀납적으로 타당하고 믿는 가설 혹은 신념이다. 식 (2a)에 나온 조건부 확률 $P(H|E)$는 사전 확률이 아니고 증거 $E$로 개선되는 사후 확률(posterior probability)이다. 똑같아 보이는 조건부 확률 $P(E|H)$는 신념에 따라 나오는 증거라서 그럴듯하거나 짝을 이룬다는 우도(偶度, likelihood) 혹은 가능도(可能度)라 부른다. 수학 분야에 증거와 믿음이 나오는 부분은 이상하게 생각되지만, 베이즈 정리의 제안자인 베이즈는 장로교 목사였다. 목사인 수학자가 "믿음은 보지 못하는 것들의 증거"란 말씀처럼 수학과 논리로 하나님의 섭리를 증명하려 했다는 점을 생각할 때, 사건 대신 증거와 믿음은 충분히 설득력 있는 용어이다. 가설 혹은 신념인 $H$ 대신 현실을 모사하는 모형 모수(模型母數, model parameter)로 $\theta$를 쓰기도 한다.
(2b)
베이즈 정리의 유용성을 확인하기 위한 예시로써 HIV(인간 면역 결핍 바이러스, Human Immunodeficiency Virus) 검사(test)를 고려한다[4]. 가설 $H$와 증거 $E$는 다음처럼 선택한다.
- 가설 혹은 신념 $H$: 이 사람이 HIV를 가지고 있다.
- 증거 혹은 지식 $E$: HIV 검사가 양성(positive)이다.
이미 공개된 미국 통계를 써서 베이즈 정리에 사용할 우도와 사전 확률을 계산한다.
- 진양성(true positive) 혹은 민감도(sensitivity): $P(E|H)$ = $0.93$
- 진음성(true negative) 혹은 특이도(specificity): $P(E^C | H^C)$ = $0.99$
- 가설의 사전 확률: 통계 조사로 1,000명중 1.48명 발병 확인; $P(H)$ = $0.00148$
- 증거의 사전 확률: $P(E)$ = $P(E|H) P(H)$ $+$ $P(E|H^C)P(H^C)$ = $P(E|H) P(H)$ $+$ $[1-P(E^C|H^C)][1-P(H)]$ = $0.93 \cdot 0.00148$ $+$ $(1-0.99)(1-0.00148)$ = $0.0113616$
그러면 우리가 알고 싶은 사후 확률인 HIV 검사가 양성일 때 정말로 HIV를 가질 확률 $P(H|E)$ = $0.93 \cdot 0.00148 / 0.0113616$ = $0.1211$ $\approx$ 12%가 얻어진다. 이는 너무 낮은 확률이므로, 다시 두번째 HIV 검사를 해서 양성인 증거를 $E_2$로 둔다. 가설도 갱신하기 위해 $P(H_2)$를 $P(H|E)$로 재설정한다. 가설 $H_2$는 첫번째 HIV 검사에서 양성일 때 HIV를 가진다는 뜻이다. 이때 $P(H_2)$로 인해 커진 $P(E_2)$를 도출한다.
- 두번째 증거의 사전 확률: $P(E_2)$ = $P(E_2|H_2) P(H_2)$ $+$ $P(E_2|H_2^C)P(H_2^C)$ = $0.93 \cdot 0.12$ $+$ $(1-0.99)(1-0.12)$ = $0.1204$
두번째 HIV 검사가 양성일 때 진짜 HIV를 가질 사후 확률은 $P(H_2 | E_2)$ = $P(E_2 | H_2) P(H_2) \mathbin{/} P(E_2)$ = $0.93 \cdot 0.12 / 0.1204$ = $0.9269$ $\approx$ 93%로 매우 커진다.
이와 같은 방식으로 증거를 더해가며 가설을 새롭게 고치는 방식을 베이즈 갱신(Bayesian updating)이라 부른다. 베이즈 갱신은 베이즈 추론(Bayesian inference)의 중요 도구이다. 베이즈 추론은 베이즈 정리를 써서 증거 기반으로 가설을 계산하는 통계적 추론(statistical inference) 방법이다. 베이즈 추론을 구성하는 베이즈 정리는 확률을 기존과 다른 개념으로 다룬다. 전통적인 확률 정의는 특정 사건이 일어나는 경우를 계속 관찰해서 전체 경우의 수로 나눈다. 이를 빈도학파 확률(frequentist probability)이라 이름 붙인다. 빈도학파 확률을 알려면 아주 장시간 관찰이 필요하다. 하지만 베이즈 확률(Bayesian probability)은 빈도수를 재는 빈도학파 확률과 구별된다. 위에 소개한 HIV 검사의 예시처럼 베이즈 확률은 증거를 가지고 가설을 다듬어서 증거가 많아질수록 타당한 확률을 빠르게 만들어낸다. 즉, 베이즈 확률은 우리의 가설이나 신념을 증거나 지식으로 정량화한 정도를 나타낸다. 베르누이 시행(Bernoulli trial)인 동전 던지기를 보기로 빈도학파와 베이즈 확률을 비교한다. 빈도학파 관점에서 동전의 앞면이 나오는 확률 $P(A)$ = $p$를 알려면 동전을 계속 던져서 앞면이 나오는 빈도를 직관적으로 계산한다. 여기서 $A$는 동전 앞면이 나오는 사건이다. 베이즈 확률은 조금 복잡한 절차를 사용한다[5]. 처음에는 앞면이 나오는 확률을 모르기 때문에 공평하게 균등 분포(uniform distribution)를 가정한다. 그 다음에 동전 던지기 결과가 쌓임에 따라 확률 분포를 바꾸면서 $P(A)$를 지속적으로 얻는다. 이 방식을 쓰기 위해 여러 가지 모양이 가능한 베타 분포(beta distribution) $H$ $\sim$ $\beta(\alpha, \beta)$를 가설 혹은 신념 $H$로 도입한다.
(3a)
여기서 $x$는 앞면이 나오는 확률, $B(\alpha, \beta)$는 베타 함수(beta function), $\alpha, \beta$는 베타 분포의 형상 모수(shape parameter)이다. 증거 혹은 지식 $E$는 베르누이 과정(Bernoulli process)을 사용하기 때문에 이항 분포(binomial distribution) $E$ $\sim$ $B(n, x)$를 사용한다.
(3b)
여기서 $n$은 전체 시행 회수, $s$는 앞면이 나오는 회수이다. 그러면 전체 회수 $n$에서 앞면이 나오는 회수 $s$가 증거 $E$일 때 우리가 갱신하는 가설 $H$를 식 (1b)로 유도한다.
(3c)
신기하게도 사후 확률은 사전 확률과 같은 분포를 보인다. 이 경우는 사후 확률을 사전 확률의 짝이라는 의미로 켤레 사전 확률(conjugate prior)로 이름 붙인다. 모든 준비가 다 되어서 베이즈 갱신을 통해 $P(A)$를 추정한다. 먼저 $n$ = $0$에서 $f_H(x)$를 균등 분포로 만들기 위해 $\alpha$ = $\beta$ = $1$로 둔다. 그 다음에 $n$을 계속 늘리면 $s$ $\sim$ $n/2$이 되므로, 식 (3c)에 따라 $x$ = $p$ = $1/2$에서 최대값인 베타 분포가 만들어진다.[∵ $x(1-x)$의 최대값은 $x$ = $1/2$에서 발생] 이때 식 (3c)에 나온 베타 분포의 분산(variance)은 $n$에 반비례한다.
(4)
여기서 $\alpha'$ = $\alpha + s$ = $n/2+1$, $\beta'$ = $\beta + n - s$ $\sim$ $\alpha'$, $\alpha' + \beta'$ = $n+2$이다. 결국 $n \to \infty$ 경우에 분산이 0으로 수렴하기 때문에, 식 (3c)는 빈도학파 확률과 같은 값을 생성한다.
[참고문헌]
[1] T. Bayes, "LII. An essay towards solving a problem in the doctrine of chances," Phil. Trans. Royal Soc. Lond., vol. 53, pp. 370–418, 1763.
[2] 샤론 버치 맥그레인(S. B. McGrayne), 불멸의 이론: 베이즈 정리는 어떻게 250년 동안 불확실한 세상을 지배하였는가, 휴먼사이언스, 2013.
[3] B. S. Coventry and E. L. Bartlett, "Practical Bayesian inference in neuroscience: Or how I learned to stop worrying and embrace the distribution," eNeuro, vol. 11, no. 7, Jun. 2024.
[4] M. Clyde, M. Çetinkaya-Rundel, C. Rundel, D. Banks, C. Chai, and L. Huang, An Introduction to Bayesian Thinking, GitHub, 2022. (방문일 2024-12-07)
[5] QuantStart, "Bayesian statistics: A beginner's guide," Quantcademy, Apr. 2022. (방문일 2024-12-07)
댓글 없음 :
댓글 쓰기
욕설이나 스팸글은 삭제될 수 있습니다. [전파거북이]는 선플운동의 아름다운 인터넷을 지지합니다.