2024년 12월 21일 토요일

이항 분포(Binomial Distribution)

[경고] 아래 글을 읽지 않고 "이항 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 베르누이 시행의 예인 동전 던지기(출처: wikipedia.org)

동전 던지기, 예-아니오 질문(yes-no question)과 같이 2가지 상반된 사건만 발생하는 통계 실험(statistical experiment)베르누이 시행(Bernoulli trial)이라 명한다. 베르누이 시행의 제안자는 야곱 베르누이Jacob Bernoulli(1655–1705)이다. 이 베르누이 시행이 만드는 이산 확률 분포(discrete probability distribution)베르누이 분포(Bernoulli distribution)로 이름 붙인다. 베르누이 시행에서 가능한 경우는 2가지라서 베르누이 분포의 확률 변수(random variable)는 이진 확률 변수(binary random variable)인 $X$ = $x$만 가능하다.

                          (1)

여기서 $x \in \{0, 1\}$; $p$는 성공, 참, 예, 1인 확률, $q$는 실패, 거짓, 아니오, 0인 확률; $p, q$는 이진 질문(binary question)의 답변 확률이므로 배반 사건(exclusive event)의 확률이다. 베르누이 분포의 평균과 분산은 공식으로 쉽게 계산된다.

                          (2)

산술–기하 평균 부등식(inequality of arithmetic and geometric means)에 따라 베르누이 분포의 표준 편차는 $\sigma_X$ = $\sqrt{pq}$ $\le$ $(p+q)/2$라서 항상 0.5보다 작거나 같다.

[그림 2] 이항 분포의 예시(출처: wikipedia.org)

베르누이 시행이 독립적으로 여러 번 실행되는 경우는 베르누이 과정(Bernoulli process)이 된다. 베르누이 과정이 구성하는 이산 확률 분포가 바로 이항 분포(binomial distribution)이다.

                          (3)

여기서 $k$ = $0,1,\cdots, n$; $n$은 시행 회수, 이항 분포를 구성하는 계수는 이항 정리(binomial theorem)에 기인한다. 이항 분포를 따르는 확률 변수는 $X$ $\sim$ $B(n, p)$로 표기하며, $i$번째 베르누이 확률 변수 $T_i$의 합으로 공식화한다.

                          (4)

여기서 각 $T_i$는 독립 사건(independent event)이다. 식 (4)처럼 베르누이 과정은 성공이 나온 순서를 고려하지 않고 성공과 실패가 나온 최종 결과만 가지고 판정하기 때문에, 이항 분포는 조합(combination)을 이용해서 만든다. 모두 성공이나 실패가 나올 수 있어서 $X$의 정의역은 $0, 1, \cdots, n$이다. 식 (4)와 공분산(covariance)을 이용하면 이항 분포의 평균과 분산을 편하게 결정할 수 있다.

                          (5)

여기서 서로 독립인 $T_i$의 공분산은 0이다.
시행 회수 $n$이 매우 커질 때는 이항 분포를 다른 확률 분포로 근사할 수 있다. 대표적인 보기가 정규 분포(normal distribution)이다. 성공 확률 $p$가 0이나 1에 근접하지 않으면서 $n$이 매우 커지면, 이항 분포는 $\mu$ = $np$, $\sigma^2$ = $npq$인 정규 분포에 수렴한다. 이항 분포의 이런 수렴 특성은 발견자 이름을 따서 드 무아브르–라플라스 정리(de Moivre–Laplace theorem)로 명한다. 드 무아브르Abraham de Moivre(1667–1754)는 아주 늦은 나이인 1738년드 무아브르 71세, 조선 영조 시절에 놀라운 이 정리를 발견했다. 드 무아브르의 연구를 열심히 개선한 라플라스Pierre-Simon Laplace(1749–1827)는 이 정리 외에 드 무아브르가 시작한 Z 변환(Z-transform) 개념도 적극적으로 사용했다.

[드 무아브르–라플라스 정리(de Moivre–Laplace theorem)]
변수 $n, np, nq, x$가 매우 커질 때, 이항 분포의 확률 변수 $X$ = $x$ $~$ $B(n, p)$는 정규 분포 $N(np, npq)$에 수렴한다.

                             (6)

여기서 $\mu$ = $np$, $\sigma^2$ = $npq$이다.

[증명]
이항 분포에 나오는 계승(factorial)스털링의 공식(Stirling's formula)에 따라 점근식으로 바꾼다.

                   (7a)

식 (7)을 식 (6)의 좌변에 대입해서 정리한다.

                  (7b)

가정에 의해 확률 변수에서 뽑은 $x$는 $np$와 함께 커지므로, $z$ = $x-np$인 유한한 값을 설정해서 식 (7b)에 넣는다.

                  (7c)

여기서 $x$ = $np + z$, $n-x$ = $nq-z$이다. 식 (7c)에 나오는 지수는 테일러 급수(Taylor series)로 전개해서 점근적 움직임을 추정한다.

                        (7d: 뉴턴–메르카토르 급수)

                  (7e)

식 (7e)를 식 (7c)의 지수에 대입해서 식 (6)을 최종적으로 얻는다.
______________________________

드 무아브르–라플라스 정리는 스털링의 공식이 가진 존재의 의미를 명확히 보여준다. 스털링이 힘들게 예측한 상수 $\sqrt{2 \pi}$는 절묘하게 정규 분포를 완성한다.
우리가 설정하는 수렴이나 발산 조건에 따라 이항 분포는 다른 분포로 바뀔 수 있다. 만약 평균 $np$가 발산하지 않고 유한한 $\lambda$에 수렴할 때는 이항 분포가 푸아송 분포(Poisson distribution)로 접근한다. 이런 특성은 중심 극한 정리(central limit theorem)에 빗대서 푸아송 극한 정리(Poisson limit theorem)로 칭한다.

[푸아송 극한 정리(Poisson limit theorem)]
시행 회수 $n$이 커지지만 평균 $np$는 $\lambda$에 수렴하는 경우, 이항 분포는 푸아송 분포에 수렴한다.

                             (8)

여기서 푸아송 분포의 평균인 $\lambda$는 주어진 시간당 평균적으로 발생하는 사건 회수이다.

[증명]
식 (7b)처럼 식 (8)의 우변에 스털링의 공식을 넣는다.

                  (9a)

발생 확률을 $p$ = $\lambda / n$으로 바꾸어서 식 (9a)에 대입해 정리한다.

                  (9b)
______________________________

시행 회수 $n$이 커질 때 평균 $np$가 유한하면 베르누이 시행의 발생 확률 $p$는 0으로 수렴해서 희귀해진다. 그래서 푸아송 극한 정리는 드물게 일어나는 사건을 다루고 있어서 희귀 사건의 법칙(law of rare events)으로도 불린다.

[다음 읽을거리]

2024년 12월 16일 월요일

연속 확률 분포(Continuous Probability Distribution)

[경고] 아래 글을 읽지 않고 "연속 확률 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 확률 밀도 함수와 누적 분포 함수(출처: wikipedia.org)

이산적인 경우의 수(number of cases or number of chances)로 표현하는 확률(probability)의 정의는 직관적이어서 좋지만 현실에서는 다루기가 너무 어렵다. 왜냐하면 사건(event)이 잘 구별되는 이산 확률(discrete probability)급수(series)로 표현되어서 매우 많은 사건의 합산이 닫힌 형식(closed form)으로 표현되기가 어렵기 때문이다. 이런 난해한 이산 확률을 [그림 1]처럼 말끔히 연결된 연속 확률(continuous probability)로 만들기 위해 이산 확률의 사건 개수인 $2M+1$을 무한대로 보낸다.

                  (1)

여기서 $A_m$은 $m$번째 사건이다. 하지만 전체 합이 1로 고정된 상황에서 사건 개수를 늘리면, 각 사건이 일어나는 확률 $P(A_m)$은 계속 줄어들어 0으로 간다. 그래서 물리학에 나오는 질량(mass)과 밀도(density) 개념에 바탕을 두고, 서로 떨어진 점 질량(point mass)의 나열로 보이는 식 (1)을 연결되어 떨어질 수 없는 밀도로 바꾼다. 이를 위해 집합(set)으로 정의하는 개별 사건 $A_m$ 대신, 범함수(functional)처럼 사건 분포를 실수 $x$의 범위인 $[x_m, x_{m+1}]$ = $x_m \le x \le x_{m+1}$으로 바꾸어서 $P(A_m)$을 다시 표현한다.

                  (2)

여기서 $\operatorname{Pr}[\cdot]$는 조건 $[\cdot]$를 만족하는 확률(probability), $X$는 $x$에 확률 개념을 넣은 확률 변수(random variable)이다. 식 (2)를 식 (1)에 대입해서 무한 급수(infinite series)를 적분으로 바꾼다.

                  (3)

여기서 $F_X(x)$ = $\operatorname{Pr}[X \le x]$이다. 식 (3)에서 $f_X(x)$는 $X$ = $x$에서 정의한 확률 밀도 함수(probability density function, PDF)이다. 반면에 $F_X(x)$는 확률 밀도가 아닌 누적된 확률인 누적 분포 함수(cumulative distribution function, CDF)이다.

                          (4)

확률 밀도 함수 $f_X(x)$에 대비되도록 이산 확률 $P(A_m)$ = $\operatorname{Pr}[X = x]$을 확률 질량 함수(probability mass function, PMF)로 부르기도 한다.
이산 확률의 개념을 확장해서 연속 확률의 평균(mean or average) $E[X]$, 분산(variance) $\operatorname{Var}[X]$, 적률 혹은 모멘트(moment) $E[X^n]$을 다양하게 정의한다.

                          (5)

여기서 $\sigma_X$는 표준 편차(standard deviation)이다. 특히 PDF가 유한 범위에서만 정의되면 그 평균은 CDF의 적분으로 간략화된다.

                  (6)

여기서 부분 적분(integration by parts)을 사용한다.

[그림 2] 균등 분포의 확률 밀도 함수(출처: wikipedia.org)

연속 확률 분포 중에서 가장 간단한 분포는 확률 변수 $X$의 발생 빈도가 동일한 균등 분포 혹은 고른 분포(uniform distribution)이다. [그림 2]와 같이 구간 $[a, b]$에 만들어진 균등 분포의 PDF는 $f_X(x)$ = $1 \mathbin{/}(b-a)$이다. 이를 식 (5)에 대입해서 평균과 분산을 계산한다.

                  (7a)

                  (7b)

여기서 $X$는 $[a, b]$에 정의된 확률 변수라서 보통 $X$ $\sim$ $U[a, b]$로 표기한다. 균등 분포는 보기에는 쉽지만 컴퓨터로 구현하기가 매우 까다롭다. 왜냐하면 컴퓨터는 근본적으로 계산 과정이 앞의 유한한 결과에 영향을 받는 유한 상태 기계(finite-state machine, FSM)이고, 상태가 유한해서 출력되는 숫자가 결국 반복되기 때문이다. 그래서 컴퓨터는 완벽하게 중구난방인 난수(random number)는 아니지만 특정 확률 분포와 비슷하게 나오는 유사 난수(pseudorandom number)를 발생시킨다. 결정론적으로(deterministic) 유사 난수를 만드는 컴퓨터의 기능은 유사 난수 발생기(pseudorandom number generator, PRNG)로 부른다. 균등 분포와 비슷한 난수를 만드는 균등 난수 발생기(uniform random number generator, URNG)를 사용하면, 여러 가지 확률 분포를 가진 유사 난수를 쉽게 만들 수 있다. 하지만 성능 좋은 URNG는 구현하기가 정말 난해하다.
기존 확률 분포로부터 새로운 확률 분포를 만들 때는 PDF를 직접 구하기보다 CDF를 먼저 공식화하고 식 (4)의 둘째식에 따라 미분해서 나중에 PDF를 만든다[1]. 예를 들어, $U$ $\sim$ $U[0, 1]$인 확률 변수로 발생시킨 $X$ = $e^U$의 PDF는 무엇일까? 여기서 $X$의 영역은 당연히 $[1, e]$이다. 이 문제를 바로 해결하기 곤란하므로 식 (4)의 첫째식으로 $X$의 CDF $F_X(x)$를 유도한다.

                  (8a)

그 다음에 식 (8a)를 $x$에 대해 미분해서 $f_X(x)$를 결정한다.

                  (8b)

여기서 $1 \le x \le e$이다. 따라서 균등 분포를 지수로 보낸 확률 변수의 PDF는 $1/x$를 따른다.
비슷한 방식으로 독립적인 균등 분포인 $X, Y$를 단순히 더한 확률 변수 $Z$ = $X+Y$도 생각해본다[1]. 여기서 $X$ $\sim$ $U[0, 1]$, $Y$ $\sim$ $U[0, 1]$이다. 해답은 $Z$ = $2X$라고 착각할 수 있지만 전혀 아니다. 두 확률 변수가 동일하게 나온다는 보장이 없어서 $2X$가 될 수 없다. 그러면 어떻게 해결할까? 독립적으로 변하는 $X, Y$가 있기 때문에 식 (4)를 그대로 쓸 수 없고 결합 확률 분포(joint probability distribution)를 도입해야 한다. 결합 확률 분포는 여러 확률 변수의 모든 조합이 생성하는 확률 분포를 뜻한다. 결합 확률 분포도 식 (4)와 비슷한 결합 확률 밀도 함수(joint probability density function)결합 누적 분포 함수(joint cumulative distribution function)를 만들 수 있다. 2개의 확률 변수에 대한 결합 PDF와 CDF는 다음처럼 정의된다.

                          (9)

식 (9)에 바탕을 두고 더 많은 확률 변수를 위한 결합 PDF와 CDF를 공식화할 수 있다. 식 (9)는 2차원 적분이라서 분석하기 어려운 때는 주변 확률 밀도 함수(marginal probability density function)를 선명하게 생성한다.

                          (10)

결합 확률 분포에서도 이산 확률처럼 상호 독립(mutually independent)을 단순한 곱셈으로 정의한다.

                          (11)

여기서 $X, Y$는 상호 독립인 확률 변수이다.

(a) $0 \le z \le 1$ 경우

(b) $1 \le z \le 2$ 경우
[그림 3] 선형 결합인 $Z$ = $X+Y$의 계산법

독립 확률 변수 $X, Y$가 완전히 독립적으로 생성되어서 일종의 순서쌍 $(X, Y)$가 된다면, 결합 PDF는 $f_{XY}(x, y)$ = $f_X(x) f_Y(y)$ = $1$로 간단하게 계산된다. 하지만 원래 문제에서 구하려는 확률 변수 $Z$는 서로 독립인 $X, Y$를 더해서 선형 결합(linear combination)인 $Z$ = $X+Y$를 만든다. 그래서 $X, Y$ 중 하나만 독립적으로 변하고, 나머지 하나는 $Z$에 종속된다. 이상을 종합해서 [그림 3]처럼 균등 분포인 $X$는 마음대로 변할 수 있고, $Y$는 $Z-X$에 종속되어 구해진다고 가정한다. 그러면 확률 변수 $Z$의 출력인 $z$의 크기에 따라 $Y$가 가질 수 있는 범위가 [그림 3]처럼 한정된다. 이때 $X, Y$가 중첩된 영역이 $Z$가 존재할 수 있는 확률 밀도이다.[선형 결합이란 조건이 없다면, 결합 PDF는 모든 정의역의 중첩으로 처리된다. 선형 결합일 때는 합산 조건을 만족하는 정의역에만 한정되어 중첩된다.]

                          (12)

여기서 $0 \le z \le 2$; $X$는 고정된 확률 변수이고 $Y$는 $X$에 종속된다. [그림 3]과 같은 계산법은 구형 함수(rectangular function)길쌈(convolution) 연산과 매우 유사하다. 선형 결합된 $Z$ = $X+Y$의 평균과 분산은 식 (5)에 식 (12)를 대입해서 구한다.

                          (13a)

지금 가정처럼 독립 확률 변수(independent random variable)인 경우는 식 (13a)와 같은 번거로운 과정 없이 기대값(expectation)의 분해공분산(covariance)이 0인 조건을 써서 쉽게 계산한다.

                          (13b)

여기서 $X, Y$는 독립이라 $\operatorname{Cov}(X, Y)$ = $0$이 성립한다.

[참고문헌]
[1] J. L. Devore, K. N. Berk, and M. A. Carlton, Modern Mathematical Statistics With Applications, 3rd ed., Cham, Switzerland: Springer, 2021.

2024년 12월 15일 일요일

전염병 확산 미분 방정식(Epidemic Spread Differential Equation)

[경고] 아래 글을 읽지 않고 "전염병 확산 미분 방정식"을 보면 바보로 느껴질 수 있습니다.


[그림 1] 코로나-19의 감염 경로(출처: wikipedia.org)

코로나-19(coronavirus disease 2019, COVID-19) 시대를 거치면서 유명해진 미분 방정식(differential equation)이 하나 있다. 전염병이 퍼지는 속도를 표현하는 전염병 확산 미분 방정식(epidemic spread differential equation)을 풀기 위해 전염의 통계 지표인 기초 재생산수(basic reproduction number) $R_0$을 추정하고 감염자의 초기 조건을 설정한다. 그후 이 미분 방정식으로 미래의 감염 결과를 대략적으로 예측한다. 여러 전염병 확산 미분 방정식 중에서 가장 간단한 모형은 SIR 모형(susceptible-infectious-recovered model)이다[1]. SIR 모형은 문제를 어렵게 풀지 않고 전염될 수 있는 사람들인 감수군(susceptible) $S$, 병을 옮기는 감염군(infectious) $I$, 치료로 다 나은 회복군(recovered) $R$로 집단을 나눈다. 우리가 고려하는 집단과 그 상호 관계를 설정해 문제를 푸는 방식은 구획 모형(compartmental model)이라 한다. SIR 모형은 구획 모형의 성공적인 예이다. SIR 모형을 구성하는 연립 상미분 방정식(simultaneous ordinary differential equation)은 아래와 같다.

                          (1)

여기서 $S(t), I(t), R(t)$는 각각 감수군, 감염군, 회복군의 수, $N$은 변하지 않는 전체 인구수, $\beta$는 감염율(infection rate), $\gamma$는 회복률(recovery rate)이다. 회복률의 역수 $\gamma$는 평균 회복 시간이다. 식 (1)에서 $N$ = $1$로 두면, $S(t), I(t), R(t)$는 각각 감수군, 감염군, 회복군의 비율이 된다. 간략화를 위해 SIR 모형에서는 $S(t), I(t), R(t)$를 보통 비율로 가정한다. SIR 모형에서 통상적으로 선택하는 조건은 $I(0)$ $\approx$ $0$, $R(0)$ = $0$, $S(0)$ = $1-I(0)$ $\approx$ $1$이다. 여기서 $S(0) \gg I(0)$이다.
식 (1)이 나타내는 의미는 분명하다. 전염은 감수군과 감염군이 만날 때 나타나므로, 모든 가능한 접촉 비율은 $I(t) S(t)$이다. 이 접촉 중에서 시간당 및 사람당 감염이 되는 확률이 바로 $\beta$이다. 또 다른 매개변수 $\gamma$는 감염군이 시간당 회복하는 확률이다. 특히 $R_0$ = $\beta / \gamma$는 전염병 확산의 중요 지표인 기초 재생산수 혹은 기초 재생산율(basic reproduction rate)이다. 중요한 설정값인 $R_0$의 의미를 이해하기 위해서는 식 (1)을 풀어서 해를 관찰해야 한다.
식 (1)은 $I(t), S(t)$의 곱이 우변에 있어서 선형이 아닌 비선형 미분 방정식(nonlinear differential equation)이다. 어려워 보이지만 $\beta, \gamma$를 시간에 대한 상수로 두면, 식 (1)은 $R(t)$에 대한 상미분 방정식으로 간략화되면서 풀린다. 먼저 식 (1)의 첫째식에서 유추해 $S(t)$ = $S(0) e^{f(t)}$로 가정해서 원래식에 대입한다.

                          (2)

여기서 $f(0)$ = $0$, $R(0)$ = $0$이다. 식 (2)를 식 (1)의 셋째식에 대입해서 $R(t)$에 대한 상미분 방정식을 유도한다.

                          (3a)

                          (3b)

여기서 $\xi$ = $R(t)$이다. 마지막으로 우리가 쓰지 않은 식 (1)의 둘째식에 집중한다.

                          (4)

만약 $S(0)$ = $1/R_0$이면, $t$ = $0$에서 감염군은 일정하게 유지되고 감수군이 줄어들면서 감염군이 서서히 줄어든다. 혹은 $S(0)$ $<$ $1/R_0$라면 우변이 0보다 작아서 감염군이 지속적으로 감소한다. 하지만 $S(0)$ $>$ $1/R_0$인 경우는 처음부터 감염군이 커지면서 현재 계산하는 질병은 전염병으로 판정된다. 다만 $S(t) < S(0)$인 이유로 시간이 한참 흐른 후 발생하는 회복군 $R(\infty)$의 크기는 전염병마다 다를 수 있다.
최종 회복군 $R(\infty)$를 예측하기 위해 식 (3a)를 관찰한다. 무한대 시간이 흐른 후에는 함수값이 수렴해 변동이 없으므로, 식 (3a)의 우변은 0이 되어야 한다[1].

                          (5a)

식 (5a)의 해는 람베르트 W 함수(Lambert W function) $W(x)$이다.

                          (5b)

식 (5b)에 따라 최종 감수군 $S(\infty)$도 얻어진다.

                          (5c)

여기서 최종 시간의 감염군 $I(\infty)$는 당연히 0이다.

[참고문헌]
[1] F. Wang, "Application of the Lambert W function to the SIR epidemic model," Coll. Math. J., vol. 41, no. 2, pp. 156–159, Mar. 2010.