2025년 1월 1일 수요일

푸아송 과정과 감마 분포(Poisson Process and Gamma Distribution)

[경고] 아래 글을 읽지 않고 "푸아송 과정과 감마 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 형상 모수(shape parameter) $\alpha$[그림에서는 $k$로 씀]와 척도 모수(scale parameter) $\theta$ = $1/\lambda$에 대한 감마 분포의 변화(출처: wikipedia.org)

이산 확률 분포인 푸아송 분포(Poisson distribution) $X$ $\sim$ ${\rm Poi}(\lambda')$를 연속적으로 만든 확률 분포는 감마 분포(gamma distribution)라 부른다. 감마 분포는 주로 $X$ $\sim$ $\Gamma(\alpha, \lambda)$처럼 표기한다. 감마 분포의 확률 밀도 함수(probability density function, PDF) $f_X(x)$를 정의하기 위해, ${\rm Poi}(\lambda')$에서 주어진 시간 $T$ 동안 생기는 평균적 사건 회수 $\lambda'$를 단위 시간당 출현하는 평균 사건 회수인 변화율 모수(rate parameter) $\lambda$와 시간 $x$의 함수로 바꾼다.

                  (1)

여기서 $\lambda$의 역수는 척도 모수(scale parameter) $\theta$가 된다. 식 (1)을 푸아송 분포에 대입해서 $f_X(x)$를 만든다.

                  (2a)

여기서 $k$는 시간 $x$ 동안 생긴 사건 회수, 시간 $x < 0$에서는 사건이 없어서 확률은 0, $A$는 $f_X(x)$의 적분을 1로 만드는 상수이다. 상수 $A$를 구하기 위해 식 (2a)를 적분한다.

                  (2b)

여기서 $\Gamma(x)$는 감마 함수(gamma function)이다. 식 (2b)에서 얻은 $A$ = $\lambda$를 식 (2a)에 대입하고 $f_X(x)$의 모양을 감마 함수의 피적분 함수와 맞추기 위해 $k$ = $\alpha - 1$로 바꾼다.

                          (3)

여기서 $\alpha$는 감마 분포의 형상 모수이며 $\alpha > 0$을 만족한다. 감마 분포의 누적 분포 함수(cumulative distribution function, CDF) $F_X(x)$는 불완전 감마 함수(incomplete gamma function)로 표현된다.

                          (4)

여기서 $\gamma(a, x)$는 하단 불완전 감마 함수(lower incomplete gamma function)이다.
감마 분포에서 $\alpha$ = $1$인 특별한 경우는 지수 분포(exponential distribution) ${\rm Exp}(\lambda)$로 칭한다.

                          (5)

푸아송 분포를 참고하면 $\alpha$ = $1$인 조건은 사건이 발생하지 않는 $k$ = $0$인 경우와 동일하다. 예를 들어, 지수 분포는 드루데 모형(Drude model)을 유도할 때 효과적으로 쓰인다. 옴의 법칙(Ohm's law)을 유도하기 위해서는 전자가 양성자에 충돌하지 않는 확률을 계산해야 한다. 이때 도입되는 확률 분포가 지수 분포이다.
감마 함수의 성질을 활용해서 감마 분포의 평균과 분산을 계산한다.

                          (6)

여기서 $\Gamma(\alpha + 1)$ = $\alpha \Gamma(\alpha)$이다.

[그림 2] 베르누이 과정으로 설명하는 푸아송 과정

베르누이 과정(Bernoulli process)에서 시간을 재면서 변화율 모수(rate parameter) 혹은 단위 시간당 평균 사건 회수인 $\lambda$로 발생하는 사건을 헤아리는 절차 $N(t)$는 푸아송 과정(Poisson process)이라 명한다. 물론 각 사건은 무작위로 출현한다. 여기서 $N(t)$는 $0$에서 $t$까지 사건이 발생하는 회수이다. 예를 들어, [그림 2]에서 $N(t < T_1)$ = $0$, $N(T_2 \le t < T_3)$ = $2$ 등이 성립한다. 더 일반화해서 베르누이 과정이란 전제 없이 각 사건이 독립이며 변화율 $\lambda$만 아는 경우도 푸아송 과정이 된다. 푸아송 과정은 다음과 같은 특성이 있다.
  • $N(0)$ = $0$
  • 시간 간격 $\tau$ 동안 발생하는 사건 회수는 푸아송 분포 ${\rm Poi}(\lambda \tau)$를 따름
푸아송 과정을 잘 이해하기 위해 [그림 2]에 소개한 베르누이 과정인 동전 던지기를 고려한다[1]. 동전은 주기 $T$로 던져지며, 우리는 동전 앞면이 나오는 사건만을 헤아린다. 동전 앞면이 나오는 확률은 변화율 모수에 따라 $p$ = $\lambda T$이다. 시간 $t$까지 우리가 관찰하는 사건 개수는 $n$ $\approx$ $t/T$이다. 그러면 이항 분포의 정의에 의해 앞면이 나오는 사건 회수의 평균은 $\mu$ = $np$ $\approx$ $t/T \cdot \lambda T$ = $\lambda t$이다. 그래서 이 결과는 식 (1)에 정확히 부합한다. 이때 동전 던지는 주기 $T$를 아주 작게 하면, $n$은 계속 커지고 $p$는 작아지기 때문에, 동전 앞면이 나오는 사건은 희귀 사건(rare event)이 된다. 그래서 $T$를 0으로 보내는 이항 분포는 푸아송 극한 정리(Poisson limit theorem)를 만족하기 위해 푸아송 분포인 ${\rm Poi}(\lambda t)$로 변화되어야 한다.
[그림 2]에서 동전 앞면이 한 번 나오기까지 걸리는 시간 $T_1$을 추적한다. 첫번째 도착 시간(the first arrival time)에 해당하는 $T_1$의 확률 변수를 $X_1$이라 놓는다. 이 경우 $X_1 > t$인 확률은 $t$까지 사건이 발생하지 않는 확률과 같다. 이는 푸아송 분포에서 $k$ = $0$에 해당한다.

                          (7a)

식 (7a)를 써서 $t$까지 $X_1$이 생길 CDF를 계산한다.

                          (7b)

여기서 $F_{X_1}(t \le 0)$ = $0$이다. 이 CDF는 지수 분포의 CDF와 동일하기 때문에, $X_1$은 지수 분포를 좇아간다. 앞면이 한 번 나온 후 두번째 앞면이 나올 때까지 걸리는 시간, 즉 두번째 도착 시간(the second arrival time)은 $T_2 - T_1$이다. 이 확률 분포를 $X_2$라고 한 경우, 동전 던지기는 기본적으로 베르누이 과정이므로 $X_2$는 $X_1$과 독립이다. 결국 $X_2, X_3, \cdots$ 등이 모두 독립적으로 지수 분포를 따라간다.
제$n$번째까지 모든 도착 시간을 합한 $X$ = $X_1 + X_2 + \cdots + X_n$의 확률 분포를 파악하려고 적률 생성 함수(moment-generating function, MGF) $M_X(s)$를 도입한다. 첫단계로 지수 분포의 MGF를 계산한다.

                          (8a)

MGF의 성질을 써서 $X$ = $X_1 + X_2 + \cdots + X_n$의 MGF를 식 (8a)의 곱으로 구한다.

                          (8b)

식 (8b)를 만드는 확률 분포를 찾기 위해 감마 분포의 MGF를 유도한다.

                          (8c)

따라서 지수 분포의 합인 $X$는 $\Gamma(n, \lambda)$인 감마 분포가 된다.

[참고문헌]

2024년 12월 31일 화요일

베타 분포(Beta Distribution)

[경고] 아래 글을 읽지 않고 "베타 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 형상 모수 $\alpha, \beta$에 따른 베타 분포 $\beta(\alpha, \beta)$의 변화(출처: wikipedia.org)

베타 분포(beta distribution)베타 함수(beta function)와 동일한 확률 밀도 함수(probability density function, PDF)를 가진 연속 확률 분포(continuous probability distribution)이다.

                          (1)

여기서 $0 < x < 1$, $\alpha > 0$, $\beta > 0$; $B(\alpha, \beta)$는 형상 모수(shape parameter) $\alpha, \beta$에 의해 값이 바뀌는 베타 함수이다. 베타 함수는 $X$ $\sim$ $\beta(\alpha, \beta)$처럼 표기한다. 분모에 출현한 $B(\alpha, \beta)$는 PDF $f_X(x)$의 적분을 1로 만드는 정규화 상수이다. 베타 분포는 $\alpha, \beta$를 바꾸어서 다양한 확률 분포를 생성할 수 있는 카멜레온 성질이 있다. 만약 $\alpha$ = $\beta$ = $1$로 두면, 베타 분포는 $x$에 대해 확률값이 일정한 균등 분포(uniform distribution)가 된다. 관점을 바꾸어 $x$를 고정하고, $\alpha, \beta$를 정수인 $k$ = $\alpha-1$, $n-k$ = $\beta-1$, $n$ = $\alpha + \beta - 2$로 두면, 식 (1)은 이항 분포 ${\rm Bin}(n, x)$의 확률에 정비례한다.

                          (2)

베타 분포의 누적 분포 함수(cumulative distribution function, CDF)는 불완전 베타 함수(incomplete beta function) $B(x; \alpha, \beta)$로 표현된다.

                          (3)

여기서 $B(1; \alpha, \beta)$ = $B(\alpha, \beta)$이다. 베타 함수의 성질을 이용해서 베타 분포의 평균(mean or average)과 분산(variance)도 구한다.

                          (4a)

                          (4b)

평균은 $\alpha$와 $\beta$의 나눗셈으로 나오기 때문에, 형상 모수 $\alpha, \beta$를 평균 $\mu$ 기준으로 다시 쓸 수 있다.

                          (5)

여기서 형상 모수 $\nu$는 0보다 큰 실수이다.

[다음 읽을거리]

2024년 12월 29일 일요일

정규 분포(Normal Distribution)

[경고] 아래 글을 읽지 않고 "정규 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 표준 편차 $\sigma$에 대한 정규 분포의 확률 밀도 함수 크기(출처: wikipedia.org)

모든 확률 분포 중에서 가장 기본이 되면서도 너무나 중요한 개념은 정규 분포(正規分布, normal distribution) 혹은 가우스 분포(Gaussian distribution)이다. 정규라는 어려운 말을 쓰고 있지만, 정규 분포 대신 평범한 분포라고 생각해도 된다. 모든 확률 변수(random variable)가 내재적으로 가지고 있는 평범성이나 정상인 상태를 추출해서 만든 기적의 범용 분포이기 때문에[중심 극한 정리(central limit theorem, CLT)에 따라 임의 확률 분포의 합은 항상 정규 분포에 수렴하기 때문에], [그림 1]과 같은 종 모양의 확률 밀도를 가지는 특성을 정규 분포라고 부른다. 다른 관점으로 정규 분포를 제외한 다른 모든 확률 분포는 일상성을 잃은 특이하고 비정상적인 분포가 된다. 전체 실수 영역에서 정의된 정규 분포가 가진 확률 밀도 함수(probability density function, PDF) $f_X(x)$는 다음과 같다.

                          (1)

여기서 $X$는 확률 변수, $\mu$는 평균(mean or average), $\sigma$는 표준 편차(standard deviation)이다. 정규 분포는 $X$ $\sim$ $N(\mu, \sigma^2)$으로 간략히 쓰기도 한다. 정규 분포의 누적 분포 함수(cumulative distribution function, CDF)오차 함수(error function)로 표현된다.

                          (2)

여기서 $\operatorname{erf}(x)$는 오차 함수, $x$가 커질 때 $\operatorname{erf}(x)$는 1에 수렴한다. 정규 분포의 PDF와 CDF는 다소 복잡해 보이므로, $z$ = $(x- \mu) \mathbin{/} \sigma$로 변수 치환해서 간략화한 표준 정규 분포(standard normal distribution)가 많이 사용된다.

                          (3)

여기서 표준 정규 분포의 평균과 표준 편차는 각각 0과 1이다. 식 (3)처럼 $z$로 정규화한 점수는 표준 점수(standard score) 혹은 Z점수(z-score)로 부른다. 표준 점수는 수치가 너무 작기 때문에, 우리에게 익숙한 100점 만점 기준으로 근사하는 T점수(t-score)도 쓰인다. T점수는 $t$ = $50 + 10 z$로 다시 변수를 바꿈으로써 평균을 50, 표준 편차를 10으로 맞춘다. T점수는 대학수학능력시험의 상대 척도로 사용된다. 정규 분포의 평균과 분산을 계산하기 위해 식 (1)에 대해 무한 적분을 해본다.

                          (4a)

                          (4b)

정규 분포는 측정 오차(measurement error)를 정량화할 때 많이 쓰이지만, 정규 분포의 시작은 이항 분포(binomial distribution)와 함께 한다[2, 3]. 니콜라우스 베르누이 1세Nicolaus I Bernoulli(1687–1759)와 긴밀하게 교류하던 네델란드 법학자 및 수학자 스 흐그라베산데Willem 's Gravesande(1688–1742)[옛날 네델란드어에서 's는 영어 of the에 해당]는 1712년스 흐그라베산데 24세, 조선 숙종 시절 무렵 런던시(London)의 신생아 출산율에 관심을 가졌다[2], [4]. 런던시는 1629–1710년인 82년 동안 자기 도시에서 태어난 성별 출생아 통계를 가지고 있었다. 런던시의 출생 성비(natural sex ratio at birth)를 관찰하면 남아가 여아보다 조금 더 많았다.[대략 1.03~1.07 정도로 남아가 더 많다.] 이 비율은 우연히 얻어진 숫자일까 아니면 자연의 섭리가 작용한 결과일까?

[그림 2] 대한민국의 합계 출산율(total fertility rate) 추이(출처: wikipedia.org)

출생 성비의 신비를 밝히기 위해 스 흐그라베산데는 남여 성비가 $p$ = $q$ = $1/2$로 동일하다고 가정했다. 여기서 해마다 태어나는 전체 신생아 수는 평균 $n$ = 11,429명으로 어림한다. 그러면 통계에 나오는 82년 동안의 출생 성비를 사용해 남아수의 범위가 5,745–6,128명일 확률을 이항 분포로 예측한다.

                          (5a)

스 흐그라베산데는 고통스러운 계산을 반복해서 식 (5a)의 값을 대략 1/4로 얻었다. 런던시의 82년 통계를 고려한 경우, 계속 식 (5a)가 나오는 확률은 $(1/4)^{82}$ $\approx$ $4.28 \times 10^{-50}$이 된다. 이 확률은 말도 안되게 작은 값이므로, 남여 성비는 같을 수 없고 반드시 달라야 한다. 1733년드 무아브로 66세, 조선 영조 시절에 드 무아브르Abraham de Moivre(1667–1754)는 드 무아브르–라플라스 정리(de Moivre–Laplace theorem)를 활용하여 식 (5a)를 더 빠르고 정확하게 계산했다.

                          (5b)

여기서 $\mu$ = $np$ = 5714.5, $\sigma^2$ =  $npq$ = 2857.25 $\approx$ $(53.45)^2$이다.

[그림 3] 가우스가 궤도를 예측한 왜행성(dwarf planet) 세레스(Ceres)(출처: wikipedia.org)

이항 분포를 오차 함수로 간단히 근사하는 PDF라면 정규 분포란 거창한 이름을 붙일 필요가 없다. 드 무아브르가 발견한 $e^{-x^2}$ 함수는 1801년가우스 24세, 조선 순조 시절 가우스Carl Friedrich Gauss(1777–1855)에 의해 최소 제곱법(least squares)으로 새롭게 등장한다[3]–[5]. 1801년이 시작되는 첫날인 1월 1일에 이탈리아의 사제 겸 천문학자인 피아치Giuseppe Piazzi(1746–1826)가 항성처럼 움직이는 새로운 천체를 발견했다. 계속 관측하면서 다시 행성으로 바꾸어 판단하고 관찰 활동을 지속했다. 하지만 이 천체가 태양 뒷편으로 사라지면서 그후에는 탐색이 불가능했다. 이 소식을 들은 가우스는 자신이 10대때부터 갈고 닦은 선형 최소 제곱법(linear least sqaures)을 적용해서 세레스의 다음 궤도를 확실히 예측하여 목표물을 다시 찾았다. 지속적인 연구 결과로 세레스는 행성이 아닌 소행성(小行星, asteroid)임이 밝혀졌다. [그림 3]에 보인 세레스는 인류가 처음으로 확인한 소행성이며, 명왕성과 함께 왜행성(矮行星, dwarf planet) 분류에 속한다. 가우스가 선형 최소 제곱법을 적용하며 유도한 측정 오차의 확률 분포를 증명한다.

[정규 분포(normal distribution)] [5]
다음 조건을 만족하는 측정 오차 $\epsilon$이 보이는 확률 밀도 함수 $f(\epsilon)$은 오차 함수 모양을 따른다.
  • (a) 큰 오차보다는 작은 오차가 빈번하게 발생: $f(0)$이 최대
  • (b) 참값 $s$를 기준으로 $\epsilon$만큼 벗어날 확률은 $-\epsilon$만큼 어긋날 확률과 동일: $f(\epsilon)$ = $f(-\epsilon)$
  • (c) 최소 제곱법에 의해 반복 측정으로 얻는 가장 그럴듯한 혹은 최대 우도(maximum likelihood, 最大偶度)인 값은 평균 $\bar x$: $n$번 측정의 평균은 $\bar x$ = $(x_1 + x_2 + \cdots + x_n) \mathbin{/} n$
                          (6)

여기서 $x$와 $s$는 각각 측정의 확률 변수값 및 참값, $\epsilon$은 $x-s$인 측정 오차, $k$는 분산의 역수와 관계된 양수인 상수이다.

[증명]
각 측정은 독립 사건(independent event)이기 때문에 모든 측정을 관장하는 결합 확률 밀도 함수(joint probability density function) $F(x_1, x_2, \cdots, x_n)$을 각각의 확률 밀도 함수로 공식화한다.

                          (7a)

여기서 $x_i$는 $i$번째 측정의 확률 변수값이다. 식 (7a)를 $s$에 대해 미분하고 $s$ = $\bar x$를 넣으면 조건 (c)에 의해 0이 되어야 한다.

                          (7b)

식 (7b)의 마지막에 나타난 함수의 합을 참고해서 $\psi(x)$ = $f'(x) / f(x)$로 정의한다.

                          (8a)

확률 변수값 $x_i$는 임의로 선택될 수 있어서 가능한 측정값 종류 $M$을 바꾸면서 $\psi(x)$의 성질을 탐구한다. 먼저 $M$ = $1$이면 $x_i$ = $x_1$만 될 수 있다. 그러면 $\psi(0)$ = $0$이 되어야 한다. 이는 $\epsilon$ = $0$에서 $f(\epsilon)$이 최대라서 $f'(0)$ = $0$이 산출되는 조건 (a)와 동치이다. 다음 단계로 측정값 종류를 하나 늘려 $M$ = $2$로 두면, $x_i$ = $x_1$ 혹은 $x_2$가 가능하다. 여기서 임의의 측정값 $x_1, x_2$의 개수는 각각 $m_1, m_2$로 가정하고 $n$ = $m_1 + m_2$로 둔다. 이 전제를 식 (8a)에 대입해서 정리한다.

             (8b)

여기서 $w_i$ = $m_i / n$, $w_1 + w_2$ = $1$, $\bar x$ = $w_1 x_1 + w_2 x_2$이다. 조건 (b)는 $f(x)$가 우함수(even function)라는 뜻이므로, 그 미분인 $f'(x)$는 기함수(odd function)가 되어야 한다. 즉, $\psi(x)$는 기함수로 나와서 식 (8b)가 1차 동차 함수(the first degree homogeneous function)로 바뀐다.

                          (8c)

오일러의 동차 함수 정리(Euler's homogeneous function theorem)를 써서 $\psi(x)$를 유일하고 확정적으로 유도한다.

                          (8d)

여기서 $c$는 0이 아닌 적분 상수, $\psi(0)$ = $0$도 나온다. 측정값 종류를 $M$ = $3$으로 다시 증가시켜서 식 (8a)를 재구성한다.

                          (8e)

식 (8e)에 $\psi(x)$ = $cx$를 대입해도 잘 성립하기 때문에, 식 (8d)는 측정값 종류에 상관없는 해가 된다. 따라서 우리가 얻기 원하는 PDF인 $f(x)$를 확정한다.

                          (9)

식 (9)가 조건 (a)를 만족하기 위해서는 $d$ = $0$, $c$ = $-k$가 되어야 한다. 여기서 $d$는 적분 상수, $k$는 양의 실수이다.
______________________________

정규 분포의 확률 변수는 여러 개를 더해서 쓰는 경우가 많다. 전체 확률 변수를 $X$ = $X_1 + X_2 + \cdots + X_n$ 및 서로 독립이라 가정하면 전체 평균과 분산은 개별 평균과 분산의 합이 된다.

                          (10a)

                          (10b)

여기서 $X_i$는 독립 사건이라서 같지 않은 사건의 공분산(covariance)은 ${\rm Cov}(X_i, X_j)$ = $0$이다. 특히 독립인 확률 변수가 동일한 분포를 가진 경우는 독립 항등 분포(independent and identical distribution) 혹은 i.i.d.(iid 혹은 IID)라 이름 붙인다. 측정 과정에서 유도한 정규 분포는 측정 오차를 정의할 때 독립 항등 분포를 선택한다. 즉, 다양한 원인으로 생기는 측정 오차를 개별 정규 분포로 각각 가정한다. 측정 오차의 평균은 0이므로, 측정 오차에서 중요한 양은 분산이다. 식 (10b)에 나온 분산은 측정이 얼마나 틀어지는지 알려주는 불확도(不確度, uncertainty)를 정량화하는 중요 지표이다.
다만 정규 분포의 합인 $X$의 평균과 분산이 식 (10)으로 나온다고 해서 $X$가 정규 분포라는 보장은 없다. 이를 확인하기 위해 하나의 정규 분포에 대한 적률 생성 함수(moment-generating function, MGF) $M_X(s)$를 유도한다.

                          (11a)

그러면 상호 독립인 정규 분포의 합으로 표현한 $X$ = $X_1 + X_2 + \cdots + X_n$의 MGF가 간단히 구해진다.

                          (11b)

이 MGF는 식 (10b)로 계산된 평균과 분산을 가진 정규 분포의 MGF와 동일하다.

[그림 4] 로빗 함수로 근사하는 프로빗 함수(출처: wikipedia.org)

표준 정규 분포 $\Phi(z)$의 역함수로 프로빗 함수(probit function)도 많이 쓰인다. 프로빗은 확률 단위(probability unit)의 약어이다.

                          (12)

프로빗 함수를 아주 잘 근사하는 함수로 로짓 함수(logit function)도 있다. 로짓 함수는 표준 로지스틱 함수(standard logistic function) $\sigma(x)$의 역함수이다.

                          (13a)

                          (13b)

프로빗 함수의 계산 예시를 들면, $\Phi(1)$ = $0.841344746\cdots$이므로 ${\rm probit}(0.8413)$ $\approx$ $1$이다. 이 값은 로짓 함수를 써서 $\sqrt{\pi/8}\operatorname{logit}(0.8413)$ $\approx$ $1.0452$로 어림할 수 있다.

[참고문헌]
[1] J. L. Devore, K. N. Berk, and M. A. Carlton, Modern Mathematical Statistics With Applications, 3rd ed., Cham, Switzerland: Springer, 2021.
[2] I. Todhunter, A History of the Mathematical Theory of Probability: From the Time of Pascal to That of Laplace, Cambridge and London: Macmillan and Co., 1865.
[3] W. Sundstrom, "The origins of the normal distribution," Medium, Aug. 2019. (방문일 2024-12-29)
[4] S. Stahl, "The evolution of the normal distribution", Math. Mag., vol. 79, no. 2, pp. 96–113, Apr. 2006.
[5] E. G. Forbes, "Gauss and the discovery of Ceres," J. Hist. Astron., vol. 2, no. 3, pp. 195–199, Oct. 1971.

[다음 읽을거리]