2025년 1월 3일 금요일

중심 극한 정리(Central Limit Theorem)

[경고] 아래 글을 읽지 않고 "중심 극한 정리"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 중심 극한 정리의 의미(출처: wikipedia.org)

확률 변수(random variable)가 가진 경이로운 성질 중 하나로 중심 극한 정리(central limit theorem, CLT)가 있다[1]. 개별 확률 변수는 그 나름의 개성을 가질 수 있지만, 이 확률 변수를 계속 더한 값은 항상 정규 분포(normal distribution)에 수렴한다는 놀라운 특성이 바로 중심 극한 정리이다. 중심 극한 정리에 나오는 중심의 뜻은 푸아송 극한 정리(Poisson limit theorem)와 같은 확률에 대한 극한 정리 중에서도 가장 중심이 된다는 의미이다. 혹은 확률 변수를 더하면 확률 변수값은 주변보다 중심이 더 자주 나온다는 함의도 있다. 중심 극한 정리를 알기 위해, 주사위를 두 번 던지는 시행을 관찰한다. 주사위를 한 번 던지는 시행의 확률 변수를 $X$라 하면, 두 번 던진 주사위의 합이 만드는 확률 변수는 $Y$ = $X_1 + X_2$가 된다. 이 $Y$가 가질 수 있는 값의 범위는 2에서 12이다. 이 범위의 중심은 $(2+12)/2$ = $7$이며, 중심 극한 정리는 7이 가장 자주 나온다고 설명한다. 중심 극한 정리를 쓰지 않더라도, 경우의 수를 생각하면 7이 나오는 사건은 $6/36$ = $1/6$인 확률로 생긴다. 이 7인 경우는 2에서 12인 범위에서 가장 높은 확률을 가진다.
표본 평균(sample mean) $\bar X$와 큰 수의 법칙(law of large numbers)을 활용해서 중심 극한 정리를 증명한다.

[중심 극한 정리(central limit theorem)] [1]
표본수 $n$이 커질 때, 독립 항등 분포(independent and identical distribution) $X_1, X_2, \cdots, X_n$의 표본 평균 $\bar X$는 표준 정규 분포(standard normal distribution)에 수렴한다.

                          (1)

여기서 $\bar X$ = $(X_1 + X_2 + \cdots + X_n)/n$, $\mu$와 $\sigma$는 $X$의 평균과 표준 편차, $\Phi(z)$는 표준 정규 분포의 누적 분포 함수(cumulative distribution function, CDF); 큰 수의 법칙에서 $\bar X$의 평균과 표준 편차는 $\mu$와 $\sigma / \sqrt{n}$이다.

[증명]
먼저 확률 변수 $X$를 편하게 계산하기 위해 새로운 확률 변수 $Y$ = $(X- \mu) /\sigma$를 정의한다. 확률 변수 $Y$의 평균과 분산은 $E[Y]$ = $0$, ${\rm Var}[Y]$ = $1$, $E[Y^2]$ = $1$이다. 이 $Y$를 써서 $Z$를 표본 평균 $\bar Y$로 바꾼다.

                          (2)

식 (2)로 $Z$에 대한 적률 생성 함수(moment-generating function, MGF) $M_Z(s)$를 $M_Y(s)$의 거듭제곱으로 표현한다.

                          (3)

여기서 $Y_1, Y_2, \cdots, Y_n$은 독립 항등 분포이다. 식 (3)을 계산하기 위해 여러 가지 MGF를 계산한다: $M_Y(0)$ = $E[1]$ = $1$, $M_Y'(0)$ = $E[Y e^{sY}]\Big|_{s=0}$ = $E[Y]$ = $0$, $M_Y''(0)$ = $E[Y^2 e^{sY}]\Big|_{s=0}$ = $E[Y^2]$ = $1$, 여기서 $(\cdot)'$는 $s$에 대한 미분이다. 식 (3)에 로그 함수를 적용하고 $n$을 무한대로 보내며 로피탈의 규칙(L'Hopital's rule)으로 극한을 처리한다.

                          (4)

여기서 $u$ = $1/\sqrt{n}$, $(\cdot)'$는 입력 변수(argument)에 대한 미분이다. 따라서 MGF는 $M_Z(s)$ = $e^{s^2/2}$로 얻어진다. 이는 평균 0, 표준 편차가 1인 표준 정규 분포의 MGF가 된다.
______________________________

표본수 $n$이 무한대로 갈 때만 표본 평균이 정규 분포를 이루지만, 표본수가 충분히 큰 경우에도 정규 분포로 표본 평균을 근사할 수 있다. 다만 수학적으로 충분히 큰 조건을 명확히 정의해야 한다.
베르누이 시행 횟수가 커질수록 이항 분포(binomial distribution)는 정규 분포에 접근한다는 드 무아브르–라플라스 정리(de Moivre–Laplace theorem)도 중심 극한 정리로 쉽게 유도할 수 있다. 베르누이 분포(Bernoulli distribution)의 확률 변수 $T$ $\sim$ $B(1, p)$가 만드는 표본 평균 $\bar T$ = $(T_1 + T_2 + \cdots + T_n)/n$을 고려한다. 여기서 $B(n, p)$는 시행 횟수 $n$, 성공 확률 $p$인 이항 분포이다. 중심 극한 정리에 의해 $Z$ = $(\bar T - \mu) \mathbin{/} (\sigma / \sqrt{n})$ = $(\bar T - p) \mathbin{/} (\sqrt{pq/n})$는 표준 정규 분포가 되므로, $X$ = $T_1 + T_2 + \cdots + T_n$의 확률 밀도 함수(probability density function, PDF) $f_X(x)$는 드 무아브르–라플라스 정리와 같은 결과를 도출한다.

                          (5)

식 (5)에 나온 드 무아브르–라플라스 정리는 확률의 여명기에 확률 이론이 앞으로 나갈 방향을 환하게 밝힌 중요한 정리이다.

[참고문헌]
[1] J. L. Devore, K. N. Berk, and M. A. Carlton, Modern Mathematical Statistics With Applications, 3rd ed., Cham, Switzerland: Springer, 2021.

2025년 1월 1일 수요일

푸아송 과정과 감마 분포(Poisson Process and Gamma Distribution)

[경고] 아래 글을 읽지 않고 "푸아송 과정과 감마 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 형상 모수(shape parameter) $\alpha$[그림에서는 $k$로 씀]와 척도 모수(scale parameter) $\theta$ = $1/\lambda$에 대한 감마 분포의 변화(출처: wikipedia.org)

이산 확률 분포인 푸아송 분포(Poisson distribution) $X$ $\sim$ ${\rm Poi}(\lambda')$를 연속적으로 만든 확률 분포는 감마 분포(gamma distribution)라 부른다. 감마 분포는 주로 $X$ $\sim$ $\Gamma(\alpha, \lambda)$처럼 표기한다. 감마 분포의 확률 밀도 함수(probability density function, PDF) $f_X(x)$를 정의하기 위해, ${\rm Poi}(\lambda')$에서 주어진 시간 $T$ 동안 생기는 평균적 사건 횟수 $\lambda'$를 단위 시간당 출현하는 평균 사건 횟수인 변화율 모수(rate parameter) $\lambda$와 시간 $x$의 함수로 바꾼다.

                  (1)

여기서 $\lambda$의 역수는 척도 모수(scale parameter) $\theta$가 된다. 식 (1)을 푸아송 분포에 대입해서 $f_X(x)$를 만든다.

                  (2a)

여기서 $k$는 시간 $x$ 동안 생긴 사건 횟수, 시간 $x < 0$에서는 사건이 없어서 확률은 0, $A$는 $f_X(x)$의 적분을 1로 만드는 상수이다. 상수 $A$를 구하기 위해 식 (2a)를 적분한다.

                  (2b)

여기서 $\Gamma(x)$는 감마 함수(gamma function)이다. 식 (2b)에서 얻은 $A$ = $\lambda$를 식 (2a)에 대입하고 $f_X(x)$의 모양을 감마 함수의 피적분 함수와 맞추기 위해 $k$ = $\alpha - 1$로 바꾼다.

                          (3)

여기서 $\alpha$는 감마 분포의 형상 모수이며 $\alpha > 0$을 만족한다. 감마 분포의 누적 분포 함수(cumulative distribution function, CDF) $F_X(x)$는 불완전 감마 함수(incomplete gamma function)로 표현된다.

                          (4)

여기서 $\gamma(a, x)$는 하단 불완전 감마 함수(lower incomplete gamma function)이다.
감마 분포에서 $\alpha$ = $1$인 특별한 경우는 지수 분포(exponential distribution) ${\rm Exp}(\lambda)$로 칭한다.

                          (5)

푸아송 분포를 참고하면 $\alpha$ = $1$인 조건은 사건이 발생하지 않는 $k$ = $0$인 경우와 동일하다. 예를 들어, 지수 분포는 드루데 모형(Drude model)을 유도할 때 효과적으로 쓰인다. 옴의 법칙(Ohm's law)을 유도하기 위해서는 전자가 양성자에 충돌하지 않는 확률을 계산해야 한다. 이때 도입되는 확률 분포가 지수 분포이다.
감마 함수의 성질을 활용해서 감마 분포의 평균과 분산을 계산한다.

                          (6)

여기서 $\Gamma(\alpha + 1)$ = $\alpha \Gamma(\alpha)$이다.

[그림 2] 베르누이 과정으로 설명하는 푸아송 과정

베르누이 과정(Bernoulli process)에서 시간을 재면서 변화율 모수(rate parameter) 혹은 단위 시간당 평균 사건 횟수인 $\lambda$로 발생하는 사건을 헤아리는 절차 $N(t)$는 푸아송 과정(Poisson process)이라 명한다. 물론 각 사건은 무작위로 출현한다. 여기서 $N(t)$는 $0$에서 $t$까지 사건이 발생하는 횟수이다. 예를 들어, [그림 2]에서 $N(t < T_1)$ = $0$, $N(T_2 \le t < T_3)$ = $2$ 등이 성립한다. 더 일반화해서 베르누이 과정이란 전제 없이 각 사건이 독립이며 변화율 $\lambda$만 아는 경우도 푸아송 과정이 된다. 푸아송 과정은 다음과 같은 특성이 있다.
  • $N(0)$ = $0$
  • 시간 간격 $\tau$ 동안 발생하는 사건 횟수는 푸아송 분포 ${\rm Poi}(\lambda \tau)$를 따름
푸아송 과정을 잘 이해하기 위해 [그림 2]에 소개한 베르누이 과정인 동전 던지기를 고려한다[1]. 동전은 주기 $T$로 던져지며, 우리는 동전 앞면이 나오는 사건만을 헤아린다. 동전 앞면이 나오는 확률은 변화율 모수에 따라 $p$ = $\lambda T$이다. 시간 $t$까지 우리가 관찰하는 사건 개수는 $n$ $\approx$ $t/T$이다. 그러면 이항 분포의 정의에 의해 앞면이 나오는 사건 횟수의 평균은 $\mu$ = $np$ $\approx$ $t/T \cdot \lambda T$ = $\lambda t$이다. 그래서 이 결과는 식 (1)에 정확히 부합한다. 이때 동전 던지는 주기 $T$를 아주 작게 하면, $n$은 계속 커지고 $p$는 작아지기 때문에, 동전 앞면이 나오는 사건은 희귀 사건(rare event)이 된다. 그래서 $T$를 0으로 보내는 이항 분포는 푸아송 극한 정리(Poisson limit theorem)를 만족하기 위해 푸아송 분포인 ${\rm Poi}(\lambda t)$로 변화되어야 한다.
[그림 2]에서 동전 앞면이 한 번 나오기까지 걸리는 시간 $T_1$을 추적한다. 첫번째 도착 시간(the first arrival time)에 해당하는 $T_1$의 확률 변수를 $X_1$이라 놓는다. 이 경우 $X_1 > t$인 확률은 $t$까지 사건이 발생하지 않는 확률과 같다. 이는 푸아송 분포에서 $k$ = $0$에 해당한다.

                          (7a)

식 (7a)를 써서 $t$까지 $X_1$이 생길 CDF를 계산한다.

                          (7b)

여기서 $F_{X_1}(t \le 0)$ = $0$이다. 이 CDF는 지수 분포의 CDF와 동일하기 때문에, $X_1$은 지수 분포를 좇아간다. 앞면이 한 번 나온 후 두번째 앞면이 나올 때까지 걸리는 시간, 즉 두번째 도착 시간(the second arrival time)은 $T_2 - T_1$이다. 이 확률 분포를 $X_2$라고 한 경우, 동전 던지기는 기본적으로 베르누이 과정이므로 $X_2$는 $X_1$과 독립이다. 결국 $X_2, X_3, \cdots$ 등이 모두 독립적으로 지수 분포를 따라간다.
제$n$번째까지 모든 도착 시간을 합한 $X$ = $X_1 + X_2 + \cdots + X_n$의 확률 분포를 파악하려고 적률 생성 함수(moment-generating function, MGF) $M_X(s)$를 도입한다. 첫단계로 지수 분포의 MGF를 계산한다.

                          (8a)

MGF의 성질을 써서 $X$ = $X_1 + X_2 + \cdots + X_n$의 MGF를 식 (8a)의 곱으로 구한다.

                          (8b)

식 (8b)를 만드는 확률 분포를 찾기 위해 감마 분포의 MGF를 유도한다.

                          (8c)

따라서 지수 분포의 합인 $X$는 $\Gamma(n, \lambda)$인 감마 분포가 된다.

[참고문헌]

2024년 12월 31일 화요일

베타 분포(Beta Distribution)

[경고] 아래 글을 읽지 않고 "베타 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 형상 모수 $\alpha, \beta$에 따른 베타 분포 $\beta(\alpha, \beta)$의 변화(출처: wikipedia.org)

베타 분포(beta distribution)베타 함수(beta function)와 동일한 확률 밀도 함수(probability density function, PDF)를 가진 연속 확률 분포(continuous probability distribution)이다.

                          (1)

여기서 $0 < x < 1$, $\alpha > 0$, $\beta > 0$; $B(\alpha, \beta)$는 형상 모수(shape parameter) $\alpha, \beta$에 의해 값이 바뀌는 베타 함수이다. 베타 함수는 $X$ $\sim$ $\beta(\alpha, \beta)$처럼 표기한다. 분모에 출현한 $B(\alpha, \beta)$는 PDF $f_X(x)$의 적분을 1로 만드는 정규화 상수이다. 베타 분포는 $\alpha, \beta$를 바꾸어서 다양한 확률 분포를 생성할 수 있는 카멜레온 성질이 있다. 만약 $\alpha$ = $\beta$ = $1$로 두면, 베타 분포는 $x$에 대해 확률값이 일정한 균등 분포(uniform distribution)가 된다. 관점을 바꾸어 $x$를 고정하고, $\alpha, \beta$를 정수인 $k$ = $\alpha-1$, $n-k$ = $\beta-1$, $n$ = $\alpha + \beta - 2$로 두면, 식 (1)은 이항 분포 ${\rm Bin}(n, x)$의 확률에 정비례한다.

                          (2)

베타 분포의 누적 분포 함수(cumulative distribution function, CDF)는 불완전 베타 함수(incomplete beta function) $B(x; \alpha, \beta)$로 표현된다.

                          (3)

여기서 $B(1; \alpha, \beta)$ = $B(\alpha, \beta)$이다. 베타 함수의 성질을 이용해서 베타 분포의 평균(mean or average)과 분산(variance)도 구한다.

                          (4a)

                          (4b)

평균은 $\alpha$와 $\beta$의 나눗셈으로 나오기 때문에, 형상 모수 $\alpha, \beta$를 평균 $\mu$ 기준으로 다시 쓸 수 있다.

                          (5)

여기서 형상 모수 $\nu$는 0보다 큰 실수이다.

[다음 읽을거리]