레이블이 수학인 게시물을 표시합니다. 모든 게시물 표시
레이블이 수학인 게시물을 표시합니다. 모든 게시물 표시

2025년 1월 11일 토요일

직교 다항식(Orthogonal Polynomial)

[경고] 아래 글을 읽지 않고 "직교 다항식"을 보면 바보로 느껴질 수 있습니다.


[그림 1] 기하학에서 쓰이는 직교성(출처: wikipedia.org)

[그림 1]처럼 기하학에서 직각(right angle)의 의미로 쓰이는 직교성(orthogonality)은 함수상 내적(inner product on functions) $\langle f, g \rangle$로 추상화해서 사용 범위를 적분(integration)으로 확장할 수 있다. 함수의 직교성은 스튀름–리우빌 이론(Sturm–Liouville Theory)의 결과이면서 완비성(completeness)을 증명하는 중요 수단이다.

                  (1)

여기서 $r(x)$는 스튀름–리우빌 이론에 나오는 밀도 함수(density function) 혹은 가중치 함수(weighting function)이며 항상 0보다 크다.[∵ $f(x)$ = $g(x)$인 경우 식 (1)을 항상 0보다 크게 만드는 조건이다.] 직교 다항식(orthogonal polynomial)은 식 (1)의 함수 $f(x), g(x)$가 다항식이며 그 내적은 0이 되는 다항식이다.

                        (2)

여기서 $\psi_n(x)$의 차수(degree)는 $n$이다. 직교 다항식의 대표적인 예는 르장드르 다항식(Legendre polynomial)이다.
주어진 적분 구간 $[a, b]$에서 직교 다항식을 생성하는 표준 방법은 그람–슈미트 과정(Gram–Schmidt process)이다. 다항식의 기저(basis)를 $1$, $x$, $\cdots$, $x^{n-1}$, $x^n$으로 두고, 주어진 다항식에 직교하는 또 다른 직교 함수를 차례로 생성한다. 먼저 그람–슈미트 과정에 따라 $\psi_0(x)$ = $a_0$으로 둔다. 다음으로 $\psi_1(x)$의 기저 $x$의 계수는 $a_1$로 설정하고 $\psi_0(x)$와 평행한 부분을 제거해서 $\langle \psi_1(x), \psi_0(x) \rangle$ = $0$으로 만든다.

                  (3a)

여기서 $a_n$은 $\psi_n(x)$에서 $x^n$의 실수 계수이다. 비슷한 방법으로 저차 다항식에 모두 직교하는 고차 다항식을 계속 만들 수 있다. 예를 들어, $\psi_0(x)$와 $\psi_1(x)$에 직교하도록 $\psi_2(x)$를 생성한다.

                  (3b)

임의의 $\psi_n(x)$도 식 (3b)와 비슷한 절차로 공식화된다.

                        (3c)

또한 $\psi_0(x), \psi_1(x), \cdots, \psi_n(x)$는 직교 기저(orthogonal basis)이기 때문에 $x^m$과도 항상 직교한다.

                  (4)

여기서 $\alpha_i$ = $\langle x^m, \psi_i(x) \rangle \mathbin{/} \langle \psi_i(x), \psi_i(x) \rangle$이다. 이와 같이 직교 다항식을 구성하는 계수 $a_0, a_1, \cdots, a_n$은 임의의 실수가 될 수 있으므로, 직교 다항식은 무수히 많이 존재한다.
직교 다항식 $\psi_n(x)$는 직교성인 식 (2)를 변형해서 스튀름–리우빌 미분 방정식(Sturm–Liouville differential equation)에 포함시킬 수 있다[1]. 그러면 스튀름–리우빌 이론(Sturm–Liouville theory)의 다양한 결과가 직교 다항식에도 바로 적용된다. 상상력만으로 직교 다항식의 미분 방정식을 만들기는 어렵기 때문에, 스튀름–리우빌 미분 방정식을 나침반으로 삼아 한 걸음씩 전진한다. 여분의 다항식 $p(x)$를 가진 새로운 항을 식 (2)에 추가해서  스튀름–리우빌 이론의 직교성을 강제로 만든다.

                  (5a)

여기서 함수 행렬식(Wronskian)은 $W[u, v]$ = $uv'-u'v$, $\lambda_n$은 직교 다항식 $\psi_n(x)$의 고유치(eigenvalue), 추가한 항이 $\psi_n(x)$에 관계없이 항상 0이 되도록 $p(a)$ = $p(b)$ = $0$이 되는 다항식을 선택한다. 식 (5a)에 나온 함수 행렬식을 풀어서 새로운 미분 방정식을 하나 찾는다.

                        (5b)

                  (5c)

여기서 $p(a)$ = $p(b)$ = $0$, 식 (7a)에 따라 구간 $(a, b)$에서 $p(x) > 0$이다. 최종적으로 식 (5c)는 직교 다항식에 대응하는 미분 방정식이며, 스튀름–리우빌 미분 방정식에 포함되기 때문에 직교 다항식은 다시 고유 함수(eigenfunction)가 되어서 스튀름–리우빌 이론의 모든 결과가 직교 다항식에도 성립한다. 식 (5c)를 더 일반화하기 위해 $r(x)$로 나눈다.

                  (6)

여기서 $p'(x)$ = $dp(x)/dx$; $p(x)$의 조건으로 인해 $Q(a)$ = $Q(b)$ = $0$이다. 식 (6)에서 모든 항의 다항식 차수가 같으려면, $Q(x)$는 2차 함수(quadratic function), $L(x)$는 선형 함수(linear function)가 되어야 한다. 그래서 $Q(x)$ = $q_0(x-a)(x-b)$, $L(x)$ = $cx+d$로 둘 수 있다. 만약 $Q(x)$가 완전한 2차 함수[$q_0 \ne 0$]인 때는 롤의 정리(Rolle's theorem)에 의해 $Q'(x_0)$ = $0$을 만족하는 $x_0$이 $(a, b)$ 사이에 존재한다. 이는 $L(x)$의 근이 $(a, b)$ 구간 안에 있다는 의미이다.
식 (6)으로부터 식 (5c)를 생성할 때는 적분 인자(integration factor)에 해당하는 $m(x)$가 필요하다.

                  (7a: 적분 인자)

                  (7b: 밀도 함수 혹은 가중치 함수)

여기서 $r(x) > 0$, $p(x) > 0$이므로 $Q(x) > 0$이 된다. 르장드르 다항식의 경우에 $Q(x)$ = $1-x^2$, $L(x)$ = $-2x$, $\lambda_n$ = $n(n+1)$인 식 (6)의 미분 방정식을 만족한다. 여기서 $Q(x)$의 근은 $\pm 1$이고 $L(x)$의 근은 $(-1, 1)$의 내부인 $x$ = $0$에 근이 있다. 식 (7a)를 가지고 르장드르 다항식의 $p(x)$도 구한다.

                  (8)

여기서 $p(x)$는 $(-1, 1)$에서 0보다 크도록 부호를 택한다. 식 (7a)와 같은 형태는 피어슨 미분 방정식(Pearson differential equation)으로 분류한다. 이 미분 방정식의 해인 $p(x)$를 이용해서 만든 연속 확률 분포(continuous probability distribution)피어슨 분포(Pearson distribution)가 된다. 피어슨 분포는 $Q(x), L(x)$의 계수를 바꾸어서 다양한 확률 분포를 생성할 수 있다. 다양성이 많은 만큼 피어슨 분포는 생물, 환경, 경제, 주식 등의 많은 분야에 쓰인다.

직교 다항식과 스튀름–리우빌 이론을 종합해서 직교 다항식이 내포한 다양한 성질을 증명한다.

  • $\psi_n(x)$의 차수는 $n$
그람–슈미트 과정으로 얻은 식 (3c)에 따라 $\psi_n(x)$의 고차 항은 $x^n$이다.
 
  • $\psi_n(x)$의 모든 근은 실수이며 단순근(simple root)
스튀름의 분리 정리(Sturm's separation theorem)로 인해 $\psi_n(x)$의 근은 모두 단순근이다. 또한 스튀름의 진동 정리(Sturm's oscillation theorem)를 적용하면, $\psi_{n+1}(x)$의 영점은 실수축에 있으며 $\psi_{n}(x)$보다 하나 더 많다.
 
  • $\lambda_n$ = $\displaystyle{-n \left(\frac{n-1}{2}Q''(x) + L'(x) \right)}$
식 (6)에서 $x^n$의 계수를 모으면 $q_0 n(n-1) + c n + \lambda_n$ = $0$을 얻는다. 여기서 $Q''(x)$ = $2 q_0$, $L'(x)$ = $c$이다. 이로 인해 상수 함수인 $\psi_0(x)$의 고유치는 항상 $\lambda_0$ = $0$이다.


[참고문헌]
[1] J. Shohat, "A differential equation for orthogonal polynomials," Duke Math. J., vol. 5, no. 2, pp. 401–417, Jun. 1939.

[다음 읽을거리]

2025년 1월 7일 화요일

가우스 구적법(Gaussian Quadrature)

[경고] 아래 글을 읽지 않고 "가우스 구적법"을 보면 바보로 느껴질 수 있습니다.


(a) 1차원

(b) 2차원
[그림 1] 가우스 구적법의 적용(출처: wikipedia.org)

정적분(definite integral)리만 적분(Riemann integral)으로 구할 때는 별생각 없이 적분 변수 $x$의 간격 $\Delta x$를 동일하게 가정하고 수치 적분(numerical integration)을 적용한다. 하지만 이 방식이 적분값을 구하는 효율적인 기법일까? 등간격 $\Delta x$란 조건을 다르게 설정하려면, 수치 적분에 쓰는 가로 좌표(abscissa) $x_i$의 위치를 [그림 1]처럼 불규칙하게 놓는다. 보통 사람은 이 정도 생각에서 멈추지만 천재가 손을 대면 최종 결과가 많이 달라진다. 1814년가우스 37세, 조선 순조 시절에 가우스Carl Friedrich Gauss(1777–1855)는 간격이 다른 가로 좌표 $x_i$를 선택하고 함수값 $f(x_i)$에 적절한 가중치(weight) $w_i$를 곱할 경우, 기존 방법보다 더 빠르고 정확하게 적분을 구할 수 있다는 가우스 구적법(求積法, Gaussian quadrature)을 발견했다[1], [2].

                          (1)

여기서 $f(x)$가 차수 $2n-1$ 이하인 다항식(polynomial)이면 등호가 성립한다. 가중치 $w_i$를 크리스토펠 수(Christoffel number)로 부르기도 한다. 세상 일을 자연수로 헤아리기 좋아하는 사람들이 인류 역사상 3대 수학 천재[아르키메데스, 뉴턴, 가우스]로 꼽는 가우스가 했다니까 식 (1)에서 무언가 신비감을 느끼기도 한다. 그러나 가우스 구적법은 르장드르 다항식(Legendre polynomial)과 다항식의 직교성에 대한 쉬운 관찰에서 출발한다.

                  (2a)

여기서 $P_n(x)$는 $n$차(degree) 르장드르 다항식이다. 임의의 $x^m$에 대해 식 (2a)가 성립하므로, 차수가 $n-1$인 모든 다항식 $p_{n-1}(x)$는 르장드르 다항식과 반드시 직교한다.

                  (2b)

여기서 $P_n(x)$의 다항식 차수는 $n$이다. 그러면 나눗셈(division)의 성질에 따라 차수가 $2n-1$인 다항 함수 $f_{2n-1}(x)$를 $P_n(x)$로 나누어서 정리할 수 있다.

                  (3a)

여기서 몫(quotient) $q_{n-1}(x)$와 나머지(remainder) $r_{n-1}(x)$는 차수가 모두 $n-1$이다. 식 (3)을 적분하면 식 (2b)로 기술된 직교성으로 인해 $r_{n-1}(x)$의 적분으로 표현된다.

                  (3b)

다음 단계로 다항식 $r_{n-1}(x)$를 $n-1$차 라그랑주 보간(Lagrange interpolation) $L_{n-1}(x)$로 다시 쓴다.

                  (4)

여기서 $(\cdot)'$는 $x$에 대한 미분, $l_{i}(x)$는 차수가 $n-1$인 라그랑주 다항식(Lagrange polynomial)이다. 식 (4)를 식 (1)과 맞추기 위해 가로 좌표 $x$를 등간격이 아닌 르장드르 다항식의 영점(zero)인 $x_i$로 선택한다. 그러면 $f_{2n-1}(x_i)$ = $r_{n-1}(x_i)$라는 직관적인 결과가 나온다. 최종적으로 르장드르 다항식을 사용한 가우스 구적법은 다음 관계를 가진다.

                          (5)

여기서 르장드르 다항식의 성질로 인해 모든 영점은 단순근이며 열린 구간 $(-1, 1)$ 안에 $n$개가 존재한다. 식 (5)는 가우스–르장드르 구적법(Gauss–Legendre quadrature)으로 이름 붙인다.
가우스 구적법을 중심으로 본 르장드르 다항식은 다른 다항식과 직교성이 성립하는 신기한 성질이 있다. 이는 르장드르 다항식이 특별해서일까? 아니다. 다항식끼리 서로 직교하는 직교 다항식(orthogonal polynomial)의 범주에 르장드르 다항식이 속해서 이런 특성이 존재한다. 직교 다항식 $\psi_n(x)$는 내적(inner product)을 식 (2), (6)과 같은 적분으로 정의하고 그람–슈미트 과정(Gram–Schmidt process)을 적용해서 다양하게 정의될 수 있다.

                  (6)

여기서 $m < n$; $\psi_n(x)$의 차수는 $n$, $w(x)$는 가중치 함수(weight function)이다. 그래서 르장드르 다항식이 특별하기보다 직교 다항식에 속하는 특수 함수 중의 하나로 처리될 뿐이다.
르장드르 다항식을 쓰는 가우스 구적법에서 관찰한 성질을 바탕으로 직교 다항식을 활용하는 가우스 구적법의 기본 정리(fundamental theorem of Gaussian quadrature)를 증명한다.

[가우스 구적법의 기본 정리(fundamental theorem of Gaussian quadrature)]
열린 구간 $(a, b)$ 안에 있는 직교 다항식 $\psi_n(x)$의 영점 $x_i$를 $n$개 뽑아서 계산한 연속 함수 $f(x)$의 가우스 구적법은 다항식 차수 $2n-1$의 정밀도(precision)를 가진다.

                          (7)

여기서 $\psi_n(x_i)$ = $0$; $x_i$는 실수인 단순근(simple root), $w(x)$는 0보다 큰 가중치 함수, $\psi_n(x)$는 차수가 $n$인 직교 다항식, $l_i(x)$는 $n-1$ 차수의 라그랑주 다항식이다.

[증명]
바이어슈트라스 근사 정리(Weierstrass approximation theorem)의 직접적인 결과로 인해 임의의 연속 함수 $f(x)$에 균등 수렴(uniform convergence)하는 다항식 $p(x)$는 항상 존재한다. 이 다항식의 차수를 $p_{2n-1}(x)$처럼 $2n-1$로 두고 식 (3a)와 비슷하게 몫 $q_n(x)$와 나머지 $r_{n-1}(x)$로 분리한다.

                  (8a)

여기서 $p_{2n-1}(x_i)$ = $r_{n-1}(x_i)$이다. 식 (8a)에 식 (6)에서 정의한 내적을 적용한다.

                  (8b)

식 (4)와 동일하게 $r_{n-1}(x)$에 라그랑주 보간 $L_{n-1}(x)$을 쓰고 식 (5)와 유사하게 정리한다.

                  (8c)

여기서 $r_{n-1}(x)$ = $L_{n-1}(x)$ = $\sum_{i=1}^n p_{2n-1}(x_i) l_i(x)$이다.
직교 다항식 $\psi_n(x)$의 영점 $x_i$의 특성도 확인이 필요하다. 대수학의 기본 정리(fundamental theorem of algebra)를 써서 $\psi_n(x)$를 인수 분해한다.

                  (9a)

여기서 $a_n$은 $n$차의 계수이다. 먼저 근 $x_i$는 실수라고 가정한다. 모든 $x_i$가 $x_i \le a$ 혹은 $x_i \ge b$라면, 식 (9)는 열린 구간 $(a, b)$ 안에서 부호를 바꾸지 않기 때문에, 식 (6)이 표현하는 직교성이 나오지 않는다. 이러한 직교성의 제한으로 인해 $(a, b)$ 구간 안에 있는 영점 $\chi_j$만 생각한다. 여기서 $\chi_j$의 개수는 $m$이며 $x_i$중의 하나이다. 이 조건을 사용해서 식 (9)와 $x-\chi_j$의 곱이 항상 0이나 양수가 되도록 만든 후, 식 (6)과 같은 적분을 한다.

                  (9b)

영점 개수 $m$이 $n$보다 작은 조건에서는 식 (6)의 직교성이 성립해야 하나 식 (9b)처럼 0이 되지 않아서 문제가 된다. 따라서 모든 $x_i$가 $(a, b)$에 존재해야 한다. 다음 단계로 $x_i$가 단순근(simple root)이 아닌 다중근(multiple root)이 되는 상태도 생각한다. 이때도 식 (9b)처럼 $\psi_n(x)$에 적당한 $s_m(x)$를 곱해서 적분이 0이 되지 않게 한다. 이는 다시 직교성에 대한 모순이 된다. 마지막으로 근 $x_i$가 복소수인 경우는 $(x-x_i)(x-x_i^*)$ = $|x-x_i|^2$인 다중근 효과가 생겨서 직교성에 문제가 생긴다. 이를 모두 종합하면 모든 영점 $x_i$는 실수이며 $(a, b)$ 안에 단순근 형태로 있어야 한다.
______________________________

르장드르 다항식 $P_n(x)$는 직교 다항식에 속하기 때문에, 영점의 성질은 직교 다항식과 같다. 즉, 모든 $P_n(x)$의 모든 영점은 $(-1, 1)$ 안에 $n$개만큼 존재하며 단순근이다.

식 (7)은 차수가 $2n-1$인 모든 다항식에서 항상 참이기 때문에 가우스 구적법의 다양한 속성을 쉽게 증명할 수 있다.

  • $\sum_{i=1}^n w_i$ = $W(b) - W(a)$
함수 $f(x)$ = $1$로 두고 식 (7)의 좌변을 적분한다.

                  (10)

여기서 $W(x)$는 $w(x)$의 원시 함수(primitive function)이다.

  • 모든 가중치 $w_i$는 양수
다항식 $f(x)$를 0이거나 양수이면서 $x_i$에서 $f(x_i)$ = $\delta_{ik}$라고 선택한다.

                  (11)

여기서 $\delta_{ik}$는 크로네커 델타(Kronecker delta)이다.

  • 가중치의 표현식: $w_i$ = $\displaystyle{\frac{a_n}{a_{n-1}}\frac{\int_a^b \psi_{n-1}^2(x) w(x)\,dx}{\psi'_n(x_i) \psi_{n-1}(x_i)}}$, $(\cdot)'$은 $x$에 대한 미분
식 (4)부터 시작해서 가우스 구적법에 쓰는 $\pi_n(x)$를 직교 다항식 $\psi_n(x)$로 바꾼다.

                  (12a)

여기서 $\psi_n(x)$ = $a_n \pi_n(x)$, $a_n$은 $x^n$의 계수이다. 직교성인 식 (6)을 적용해서 식 (12a)의 마지막식에 $x^k$를 강제로 추가한다.

                  (12b)

여기서 $k \le n$; 모든 $k$에 대해 $p_{k-1}(x)$는 $\psi_n(x)$와 직교성이 성립한다. 식 (12b)에서 $k$를 $n-1$부터 $1$까지 변화시킴으로써 $x^{n-1}$, $x^{n-2}$, $\cdots$, $x$, $1$로 구성된 $\psi_{n-1}(x)$를 생성한다.

                  (12c)

다시 식 (12c)에서 $\psi_n(x) / (x-x_i)$를 더 낮은 $n-1$ 차수의 다항식으로 바꾼다.

             (12d)

여기서 다항식 $s_{n-2}$는 차수가 $n-2$이며 $\psi_{n-1}(x)$와 직교한다. 식 (12d)와 비슷하게 $x^{n-1}$을 $\psi_{n-1}(x)$와 차수가 $n-2$인 다항식 $t_{n-2}(x)$로 표현한다.

             (12e)

여기서 $t_{n-2}(x)$는 $\psi_{n-1}(x)$에 직교한다. 모든 결과를 합쳐서 정리하면 증명이 완성된다.


   1. 가우스–르장드르 구적법(Gauss–Legendre quadrature)   

가우스–르장드르 구적법은 직교 다항식을 $\psi_n(x)$ = $P_n(x)$로 둔다. 또한 $w(x)$ = $1$, $a$ = $-1$, $b$ = $1$이다.

[가중치]

                      (1.1)

[증명]
가우스 구적법의 가중치 표현식에 르장드르 다항식 $P_n(x)$의 성질을 대입한다.

                      (1.2)

                      (1.3)

식 (1.3)을 더 간략화하기 위해 르장드르 다항식의 미분을 사용한다.

                  (1.4a)

                  (1.4b)

여기서 $P_n(x_i)$ = $0$이다.
______________________________

가우스–르장드르 구적법을 실제로 구현할 때는 복잡한 식 (7)보다 간단하고 닫힌 형식(closed form)인 식 (1.1)을 써서 가중치를 계산한다. 게다가 르장드르 다항식의 영점 $p_{\nu,s}$는 많은 연구 결과가 있기 때문에, 구적법의 영점을 편하게 $x_i$ = $p_{n,i}$로 둔다.


[참고문헌]
[2] N. Kovvali, Theory and Applications of Gaussian Quadrature Methods, Morgan & Claypool, 2011.

2025년 1월 3일 금요일

중심 극한 정리(Central Limit Theorem)

[경고] 아래 글을 읽지 않고 "중심 극한 정리"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 중심 극한 정리의 의미(출처: wikipedia.org)

확률 변수(random variable)가 가진 경이로운 성질 중 하나로 중심 극한 정리(central limit theorem, CLT)가 있다[1]. 개별 확률 변수는 그 나름의 개성을 가질 수 있지만, 이 확률 변수를 계속 더한 값은 항상 정규 분포(normal distribution)에 수렴한다는 놀라운 특성이 바로 중심 극한 정리이다. 중심 극한 정리에 나오는 중심의 뜻은 푸아송 극한 정리(Poisson limit theorem)와 같은 확률에 대한 극한 정리 중에서도 가장 중심이 된다는 의미이다. 혹은 확률 변수를 더하면 확률 변수값은 주변보다 중심이 더 자주 나온다는 함의도 있다. 중심 극한 정리를 알기 위해, 주사위를 두 번 던지는 시행을 관찰한다. 주사위를 한 번 던지는 시행의 확률 변수를 $X$라 하면, 두 번 던진 주사위의 합이 만드는 확률 변수는 $Y$ = $X_1 + X_2$가 된다. 이 $Y$가 가질 수 있는 값의 범위는 2에서 12이다. 이 범위의 중심은 $(2+12)/2$ = $7$이며, 중심 극한 정리는 7이 가장 자주 나온다고 설명한다. 중심 극한 정리를 쓰지 않더라도, 경우의 수를 생각하면 7이 나오는 사건은 $6/36$ = $1/6$인 확률로 생긴다. 이 7인 경우는 2에서 12인 범위에서 가장 높은 확률을 가진다.
표본 평균(sample mean) $\bar X$와 큰 수의 법칙(law of large numbers)을 활용해서 중심 극한 정리를 증명한다.

[중심 극한 정리(central limit theorem)] [1]
표본수 $n$이 커질 때, 독립 항등 분포(independent and identical distribution) $X_1, X_2, \cdots, X_n$의 표본 평균 $\bar X$는 표준 정규 분포(standard normal distribution)에 수렴한다.

                          (1)

여기서 $\bar X$ = $(X_1 + X_2 + \cdots + X_n)/n$, $\mu$와 $\sigma$는 $X$의 평균과 표준 편차, $\Phi(z)$는 표준 정규 분포의 누적 분포 함수(cumulative distribution function, CDF); 큰 수의 법칙에서 $\bar X$의 평균과 표준 편차는 $\mu$와 $\sigma / \sqrt{n}$이다.

[증명]
먼저 확률 변수 $X$를 편하게 계산하기 위해 새로운 확률 변수 $Y$ = $(X- \mu) /\sigma$를 정의한다. 확률 변수 $Y$의 평균과 분산은 $E[Y]$ = $0$, ${\rm Var}[Y]$ = $1$, $E[Y^2]$ = $1$이다. 이 $Y$를 써서 $Z$를 표본 평균 $\bar Y$로 바꾼다.

                          (2)

식 (2)로 $Z$에 대한 적률 생성 함수(moment-generating function, MGF) $M_Z(s)$를 $M_Y(s)$의 거듭제곱으로 표현한다.

                          (3)

여기서 $Y_1, Y_2, \cdots, Y_n$은 독립 항등 분포이다. 식 (3)을 계산하기 위해 여러 가지 MGF를 계산한다: $M_Y(0)$ = $E[1]$ = $1$, $M_Y'(0)$ = $E[Y e^{sY}]\Big|_{s=0}$ = $E[Y]$ = $0$, $M_Y''(0)$ = $E[Y^2 e^{sY}]\Big|_{s=0}$ = $E[Y^2]$ = $1$, 여기서 $(\cdot)'$는 $s$에 대한 미분이다. 식 (3)에 로그 함수를 적용하고 $n$을 무한대로 보내며 로피탈의 규칙(L'Hopital's rule)으로 극한을 처리한다.

                          (4)

여기서 $u$ = $1/\sqrt{n}$, $(\cdot)'$는 입력 변수(argument)에 대한 미분이다. 따라서 MGF는 $M_Z(s)$ = $e^{s^2/2}$로 얻어진다. 이는 평균 0, 표준 편차가 1인 표준 정규 분포의 MGF가 된다.
______________________________

표본수 $n$이 무한대로 갈 때만 표본 평균이 정규 분포를 이루지만, 표본수가 충분히 큰 경우에도 정규 분포로 표본 평균을 근사할 수 있다. 다만 수학적으로 충분히 큰 조건을 명확히 정의해야 한다.
베르누이 시행 회수가 커질수록 이항 분포(binomial distribution)는 정규 분포에 접근한다는 드 무아브르–라플라스 정리(de Moivre–Laplace theorem)도 중심 극한 정리로 쉽게 유도할 수 있다. 베르누이 분포(Bernoulli distribution)의 확률 변수 $T$ $\sim$ $B(1, p)$가 만드는 표본 평균 $\bar T$ = $(T_1 + T_2 + \cdots + T_n)/n$을 고려한다. 여기서 $B(n, p)$는 시행 회수 $n$, 성공 확률 $p$인 이항 분포이다. 중심 극한 정리에 의해 $Z$ = $(\bar T - \mu) \mathbin{/} (\sigma / \sqrt{n})$ = $(\bar T - p) \mathbin{/} (\sqrt{pq/n})$는 표준 정규 분포가 되므로, $X$ = $T_1 + T_2 + \cdots + T_n$의 확률 밀도 함수(probability density function, PDF) $f_X(x)$는 드 무아브르–라플라스 정리와 같은 결과를 도출한다.

                          (5)

식 (5)에 나온 드 무아브르–라플라스 정리는 확률의 여명기에 확률 이론이 앞으로 나갈 방향을 환하게 밝힌 중요한 정리이다.

[참고문헌]
[1] J. L. Devore, K. N. Berk, and M. A. Carlton, Modern Mathematical Statistics With Applications, 3rd ed., Cham, Switzerland: Springer, 2021.

2025년 1월 1일 수요일

푸아송 과정과 감마 분포(Poisson Process and Gamma Distribution)

[경고] 아래 글을 읽지 않고 "푸아송 과정과 감마 분포"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 형상 모수(shape parameter) $\alpha$[그림에서는 $k$로 씀]와 척도 모수(scale parameter) $\theta$ = $1/\lambda$에 대한 감마 분포의 변화(출처: wikipedia.org)

이산 확률 분포인 푸아송 분포(Poisson distribution) $X$ $\sim$ ${\rm Poi}(\lambda')$를 연속적으로 만든 확률 분포는 감마 분포(gamma distribution)라 부른다. 감마 분포는 주로 $X$ $\sim$ $\Gamma(\alpha, \lambda)$처럼 표기한다. 감마 분포의 확률 밀도 함수(probability density function, PDF) $f_X(x)$를 정의하기 위해, ${\rm Poi}(\lambda')$에서 주어진 시간 $T$ 동안 생기는 평균적 사건 회수 $\lambda'$를 단위 시간당 출현하는 평균 사건 회수인 변화율 모수(rate parameter) $\lambda$와 시간 $x$의 함수로 바꾼다.

                  (1)

여기서 $\lambda$의 역수는 척도 모수(scale parameter) $\theta$가 된다. 식 (1)을 푸아송 분포에 대입해서 $f_X(x)$를 만든다.

                  (2a)

여기서 $k$는 시간 $x$ 동안 생긴 사건 회수, 시간 $x < 0$에서는 사건이 없어서 확률은 0, $A$는 $f_X(x)$의 적분을 1로 만드는 상수이다. 상수 $A$를 구하기 위해 식 (2a)를 적분한다.

                  (2b)

여기서 $\Gamma(x)$는 감마 함수(gamma function)이다. 식 (2b)에서 얻은 $A$ = $\lambda$를 식 (2a)에 대입하고 $f_X(x)$의 모양을 감마 함수의 피적분 함수와 맞추기 위해 $k$ = $\alpha - 1$로 바꾼다.

                          (3)

여기서 $\alpha$는 감마 분포의 형상 모수이며 $\alpha > 0$을 만족한다. 감마 분포의 누적 분포 함수(cumulative distribution function, CDF) $F_X(x)$는 불완전 감마 함수(incomplete gamma function)로 표현된다.

                          (4)

여기서 $\gamma(a, x)$는 하단 불완전 감마 함수(lower incomplete gamma function)이다.
감마 분포에서 $\alpha$ = $1$인 특별한 경우는 지수 분포(exponential distribution) ${\rm Exp}(\lambda)$로 칭한다.

                          (5)

푸아송 분포를 참고하면 $\alpha$ = $1$인 조건은 사건이 발생하지 않는 $k$ = $0$인 경우와 동일하다. 예를 들어, 지수 분포는 드루데 모형(Drude model)을 유도할 때 효과적으로 쓰인다. 옴의 법칙(Ohm's law)을 유도하기 위해서는 전자가 양성자에 충돌하지 않는 확률을 계산해야 한다. 이때 도입되는 확률 분포가 지수 분포이다.
감마 함수의 성질을 활용해서 감마 분포의 평균과 분산을 계산한다.

                          (6)

여기서 $\Gamma(\alpha + 1)$ = $\alpha \Gamma(\alpha)$이다.

[그림 2] 베르누이 과정으로 설명하는 푸아송 과정

베르누이 과정(Bernoulli process)에서 시간을 재면서 변화율 모수(rate parameter) 혹은 단위 시간당 평균 사건 회수인 $\lambda$로 발생하는 사건을 헤아리는 절차 $N(t)$는 푸아송 과정(Poisson process)이라 명한다. 물론 각 사건은 무작위로 출현한다. 여기서 $N(t)$는 $0$에서 $t$까지 사건이 발생하는 회수이다. 예를 들어, [그림 2]에서 $N(t < T_1)$ = $0$, $N(T_2 \le t < T_3)$ = $2$ 등이 성립한다. 더 일반화해서 베르누이 과정이란 전제 없이 각 사건이 독립이며 변화율 $\lambda$만 아는 경우도 푸아송 과정이 된다. 푸아송 과정은 다음과 같은 특성이 있다.
  • $N(0)$ = $0$
  • 시간 간격 $\tau$ 동안 발생하는 사건 회수는 푸아송 분포 ${\rm Poi}(\lambda \tau)$를 따름
푸아송 과정을 잘 이해하기 위해 [그림 2]에 소개한 베르누이 과정인 동전 던지기를 고려한다[1]. 동전은 주기 $T$로 던져지며, 우리는 동전 앞면이 나오는 사건만을 헤아린다. 동전 앞면이 나오는 확률은 변화율 모수에 따라 $p$ = $\lambda T$이다. 시간 $t$까지 우리가 관찰하는 사건 개수는 $n$ $\approx$ $t/T$이다. 그러면 이항 분포의 정의에 의해 앞면이 나오는 사건 회수의 평균은 $\mu$ = $np$ $\approx$ $t/T \cdot \lambda T$ = $\lambda t$이다. 그래서 이 결과는 식 (1)에 정확히 부합한다. 이때 동전 던지는 주기 $T$를 아주 작게 하면, $n$은 계속 커지고 $p$는 작아지기 때문에, 동전 앞면이 나오는 사건은 희귀 사건(rare event)이 된다. 그래서 $T$를 0으로 보내는 이항 분포는 푸아송 극한 정리(Poisson limit theorem)를 만족하기 위해 푸아송 분포인 ${\rm Poi}(\lambda t)$로 변화되어야 한다.
[그림 2]에서 동전 앞면이 한 번 나오기까지 걸리는 시간 $T_1$을 추적한다. 첫번째 도착 시간(the first arrival time)에 해당하는 $T_1$의 확률 변수를 $X_1$이라 놓는다. 이 경우 $X_1 > t$인 확률은 $t$까지 사건이 발생하지 않는 확률과 같다. 이는 푸아송 분포에서 $k$ = $0$에 해당한다.

                          (7a)

식 (7a)를 써서 $t$까지 $X_1$이 생길 CDF를 계산한다.

                          (7b)

여기서 $F_{X_1}(t \le 0)$ = $0$이다. 이 CDF는 지수 분포의 CDF와 동일하기 때문에, $X_1$은 지수 분포를 좇아간다. 앞면이 한 번 나온 후 두번째 앞면이 나올 때까지 걸리는 시간, 즉 두번째 도착 시간(the second arrival time)은 $T_2 - T_1$이다. 이 확률 분포를 $X_2$라고 한 경우, 동전 던지기는 기본적으로 베르누이 과정이므로 $X_2$는 $X_1$과 독립이다. 결국 $X_2, X_3, \cdots$ 등이 모두 독립적으로 지수 분포를 따라간다.
제$n$번째까지 모든 도착 시간을 합한 $X$ = $X_1 + X_2 + \cdots + X_n$의 확률 분포를 파악하려고 적률 생성 함수(moment-generating function, MGF) $M_X(s)$를 도입한다. 첫단계로 지수 분포의 MGF를 계산한다.

                          (8a)

MGF의 성질을 써서 $X$ = $X_1 + X_2 + \cdots + X_n$의 MGF를 식 (8a)의 곱으로 구한다.

                          (8b)

식 (8b)를 만드는 확률 분포를 찾기 위해 감마 분포의 MGF를 유도한다.

                          (8c)

따라서 지수 분포의 합인 $X$는 $\Gamma(n, \lambda)$인 감마 분포가 된다.

[참고문헌]