조금은 느리게 살자: 연속 확률 분포(Continuous Probability Distribution)

[경고] 아래 글을 읽지 않고 "연속 확률 분포"를 보면 바보로 느껴질 수 있습니다.

[그림 1] 확률 밀도 함수와 누적 분포 함수(출처: wikipedia.org)

이산적인 경우의 수(number of cases or number of chances)로 표현하는 확률(probability)의 정의는 직관적이어서 좋지만 현실에서는 다루기가 너무 어렵다. 왜냐하면 사건(event)이 잘 구별되는 이산 확률(discrete probability)은 급수(series)로 표현되어서 매우 많은 사건의 합산이 닫힌 형식(closed form)으로 표현되기가 어렵기 때문이다. 이런 난해한 이산 확률을 [그림 1]처럼 말끔히 연결된 연속 확률(continuous probability)로 만들기 위해 이산 확률의 사건 개수인 $2M+1$을 무한대로 보낸다.

(1)

여기서 $A_m$은 $m$번째 사건이다. 하지만 전체 합이 1로 고정된 상황에서 사건 개수를 늘리면, 각 사건이 일어나는 확률 $P(A_m)$은 계속 줄어들어 0으로 간다. 그래서 물리학에 나오는 질량(mass)과 밀도(density) 개념에 바탕을 두고, 서로 떨어진 점 질량(point mass)의 나열로 보이는 식 (1)을 연결되어 떨어질 수 없는 밀도로 바꾼다. 이를 위해 집합(set)으로 정의하는 개별 사건 $A_m$ 대신, 범함수(functional)처럼 사건 분포를 실수 $x$의 범위인 $[x_m, x_{m+1}]$ = $x_m \le x \le x_{m+1}$으로 바꾸어서 $P(A_m)$을 다시 표현한다.

(2)

여기서 $\operatorname{Pr}[\cdot]$는 조건 $[\cdot]$를 만족하는 확률(probability), $X$는 $x$에 확률 개념을 넣은 확률 변수(random variable)이다. 식 (2)를 식 (1)에 대입해서 무한 급수(infinite series)를 적분으로 바꾼다.

(3)

여기서 $F_X(x)$ = $\operatorname{Pr}[X \le x]$, $X$는 연속 확률 변수(continuous random variable)이다. 식 (3)에서 $f_X(x)$는 $X$ = $x$에서 정의한 확률 밀도 함수(probability density function, PDF)이다. 반면에 $F_X(x)$는 확률 밀도가 아닌 누적된 확률인 누적 분포 함수(cumulative distribution function, CDF)이다.

(4a)

확률 밀도 함수 $f_X(x)$에 대비되도록 이산 확률 $P(A_m)$ = $\operatorname{Pr}[X = x]$을 확률 질량 함수(probability mass function, PMF)로 부르기도 한다. 누적 분포 함수의 역함수는 분위수 함수(分位數函數, quantile function) $Q(p)$라 이름 붙인다. 분위수(分位數, quantile)는 [그림 5]처럼 전체 확률 분포를 동일한 확률로 나누는 절단점(cut point)이다. 분위수 함수 대신 백분위수 함수(percentile function), 누적 분포 역함수(inverse cumulative distribution function)란 명칭도 쓰인다.

(4b)

이산 확률의 개념을 확장해서 연속 확률의 평균(mean or average) $E[X]$, 분산(variance) $\operatorname{Var}[X]$, 적률 혹은 모멘트(moment) $E[X^n]$을 다양하게 정의한다.

(5)

여기서 $\sigma_X$는 표준 편차(standard deviation)이다. 특히 PDF가 유한 범위에서만 정의되면 그 평균은 CDF의 적분으로 간략화된다.

(6)

여기서 부분 적분(integration by parts)을 사용한다.

[그림 2] 균등 분포의 확률 밀도 함수(출처: wikipedia.org)

연속 확률 분포 중에서 가장 간단한 분포는 확률 변수 $X$의 발생 빈도가 동일한 균등 분포 혹은 고른 분포(uniform distribution)이다. [그림 2]와 같이 구간 $[a, b]$에 만들어진 균등 분포의 PDF는 $f_X(x)$ = $1 \mathbin{/}(b-a)$이다. 이를 식 (5)에 대입해서 평균과 분산을 계산한다.

(7a)

(7b)

여기서 $X$는 $[a, b]$에 정의된 확률 변수라서 보통 $X$ $\sim$ $U[a, b]$로 적는다. 균등 분포는 보기에는 쉽지만 컴퓨터로 구현하기가 매우 까다롭다. 왜냐하면 컴퓨터는 근본적으로 계산 과정이 앞의 유한한 결과에 영향을 받는 유한 상태 기계(finite-state machine, FSM)이고, 상태가 유한해서 출력되는 숫자가 결국 반복되기 때문이다. 그래서 컴퓨터는 완벽하게 중구난방인 난수(random number)는 아니지만 특정 확률 분포와 비슷하게 나오는 유사 난수(pseudorandom number)를 발생시킨다. 결정론적으로(deterministic) 유사 난수를 만드는 컴퓨터의 기능은 유사 난수 발생기(pseudorandom number generator, PRNG)로 부른다. 균등 분포와 비슷한 난수를 만드는 균등 난수 발생기(uniform random number generator, URNG)를 사용하면, 여러 가지 확률 분포를 가진 유사 난수를 쉽게 만들 수 있다. 하지만 성능 좋은 URNG는 구현하기가 정말 난해하다.

기존 확률 분포로부터 새로운 확률 분포를 만들 때는 PDF를 직접 구하기보다 CDF를 먼저 공식화하고 식 (4)의 둘째식에 따라 미분해서 나중에 PDF를 만든다[1]. 예를 들어, $U$ $\sim$ $U[0, 1]$인 확률 변수로 발생시킨 $X$ = $e^U$의 PDF는 무엇일까? 여기서 $X$의 영역은 당연히 $[1, e]$이다. 이 문제를 바로 해결하기 곤란하므로 식 (4)의 첫째식으로 $X$의 CDF $F_X(x)$를 유도한다.

(8a)

그 다음에 식 (8a)를 $x$에 대해 미분해서 $f_X(x)$를 결정한다.

(8b)

여기서 $1 \le x \le e$이다. 따라서 균등 분포를 지수로 보낸 확률 변수의 PDF는 $1/x$를 따른다.

비슷한 방식으로 독립적인 균등 분포인 $X, Y$를 단순히 더한 확률 변수 $Z$ = $X+Y$도 생각해본다[1]. 여기서 $X$ $\sim$ $U[0, 1]$, $Y$ $\sim$ $U[0, 1]$이다. 해답은 $Z$ = $2X$라고 착각할 수 있지만 전혀 아니다. 두 확률 변수가 동일하게 나온다는 보장이 없어서 $2X$가 될 수 없다. 그러면 어떻게 해결할까? 독립적으로 변하는 $X, Y$가 있기 때문에 식 (4)를 그대로 쓸 수 없고 결합 확률 분포(joint probability distribution)를 도입해야 한다. 결합 확률 분포는 여러 확률 변수의 모든 조합이 생성하는 확률 분포를 뜻한다. 결합 확률 분포도 식 (4)와 비슷한 결합 확률 밀도 함수(joint probability density function)와 결합 누적 분포 함수(joint cumulative distribution function)를 만들 수 있다. 2개의 확률 변수에 대한 결합 PDF와 CDF는 다음처럼 정의된다.

(9)

식 (9)에 바탕을 두고 더 많은 확률 변수를 위한 결합 PDF와 CDF를 공식화할 수 있다. 식 (9)는 2차원 적분이라서 분석하기 어려운 때는 주변 확률 밀도 함수(marginal probability density function)를 선명하게 생성한다.

(10)

결합 확률 분포에서도 이산 확률처럼 상호 독립(mutually independent)을 단순한 곱셈으로 정의한다.

(11)

여기서 $X, Y$는 상호 독립인 확률 변수이다.

(a) $0 \le z \le 1$ 경우

(b) $1 \le z \le 2$ 경우

[그림 3] 선형 결합인 $Z$ = $X+Y$의 계산법

독립 확률 변수 $X, Y$가 완전히 독립적으로 생성되어서 일종의 순서쌍 $(X, Y)$가 된다면, 결합 PDF는 $f_{XY}(x, y)$ = $f_X(x) f_Y(y)$ = $1$로 간단하게 계산된다. 하지만 원래 문제에서 구하려는 확률 변수 $Z$는 서로 독립인 $X, Y$를 더해서 선형 결합(linear combination)인 $Z$ = $X+Y$를 만든다. 그래서 $X, Y$ 중 하나만 독립적으로 변하고, 나머지 하나는 $Z$에 종속된다. 이상을 종합해서 [그림 3]처럼 균등 분포인 $X$는 마음대로 변할 수 있고, $Y$는 $Z-X$에 종속되어 구해진다고 가정한다. 그러면 확률 변수 $Z$의 출력인 $z$의 크기에 따라 $Y$가 가질 수 있는 범위가 [그림 3]처럼 한정된다. 이때 $X, Y$가 중첩된 영역이 $Z$가 존재할 수 있는 확률 밀도이다.[선형 결합이란 조건이 없다면, 결합 PDF는 모든 정의역의 중첩으로 처리된다. 선형 결합일 때는 합산 조건을 만족하는 정의역에만 한정되어 중첩된다.]

(12)

여기서 $0 \le z \le 2$; $X$는 고정된 확률 변수이고 $Y$는 $X$에 종속된다. [그림 3]과 같은 계산법은 구형 함수(rectangular function)의 길쌈(convolution) 연산과 매우 유사하다. 선형 결합된 $Z$ = $X+Y$의 평균과 분산은 식 (5)에 식 (12)를 대입해서 구한다.

(13a)

지금 가정처럼 독립 확률 변수(independent random variable)인 경우는 식 (13a)와 같은 번거로운 과정 없이 기대값(expectation)의 분해와 공분산(covariance)이 0인 조건을 써서 쉽게 계산한다.

(13b)

여기서 $X, Y$는 독립이라 $\operatorname{Cov}(X, Y)$ = $0$이 성립한다.

쌍방 독립인 확률 변수를 더한 새로운 확률 변수를 찾을 때, [그림 3]과 같은 방법을 쓸 수 있지만 상당히 번거롭다. 왜냐하면 독립 사건의 확률 변수라면 식 (11)처럼 PDF는 곱셈이지만 우리가 선택한 확률 변수의 연산은 합이라서 곱셈이 아니기 때문이다. 이 어색함을 어떻게 쉽게 해결할 수 있을까? 멀리서 찾을 필요가 없다. 지수 함수나 로그 함수에서는 곱셈이 덧셈으로 바뀌므로, 확률 변수 $X$의 함수로써 지수 함수인 $e^{sX}$의 기대값인 $M_X(s)$를 새롭게 정의한다.

(14a)

여기서 $\mathfrak{B}[\cdot]$는 양방향 라플라스 변환(bilateral Laplace transform or two-sided Laplace transform)이다. 함수 $e^{sX}$를 테일러 급수(Taylor series)로 전개해서 식 (14a)를 다시 표현한다.

(14b)

식 (14b)에 나온 $s^n$의 계수는 적률 혹은 모멘트(moment)를 포함하고 있으므로, $M_X(s)$를 적률 생성 함수(moment-generating function, MGF)로 부른다. 적률 생성 함수 $M_X(s)$를 아는 경우, PDF인 $f_X(x)$는 양방향 라플라스 역변환(inverse bilateral Laplace transform)으로 쉽게 결정된다.

(15)

그러면 상호 독립인 $X_i$의 합에 대한 MGF는 개별 MGF의 곱이 된다.

(16)

식 (16)을 활용해서 [그림 3]에 보인 균등 분포의 합 $Z$ = $X+Y$의 PDF를 구한다. 먼저 균등 분포 $X$ $\sim$ $U[a, b]$의 MGF를 라플라스 변환(Laplace transform) $\mathfrak{L}[\cdot]$으로 계산한다.

(17a)

여기서 $u(x)$는 단위 계단 함수(unit step function)이다. 식 (17)에서 $a$ = $0$, $b$ = $1$로 두고 식 (17)을 식 (16)과 (15)에 차례로 대입한다.

(17b)

여기서 $(f*g)(x)$는 길쌈(convolution)이다. 결국 $X+Y$의 확률 분포는 [그림 3]처럼 두 확률 분포의 길쌈으로 나온다. 이 관계는 독립인 임의 확률 분포의 합으로 확장될 수 있다.

(18)

여기서 우변은 $n$개의 PDF에 대한 길쌈이다.

양방향 라플라스 변환은 조금 어색해서 푸리에 변환(Fourier transform)으로 정의하는 새로운 MGF는 특성 함수(characteristic function) $\phi_X(\omega)$라고 이름 붙인다.

(19)

여기서 $\mathfrak{F}[\cdot]$는 푸리에 변환이다. 만약 $X$가 실수인 확률 변수라면, $|\phi_X(\omega)|$는 항상 1보다 작거나 같다. 왜냐하면 $|\phi_X(\omega)|$ $\le$ $E[|e^{i \omega X}|]$ = $E[1]$ = $1$을 만족하기 때문이다.

[그림 4] 확률–확률 구성(probability–probability plot) 혹은 P–P 구성의 예시(출처: wikipedia.org)

두 연속 확률 분포 $f_X(x), f_Y(y)$를 비교하는 좋은 방법은 CDF이다. 왜냐하면 CDF는 치역이 $[0, 1]$이라서 영역을 명확히 제한해서 견줄 수 있기 때문이다. CDF를 이용해 확률 변수 $x$를 매개변수로 하는 점 $(F_X(x), F_Y(x))$를 찍으면 [그림 4]와 같은 확률–확률 구성(probability–probability plot) 혹은 P–P 구성이 만들어진다. [그림 4]처럼 경험적(empirical) CDF가 이론적(theoretical) CDF인 $F_X(x)$를 따라가서 P–P 구성이 1차 함수 $y$ = $x$를 이루는 경우, 이 자료 집합(dataset)은 특정한 이론적 확률 분포 $f_X(x)$와 밀접히 연관되어 있다고 유추한다. 경험적 CDF $p_h$는 표본 $x_i$를 크기순으로 나열한 후 선형적으로 근사한다.

(20)

여기서 $0 \le p_h \le 1$, 표본 개수는 $N$, $h$는 표본 지표(sample index)이다.

[그림 5] 정규 분포의 분위수 예시(출처: wikipedia.org)

확률–확률 구성와 조금 다르게 분위수를 기준으로 확률 분포를 평가하기도 한다. 분위수(分位數, quantile)는 확률 변수를 나눈 구간의 확률이 동일하도록 만드는 절단점(cut point)을 뜻한다. 예를 들어, [그림 5]와 같은 정규 분포(normal distribution)의 확률이 25%로 분배되도록 분위수 $Q_1, Q_2, Q_3$를 정할 수 있다. 4등분한 분위수는 4분위수(4-quantile or quartile)라 이름 붙인다. 그러면 세부 구간 $(-\infty, Q_1$, $(Q_1, Q_2)$, $(Q_2, Q_3)$, $(Q_3, \infty)$의 확률은 모두 25%가 된다. 각 분위수는 오름차순으로 1번 4분위수[= $Q_1$], 2번 4분위수[= $Q_2$], 3번 4분위[= $Q_3$]로 부르며, 일반화해서 $Q_h$는 $h$번 $q$분위수가 된다. 관점을 바꾸어 분위수 함수 $Q(p)$로 표기하면, $Q_1$ = $Q(1/4)$, $Q_2$ = $Q(2/4)$, $Q_3$ = $Q(3/4)$로 기술한다. 아예 확률 $p$를 적극적으로 도입해서 $h$번 $q$분위수 대신 $p$-분위수라 쓰기도 한다. 예를 들면, $Q_3$는 3번 4분위수이면서 $3/4$-분위수가 된다. 이를 더 일반화해서 분위수 $Q_1, Q_2, Q_3$ 대신 분위수 지표(quantile index)인 $h$ = $1,2,3$ 혹은 중심 지표를 0으로 두는 $h$ = $-1, 0, 1$로 분위수를 표현할 수도 있다.

[그림 6] 분위수–분위수 구성(quantile–quantile plot) 혹은 Q–Q 구성의 예시(출처: wikipedia.org)

이런 분위수를 써서 특정 확률 분포와 정규 분포를 견준 예시는 [그림 6]에 있다. [그림 6]처럼 분위수를 기준으로 두 확률 분포를 배치하는 방식은 분위수–분위수 구성(quantile–quantile plot) 혹은 Q–Q 구성이라 부른다. 우리가 비교하는 두 확률 변수가 동일한 확률 분포를 가지면 Q–Q 구성은 [그림 6]의 모습처럼 $y$ = $x$ 함수를 따라간다. [그림 6]에 사용한 경험적 분위수 지표(empirical quantile index) $h$는 식 (20)을 살짝 변형해서 사용한다.

(21a)

중앙값(median)에서는 $p_h$ = $1/2$이므로, $h$ = $(N+1)/2$가 얻어진다. 중앙값의 분위수 지표를 0으로 바꾸려면 식 (21)에서 $(N+1)/2$를 빼준다.

(21b)

[그림 6]의 가로축은 표준 정규 분포(standard normal distribution)의 분위수 $x_i$를 나타낸다. 넓은 범위를 표시하기 위해 구간을 $[-3, 3]$으로 잡는다. [그림 6]의 세로축은 식 (21)로 구한 분위수 지표 $h$에 해당하는 분위수 $y_i$ = $y_h$를 선택한다. 이때 $x_i$와 맞추기 위해 $y_i$의 범위는 $[-3, 3]$으로 정규화한다. 분위수 지표 $h$를 알면 확률 $p_h$를 알기 때문에, 표준 정규 분포의 역함수 $\Phi^{-1}(\cdot)$를 써서 $x_i$ = $\Phi^{-1}(y_h)$를 얻는다. 여기서 빠른 계산이 필요할 때는 $\Phi^{-1}(\cdot)$ 대신 프로빗 함수(probit function)를 활용한다. 그러면 모든 표본에 대해 [그림 6]에 나오는 점 $(x_i, y_i)$를 결정할 수 있다.

[참고문헌]

[1] J. L. Devore, K. N. Berk, and M. A. Carlton, Modern Mathematical Statistics With Applications, 3rd ed., Cham, Switzerland: Springer, 2021.

[다음 읽을거리]

1. 정규 분포

2. 푸아송 과정과 감마 분포

3. 베타 분포