조금은 느리게 살자: 확률(確率, Probability)

[확률(probability)]

어떤 사건이 일어나는 빈도인 확률(確率, Probability)은 수학 분야 중에서도 매우 독특하다. 무작위로 얻어지는 결과를 예측할 수 있는 환상의 수학이 확률이다. 모든 것이 무작위로 얻어진다면 이를 수학으로 표현할 수는 없다. 무작위로 결과가 얻어지지만 관찰을 계속하면 나오는 결과들 전체가 특정한 규칙을 가진다는 믿음이 확률 이론의 기저에 있다. 이런 상상을 바탕으로 사건(事件, event) $A$가 발생할 확률 $P(A)$를 정의하면 아래와 같다.

(1)

여기서 $N$은 일어날 수 있는 모든 경우의 수 혹은 전사건(全事件, total event) $\Omega$의 개수, $n$은 사건 $A$가 발생하는 경우의 수이며, 모든 사건은 공평하게 생긴다고 가정한다. 더 정확하게 식 (1)을 빈도학파 확률(frequentist probability)이라 부르기도 한다. 확률에 쓰이는 사건은 확률 실험(probability experiment)에서 나오는 결과물의 집합(set)이다. 확률과 비슷하게 쓰이는 우연(偶然, chance)은 확률과 분명히 구분되어야 한다. 확률과 동일하게 우연은 우리가 인식할 수 있는 인과 관계에 독립적으로 무작위(random)하게 발생한다. 이때 우연은 현실적인 사건 자체나 그 빈도를 지칭하는 용어이지만, 확률은 이 사건의 우연한 출현을 수학적으로 정량화한 값이다[4]. 예를 들어, 동전 던지기(coin tossing)는 우연이지만, 앞면이나 뒷면이 나오는 회수는 동일하지 않다. 최근 연구 결과에 따르면 동전을 35만번 던질 때, 먼저 선택한 앞면이 50.8%로 나오고, 뒷면 빈도는 49.2%로 관찰되었다[3]. 하지만 우리가 사전 지식을 가지고 있지 않고 동전을 던지지도 않았다면, 앞면이 나오는 수학적 빈도인 확률은 당연히 50%이다. 왜냐하면 앞면과 뒷면의 확률이 다르다고 판단할 근거가 없기 때문이다.

식 (1)은 확률의 거의 모든 측면을 설명할 수 있다. 이 정의는 1814년라플라스 65세, 조선 순조 시절에 라플라스Pierre-Simon Laplace(1749–1827)가 최초로 사용하였다. 사실 확률 이론의 시작은 훨씬 오래전이다. 1654년파스칼 31세, 조선 효종 시절에 도박사인 메레의 기사Antoine Gombaud, Chevalier de Méré(1607–1684)[본명은 곰보]는 파스칼Blaise Pascal(1623–1662)에게 도박이 갑자기 중단된 경우의 합리적인 판돈 나누기 문제를 질문했다[1]. 이 질문에 대한 답을 하기 위해 파스칼이 고안하고 페르마Pierre de Fermat(1607–1665)가 기여했던 기대값(expectation or expected value) 개념이 확률론의 시작이다. 기대값은 사건이 일어나는 확률을 써서 일반화한 가중 평균(generalized weighted average)이다. 도박에서 시작한 확률 이론이 현대 물리학의 꽃인 양자 역학(量子力學, quantum mechanics)에도 쓰이고 있으니 수학은 당대에만 평가해서는 그 끝을 알 수가 없다. 또한 기대값 혹은 평균(mean or average)은 그냥 우리 손에 들어오지 않았다. 상당히 많은 논의와 최소 제곱법(least squares)의 성공으로 인해 평균이 통계를 보는 기본 개념임이 확실해졌다.

(a) 합집합과 교집합

(b) 부분 집합

[그림 1] 집합론으로 이해하는 확률(출처: wikipedia.org)

확률은 기본적으로 특정 사건이 일어날 수 있는 비율이다. 식 (1)에 따르면 확률은 무조건 유리수(rational number)이다. 이때 $N$이 무한대로 가면 확률은 무리수(irrational number)까지 가능하다. 유리수인 확률이 무리수로 되는 마법을 이해하는 도구로 단조 증감 수렴 정리(monotone convergence theorem)가 있다. 확률에 쓰이는 이 비율을 계산하기 위해서는 경우의 수(境遇數, number of cases or number of chances)가 매우 중요하다. 경우의 수는 특정 사건을 헤아림이다. 수학 분야 중에서 논리적으로 명확하게 헤아리는 방법을 연구하는 분야는 집합론(集合論, set theory)이다. 사건 $A$는 전체 집합[혹은 전체 사건] $S$의 부분 집합(部分集合, subset)이라 정의하고 사건 $A$가 발생하는 경우의 수는 부분 집합 $A$의 원소 개수라 생각하면 된다. 이런 사정을 고려해서 아래와 같이 집합론 기반으로 확률을 정의하면 식 (1)보다는 좀더 매끄럽게 정의할 수 있다.

모든 $m$에 대해 $0 \le P(A_m) \le 1$: 확률은 발생 비율이므로 개별 사건 $A_m$의 확률은 반드시 0과 1 사이여야 한다. 이 개념을 함수적으로 바라보면 확률 $P(A_m)$은 부분 집합 $A_ m$에서 실수 구간 [0, 1]의 한 값으로 가는 함수 관계로 생각할 수 있다.
$\sum_{m=1}^M P(A_m) = 1$: 만약 개별 사건 $A_m$의 교집합이 없다면 발생 가능한 모든 개별 사건의 확률 합은 반드시 1이 되어야 한다. 여기서 $A_m$의 발생 회수를 모두 더한 값은 식 (1)처럼 $N$이다.

위의 집합론적 정의를 바탕으로 확률의 특징을 구하면 아래와 같다.

(2)

(3)

(4)

(5)

여기서 $A^C$는 $A$의 여집합(餘集合, complementary set)이며 $n_A$는 사건 $A$의 발생 회수[혹은 부분 집합 $A$의 원소 개수]를 의미, 교집합의 확률을 $P(A \cap B)$ 대신 $P(A, B)$로 표기할 수도 있다. 식 (3)은 확률 이론에서 매우 유명한 조건부 확률(conditional probability)을 의미한다. 예를 들어, $P(A|B)$는 사건 $B$가 먼저 일어난 경우 그 다음에 사건 $A$가 일어날 확률이다. 영국 장로교 목사인 베이즈Thomas Bayes(1701–1761)는 조건부 확률을 베이즈 정리(Bayes' theorem)에서 최초로 제안하였다. 조건부 확률은 사건이 발생하는 범위를 전사건 $\Omega$에서 개별 사건 $A$ 혹은 $B$로 바꾼다. 예컨대 $P(A|B)$는 사건 범위를 $B$로 한정해서 사건 $A$가 일어나는 확률이다. 이때 [그림 1(b)]처럼 $A \subset B$라면 $P(A|B)$ = $n_{A \cap B} \mathbin{/} n_B$ = $n_A / n_B$가 되므로, $P(A|B) \ge P(A)$ = $n_A / N$가 항상 성립한다. 즉, 전사건이 아닌 사건 $B$로 고려 영역을 줄여서 사건 $A$를 더 잘 분석할 수 있다. 이 관점은 베이즈 정리에 그대로 계승된다. [그림 1(b)]의 조건에서 사건 순서를 바꾸어 $P(B|A)$라고 하면, $A$가 일어나는 경우 $B$도 따라서 일어나서 $P(B|A)$ = $n_A / n_A$ = $1$이 나온다.

두 사건 $A$, $B$가 식 (6)과 같은 관계를 가지면 상호 독립(mutually independent)이라고 정의한다.

(6)

두 사건이 상호 독립 혹은 독립 사건(獨立事件, independent event)이라면, 상대방 사건에 서로 영향을 주거나 받지 않고 사건 자체가 독자적으로 발생한다. 그래서 상호 독립의 정의인 식 (6)에 의해 $P(A|B)$ = $P(A)$, $P(B|A)$ = $P(B)$가 성립한다. 즉, 사건 $B$의 발생 유무에 관계없이 $P(A|B)$는 $P(A)$이므로, 사건 $A, B$는 서로 독립이 된다. 마찬가지로 사건 $A$와 관계없는 $B$의 조건부 확률 $P(B|A)$는 $P(B)$로 간략화된다. 발생 회수 관점으로 식 (6)을 쓴 경우에는 상호 독립이 다음처럼 표현된다.

(7)

여기서 $P(A)$ = $n_A / N$, $P(B)$ = $n_B/N$이다.

집합 이론으로 확률 이론을 전개하면 여러 가지로 유리한 점이 많다. 특히 유한 집합이 아닌 무한 집합까지도 집합론이 통용되기 때문에 확률의 전사건이 무한 집합이더라도 현재까지 유도한 내용을 모두 사용할 수 있다. 독립 사건과 비슷하지만 다른 개념을 가진 배반 사건도 있다. 배반 사건(背反事件, exclusive event)은 사건 $A, B$가 상보적이어서 $A$가 일어나면 $B$는 발생하지 않고 $B$가 있을 때 $A$는 없다. 배반 사건을 집합 개념으로 쓰면 다음과 같다.

(8)

독립 사건과 배반 사건을 나타내는 식 (6)과 (8) 및 [그림 1]을 참고해서 우리의 확률 이해를 명확히 할 수 있다. 독립 사건은 사건 $A, B$가 서로 관계되지 않는다는 뜻이고, 배반 사건은 $A, B$가 서로 공통점이 없다는 의미이다. 그래서 $P(A) \ne 0$, $P(B) \ne 0$의 조건에서 독립 사건은 $P(A \cap B) \ne 0$이지만, 배반 사건은 반드시 $P(A \cap B)$ = $0$이 된다.

(a) 독립 사건

(b) 종속 사건

[그림 2] 동전 던지기 사건 $X$와 주사위 던지기 사건 $Y$

쉽게 말해 [그림 1(a)]에서 교집합이 없는 사건이 바로 배반 사건이다. 반면에 계층 개념이 들어가는 독립 사건은 [그림 1]로 상상해서는 제대로 된 답이 나오지 않아서, 사건의 층위가 분명히 나오도록 좌표를 쓰는 [그림 2]가 유리하다. [그림 2]는 동전 및 주사위 던지기 사건을 각각 $X, Y$로 놓고 독립 사건의 의미를 좌표 기준에서 설명한다. 독립 사건인 [그림 2(a)]는 조건부 확률 $P(Y|X)$와 $P(Y)$는 서로 같다. 왜냐하면 어떤 $X$에서도 $Y$가 나오는 경우의 수 혹은 확률이 동일하기 때문이다. 이를테면 [그림 2(a)]의 빨간색 사각형처럼 앞면인 $X$ = $H$라면 주사위의 특정 숫자가 나오는 확률은 $1/6$이다. 뒷면인 $X$ = $T$도 마찬가지이다. 앞면과 뒷면을 모두 고려한 $X$에 대해 주사위 숫자는 확률 $2/(6 \times 2)$로 나온다. 즉, 경우의 수 관점에서 $P(Y|X)$ = $n_Y \cdot (n_X/N) \mathbin{/} n_X$ = $n_Y / N$이 당연히 얻어진다. 여기서 $N$ = $12$, $n_X$ = $6$, $n_Y$ = $2$이다. 그래서 어떤 $X$를 택해도 나오는 경우의 수가 만드는 비율이 일정해야 독립 사건이다. [그림 2(a)]에 대비되게 종속 사건(dependent event)인 [그림 2(a)]는 $X$에 따라 $Y$가 나오는 비율이 달라서 종속성이 그대로 눈에 보인다.

확률의 특성을 내포하고 있는 변수는 확률 변수(確率變數, random variable, r.v., rv, RV)라 한다. 수학적으로 정의하면 확률 변수는 확률 공간(probability space)에서 가측 공간(可測空間, measurable space)으로 가는 함수의 일종이다. 좀더 쉽게 설명하면 무작위로 나오는 사건들 각각을 측정 가능한 숫자로 배정하면 확률 변수가 된다. 확률의 정의와 비슷하지만 확률 변수는 말 그대로 변수이다. 다만, 일반변수와는 다르게 확률 변수는 함수값이 고정되지 않고 사건이 발생할 때마다 무작위로 바뀐다. 예를 들어, 동전을 던질 때 앞면 혹은 뒷면이 나오는 경우는 확률 변수 $X$로 표현할 수 있다.

(8)

앞면과 뒷면이 나오는 확률이 같은 경우, 식 (9a)에 표현한 기대값 정의를 써서 계산한 확률 변수 $X$의 기대값은 아래와 같다.

(9a)

(9b)

여기서 $f_X(x_i)$는 $P(X = x_i)$인 확률, $x_i$는 $X$가 생성하는 확률 변수값(value of random variable)이다. 식 (8)과 같은 확률 변수는 값이 띄엄띄엄 나오기 때문에 이산 확률 변수(discrete random variable)가 된다. 이런 이산 확률 변수가 생성하는 확률 분포는 이산 확률 분포(discrete probability distribution)로 부른다.

확률의 기대값은 아래의 성질을 가지고 있다.

(10)

두 확률 변수 $X$, $Y$ 곱의 기대값은 아래로 정의한다.

(11)

여기서 $f_{XY}(x_i, y_j)$는 $x_i$와 $y_j$가 동시에 발생할 확률인 결합 확률(joint probability)이다. 만약 두 확률 변수 $X$, $Y$가 상호 독립이면 식 (6)에 의해 두 확률 변수 $X$, $Y$ 곱의 기대값은 따로 계산될 수 있다.

(12)

결합 확률 $f_{XY}(x, y)$은 식 (5)에 따라 조건부 확률 $f_{X|Y}(x)$ 혹은 $f_{Y|X}(y)$로 다시 나눌 수 있다.

(13)

이 부분에서 생각할 점이 하나 있다. 확률 변수의 합은 간단히 기대값을 이용하면 되는데, 확률 변수의 곱은 왜 결합 확률까지 고려해야 하나? 예를 들어, $Z$ = $X + Y$, $W$ = $X \cdot Y$라고 정의한다. 확률은 빈도이므로 $Z$를 결정할 때 $X$의 빈도와 $Y$의 빈도는 서로 직접적인 영향을 주지 않는다. $X$가 큰 수가 나오면 $Y$값에 직접적인 관계없이 $Z$는 큰 값이 된다. 덧셈이기 때문이다. 곱셈인 $W$는 다르다. $X$의 빈도가 크게 나오더라도 $Y$의 빈도가 작으면 전체값 $W$는 크지 않을 수 있다. 극단적으로 $Y$ = $0$이라면 $X$가 아무리 크더라도 $W$는 0이 된다. 그래서, $X$와 $Y$가 동시에 발생할 확률인 결합 확률을 반드시 고려해야 한다. 그래도 이해가 되지 않는다면 수학적으로 생각해야 한다. 일반적인 결합 확률 $f_{XY}(x_i, y_j)$를 이용해서 식 (10)을 아래와 같이 증명한다.

(14)

여기서 $f_X(x_i)$와 $f_Y(y_j)$는 주변 확률(marginal probability)이다. 주변 확률은 확률 변수중 한 변수[$x_i$ 혹은 $y_j$]만 고려해서 계산한 확률이다. 식 (14)와 (11)을 바탕으로 확률 변수의 합과 곱을 다시 생각한다. 예를 들어, 확률 변수 $X$, $Y$가 아래 빈도로 얻어진다고 가정한다.

이 숫자들의 덧셈은 서로 영향을 주지 않지만[∵ 덧셈이니까! 덧셈은 교환 법칙이 성립하므로 $x$끼리 혹은 $y$끼리 모아서 빈도를 계산할 수 있다.] 곱셈은 상호 영향을 준다.[∵ 곱셈이니까! 곱셈은 곱해주는 수에 비례해서 더해주기 때문에 $x$, $y$가 상호 영향을 당연히 준다.]

[그림 3] 주사위 던지기의 평균값(출처: wikipedia.org)

확률 이론은 실생활에 도움이 될까? 조금만 생각해봐도 분명히 도움된다. 그러면 확률이 왜 유용할까? 바로 큰 수의 법칙(law of large number)때문이다. 큰 수의 법칙은 확률을 실생활과 연결하는 핵심적인 개념이다. 어떤 일[예를 들면 주사위 던지기]을 계속 할 경우 특정 사건이 출현하는 비율이 점근적으로 확률값에 수렴한다는 뜻이다. 예를 들어, [그림 3]을 관찰한다. 주사위 던지기를 하면 1에서 6까지 임의의 수가 나온다. 하지만 계속 던져가면 그 기대값은 3.5에 수렴한다는 관찰을 제시한다.

(15)

이 법칙을 증명하려면 통계(statistics)에서 사용하는 평균(mean or average)과 분산(variance) 개념을 사용해야 한다.

확률 변수 $X$의 거듭제곱 $X^n$에 대한 기대값은 적률 혹은 모멘트(積率, moment)라 부른다.

(16)

수학에서 적률은 함수의 모양을 분석하기 위해 다른 함수를 곱해서 계산하는 측도(測度, measure)이다. 측도는 구분 가능한 대상에 숫자로 된 크기를 연결하는 함수이다. 1차 적률 $E[X]$는 평균(mean or average)이고 2차 적률 $E[X^2]$은 분산(variance)을 계산할 때 쓴다.

1. 기본(basics)

[기본 성질]

(1.1)

(1.2)

[그림 1.1] 상호 배반이며 공동 포괄인 집합 $A_i$로 분할한 집합 $B$(출처: wikipedia.org)

[전체 확률의 법칙(law of total probability)]

(1.3)

여기서 $A_i$는 상호 배반적(mutually exclusive)이며 공동 포괄적(collectively exhaustive)이어서 $P(A_i \cap A_j)$ = $0$ 및 $\Omega$ = $\cup_i A_i$, $\Omega$는 전사건(total event) 혹은 표본 공간(sample space), $\sum_i P(A_i)$ = $1$이다.

[증명]

[그림 1.1]의 구성처럼 사건 $B$를 상호 배반이며 공동 포괄인 집합 $A_i$로 분할해서 확률로 바꾼다.

(1.4a)

(1.4b)

______________________________

전체 확률의 법칙은 특정 사건 $A$를 $B_i$로 잘라서 계산하기 때문에 분할 정리(partition theorem)라고도 부른다.

2. 조건부 확률(conditional probability)

[기본 성질]

(2.1)

(2.2)

[증명]

식 (2.1)에 의해 $P(A)$ = $P(B)$라면 식 (2.2)의 오른쪽 식이 얻어진다.

______________________________

사건 $A, B$가 부분 집합 관계이면 조건부 확률이 매우 간단해진다.

(2.3)

여기서 $A \subset B$이다.

[증명]

조건부 확률의 정의를 변형해서 $P(A \cap B)$ = $P(A) P(B|A)$ = $P(A)$로 증명한다.

______________________________

[독립 사건(independent event)]

(2.4)

여기서 $A, B$는 서로 독립이다.

[증명]

식 (1.1)과 (1.2)에 따라 $P(A \cup B)$ = $P(A) + P(B) - P(A)P(B)$ = $P(A) + P(A^C) P(B)$가 된다. 또한 집합론을 쓰면, $P(A \cup B)$ = $P(A) + P(A^C \cap B)$ = $P(A) + P(A^C) P(B|A^C)$도 얻는다. 따라서 지금 공식화한 두 식을 상호 비교해서 식 (2.4)를 유도한다.

______________________________

[배반 사건(exclusive event)]

(2.5)

여기서 $P(A) \ne 0$, $P(B) \ne 0$이다.

[증명]

배반 사건 조건인 식 (8)을 식 (2.1)에 대입한다.

______________________________

배반 사건이면 $P(A \cap B)$ = $0$이 되므로, 식 (1.2)에 의해 $P(A \cup B)$ = $P(A) + P(B)$가 성립한다.

[전체 확률의 법칙(law of total probability)]

(2.6)

여기서 $A_i$는 상호 배반 및 공동 포괄이다.

[증명]

조건부 확률의 정의인 식 (4)를 식 (1.3)에 대입한다.

______________________________

상호 배반이며 공동 포괄인 사건 $A_i$의 확률 합이 1인 성질은 당연하지만, 식 (2.6)의 둘째식에서 확률의 고려 범위를 사건 $B$로 한정하고 조건부 확률로 $P(A_i | B)$를 더해도 1이 나오는 결과는 특이하다. 물론 사건 $B$ 밖에서 일어나는 조건부 확률은 $P(A_j | B)$ = $0$이라 생각하면 식 (2.6)의 둘째식도 지당하다. 여기서 $B \cap A_j$ = $\emptyset$이다.

3. 조건부 기대값(conditional expectation)

[정의]

(3.1a)

(3.1b)

기대값 $E[X]$는 숫자이지만, 조건부 기대값(conditional expectation) $E[X|Y]$는 확률 변수 $Y$에 따라 변하는 새로운 확률 변수이다.

[전체 기대값의 법칙(law of total expectation)]

(3.2)

여기서 $A_i$는 상호 배반이면서 공동 포괄적이다.

[증명]

식 (2.6)에서 사건 $B$를 $X$로 놓고 식 (2.6)에 $x_j$를 곱해서 $X$에 대한 기대값을 계산한다.

(3.3)

______________________________

식 (2.6)의 확률 $P(B)$처럼 기대값 $E[X]$도 사건 $A_i$로 분해해서 조건부 기대값으로 헤아릴 수 있다.

[참고문헌]

[1] B. Pascal, Traité du triangle arithmétique (Treatise on Arithmetical Triangle), 1654.

[2] 데이비드 핸드, 신은 주사위 놀이를 하지 않는다: 로또부터 진화까지, 우연한 일들의 법칙, 더퀘스트, 2016년.

[3] 한세희, "동전 던지기는 정말 공정할까?···35만 번 던져봤다", ZDNet Korea, 2023년 10월. (방문일 2024-11-26)

[4] S. D. Poisson, Recherches sur la Probabilité des Jugements en Matière Criminelle et en Matière Civile (Research on the Probability of Judgments in Criminal and Civil Cases), Paris, France, 1837. (In French, 방문일 2024-12-22)

[5] J. Soch, The Book of Statistical Proofs, Zenodo, 2024.

[다음 읽을거리]
1. 통계
2. 순열과 조합
3. 재미나는 정보량의 정의

댓글 6개 :

딘가2015년 1월 24일 PM 1:23
식 (7)의 분모는 N의 제곱 아닌가요?
예를 하나 들어주시면 안될까요.?
답글삭제
답글
Unknown2017년 5월 17일 AM 12:21
안녕하세요! 저는 확률과 통계를 공부하고있는 고등학교 3학년입니다. 저는 학교에서 E(XY)는 X와 Y가 독립이라면 E(X)E(Y)로 풀 수 있다고 배웠는데 이렇게 풀리지 않는 문제가 있어서 의문이 생겼습니다. 고등학생이라 위의 내용을 다 이해하지는 못했는데 정말 덧셈과 달리 곱셈은 저런방법으로 풀 수가 없는 것인가요? 하지만 0이 나오지않는 대부분의 경우에서는 저런 풀이가 가능하지 않나요? 궁금합니다
답글삭제
답글
Unknown2021년 11월 25일 PM 2:05
두 사건이 서로 상호 독립이면 왜 식(7)을 만족하지는지 알 수 있을까요?
솔직히 상호 독립의 정의 조차 모르겠네요.
두 사건이 서로 영향을 주지 않으면 상호 독립이라고 하는건가요 ???
답글삭제
답글