2010년 9월 1일 수요일

확률(確率, probability)


[확률(probability)]

확률은 수학 분야 중에서도 매우 독특하다. 무작위로 얻어지는 결과를 예측할 수 있는 환상의 수학인 것이다. 모든 것이 무작위로 얻어진다면 이를 수학으로 표현할 수는 없을 것이다. 무작위로 결과가 얻어지지만 관찰을 계속하면 나오는 결과들 전체가 특정한 규칙을 가질 것이라는 믿음이 확률 이론의 기저에 있다.
이런 상상을 바탕으로 사건(事件, event) $A$가 발생할 확률 $P(A)$를 정의하면 아래와 같다.

                                    (1)

여기서 $N$은 일어날 수 있는 모든 경우의 수(or 전사건(全事件, total event)의 개수), $n$은 사건 $A$가 발생하는 경우의 수이며, 모든 사건은 공평하게 발생한다고 가정했다. 식 (1)은 확률의 거의 모든 측면을 설명할 수 있다. 이 정의는 1814년에 라플라스(Pierre-Simon, marquis de Laplace)가 최초로 사용하였다. 사실 확률 이론의 시작은 훨씬 오래전이다. 1654년 도박사 메레(Chevalier de Méré)는 파스칼(Blaise Pascal)에게 도박이 갑자기 중단된 경우의 합리적인 판돈 나누기 문제를 질문했다. 이 질문에 대한 답을 하기 위해 파스칼이 고안하고 페르마(Pierre de Fermat)가 기여했던 기대값(expectation value) 개념이 확률론의 시작이다. 도박에서 시작한 확률 이론이 현대 물리학의 꽃인 양자 역학(量子力學, quantum mechanics)에도 쓰이고 있으니 수학은 당대에만 평가해서는 그 끝을 알 수가 없다.
확률은 기본적으로 특정 사건이 일어날 수 있는 비율이다. 식 (1)을 계산하기 위해서는 경우의 수(境遇數, number of cases or number of chances)가 매우 중요하다. 경우의 수는 특정 사건을 헤아린다는 것이다. 수학 분야 중에서 논리적으로 명확하게 헤아리는 것을 연구하는 학문 분야는 집합론(集合論, set theory)이다. 사건 $A$는 전체 집합(or 전사건) $S$의 부분 집합(部分集合, subset)이라 정의하고 사건 $A$가 발생하는 경우의 수는 부분 집합 $A$의 원소 개수라 생각하면 된다. 이런 사정을 고려해서 아래와 같이 집합론 기반으로 확률을 정의하면 식 (1)보다는 좀더 매끄럽게 정의할 수 있다.
  • : 확률은 발생 비율이므로 개별 사건 $A_n$의 확률은 반드시 0과 1 사이여야 한다. 이 개념을 함수적으로 바라보면 확률 $P(A_n)$이라는 것은 부분 집합 $A n$에서 실수 구간 [0, 1]의 한 값으로 가는 함수 관계로 생각할 수 있다.
  • : 만약 개별 사건 $A_n$의 교집합이 없다면 발생가능한 모든 개별 사건의 확률합은 반드시 1이 되어야 한다.
위의 집합론적 정의를 바탕으로 확률의 특징을 구하면 아래와 같다.

                       (2)

                       (3)

                       (4)

                       (5)

여기서 $A^C$는 $A$의 여집합(餘集合, complementary set)이며 $n_A$는 사건 $A$의 발생 회수(or 부분 집합 A의 원소 개수)를 의미한다. 식 (3)은 확률 이론에서 매우 유명한 조건부 확률(conditional probability)을 의미한다. 예를 들어, $P(A|B)$는 사건 $B$가 일어난 경우 사건 $A$가 일어날 확률이다. 두 사건 $A$, $B$가 식 (6)과 같은 관계를 가지면 상호 독립(mutually independent)이라고 정의한다.

                                    (6)

발생회수 관점으로 식 (6)을 쓰면 식 (7)인 경우가 상호 독립이다.

                                    (7)

집합 이론으로 확률 이론을 전개하면 여러 가지로 유리한 점이 많다. 특히, 유한 집합이 아닌 무한 집합까지도 집합론이 통용되기 때문에 확률의 전사건이 무한 집합이더라도 현재까지 유도한 내용을 모두 사용할 수 있다.

확률의 특성을 내포하고 있는 변수는 확률 변수(確率變數, random variable)라 한다. 수학적으로 정의하면 확률 변수는 확률 공간(probability space)에서 가측 공간(可測空間, measurable space)으로 가는 함수의 일종이다. 좀더 쉽게 설명하면 무작위로 나오는 사건들 각각을 측정 가능한 숫자로 배정한 것이다. 확률의 정의와 비슷하지만 확률 변수는 말 그대로 변수이다. 다만, 일반변수와는 다르게 확률 변수는 함수값이 고정되지 않고 사건이 발생할 때마다 무작위로 바뀐다. 예를 들어 동전을 던질 때 앞면 혹은 뒷면이 나오는 경우는 확률 변수 $X$로 표현할 수 있다.

                                    (8)

앞면과 뒷면이 나오는 확률이 같으면 확률 변수 $X$의 기대값은 아래와 같다.

                                   (9)

여기서 $f(x_i)$는 $P(X = x_i)$인 확률이다. 확률의 기대값은 아래의 성질을 가지고 있다.

             (10)

두 확률 변수 $X$, $Y$ 곱의 기대값은 아래로 정의한다.

                                  (11)

여기서 $f(x_i, y_j)$는 $x_i$와 $y_j$가 동시에 발생할 확률인 결합 확률(joint probability)이다.
만약 두 확률 변수 $X$, $Y$가 상호 독립이면 식 (6)에 의해 두 확률 변수 $X$, $Y$ 곱의 기대값은 따로 계산될 수 있다.

             (12)

여기서 생각할 부분이 하나 있다. 확률 변수들의 합은 간단히 기대값이 계산되는데 확률 변수들의 곱은 왜 결합확률까지 고려해야 하나? 예를 들어, $Z = X + Y$, $W = X \cdot Y$라고 정의하자. 확률은 빈도이므로 Z를 결정할 때 $X$의 빈도와 $Y$의 빈도는 서로 직접적인 영향을 주지 않는다. $X$가 큰 수가 나오면 $Y$값에 직접적인 관계없이 $Z$는 큰 값이 된다. 덧셈이기 때문이다. 곱셈인 $W$는 다르다. $X$의 빈도가 크게 나오더라도 $Y$의 빈도가 작으면 전체값 $W$는 크지 않을 수 있다. 극단적으로 $Y = 0$이라면 $X$가 아무리 크더라도 $W$는 0이 된다. 그래서, $X$와 $Y$가 동시에 발생할 확률인 결합 확률을 반드시 고려해야 한다.
그래도 이해가 되지 않는다면 수학적으로 생각해야 한다. 식 (10)을 일반적인 결합 확률 $f(x_i, y_j)$를 이용해서 아래와 같이 증명해 보자.

             (13)

여기서 $f_X(x_i)$와 $f_Y(y_j)$는 주변 확률(marginal probability)이다. 주변 확률은 확률 변수중 한 변수($x_i$ or $y_j$)만 고려해서 계산한 확률이다. 식 (13)과 (11)을 바탕으로 확률 변수의 합과 곱을 다시 생각하자. 예를 들어 확률 변수 $X$, $Y$가 아래 빈도로 얻어진다고 하자.
   $$\begin{matrix}x_1&x_2&x_3&x_2&x_1&x_1&x_2&x_1&x_3&\cdots \\
   y_2&y_2&y_3&y_2&y_4&y_3&y_2&y_1&y_4&\cdots\end{matrix}$$
이들의 덧셈은 서로 영향을 주지 않지만(∵ 덧셈이니까! 덧셈은 교환법칙이 성립하므로 $x$끼리 혹은 $y$끼리 모아서 빈도를 계산할 수 있다.) 곱셈은 상호 영향을 준다. (∵ 곱셈이니까! 곱셈은 곱해주는 수에 비례해서 더해주기 때문에 $x$, $y$가 상호 영향을 당연히 준다.)
[그림 1] 주사위 던지기의 평균값(출처: wikipedia.org)

확률 이론은 실생활에 도움이 될까? 조금만 생각해봐도 분명히 도움된다. 그러면 확률이 왜 유용할까? 바로 큰 수의 법칙(law of large number)때문이다. 큰 수의 법칙은 확률을 실생활과 연결하는 핵심적인 개념이다. 어떤 일(예를 들면 주사위 던지기)을 계속 할 경우 특정 사건이 출현하는 비율이 점근적으로 확률값에 수렴한다는 뜻이다. 예를 들어 [그림 1]을 보자. 주사위 던지기를 하면 1에서 6까지 임의의 수가 나온다. 하지만 계속 던져가면 그 기대값은 3.5에 수렴한다는 것을 보여준다.

                         (14)

이 법칙을 증명하려면 통계(statistics)에서 사용하는 평균(mean or average)과 분산(variance) 개념을 사용해야 한다.

[다음 읽을거리]
1. 통계
2. 순열과 조합
3. 재미나는 정보량의 정의

댓글 4개 :

  1. 식 (7)의 분모는 N의 제곱 아닌가요?
    예를 하나 들어주시면 안될까요.?

    답글삭제
    답글
    1. 확률이라면 분모에 $N^2$이 들어가지만, 식 (7)은 발생 회수라서 분모는 $N$이 되는게 맞습니다.

      삭제
  2. 안녕하세요! 저는 확률과 통계를 공부하고있는 고등학교 3학년입니다. 저는 학교에서 E(XY)는 X와 Y가 독립이라면 E(X)E(Y)로 풀 수 있다고 배웠는데 이렇게 풀리지 않는 문제가 있어서 의문이 생겼습니다. 고등학생이라 위의 내용을 다 이해하지는 못했는데 정말 덧셈과 달리 곱셈은 저런방법으로 풀 수가 없는 것인가요? 하지만 0이 나오지않는 대부분의 경우에서는 저런 풀이가 가능하지 않나요? 궁금합니다

    답글삭제
    답글
    1. 안녕하세요, Unknown님. ^^ $X, Y$가 독립이면 식 (12)가 반드시 성립해야 합니다.

      삭제

욕설이나 스팸글은 삭제될 수 있습니다. [전파거북이]는 선플운동의 아름다운 인터넷을 지지합니다.