2010년 9월 8일 수요일

모든 수학 공식을 담은 책

아래 링크 중에서 어떤 것을 들어가더라도 동일한 내용을 볼 수 있다.

[자료 링크]

[PDF 링크]

방대한 수학 공식을 일일이 점검하여 만든 유명한 수학공식책이 에이브램어위츠(Milton Abramowitz)와 스테건(Irene Stegun)이 편집한 Handbook of Mathematical Functions이다 [1]. 공식을 굳이 외울 필요없이 위의 링크를 찾아보면 필요한 거의 대부분의 공식을 찾을 수 있다. 현재 NIST(National Institute of Standards and Technology)로 이름을 바꾼 NBS(National Bureau of Standards)에서 당대의 수학 지식을 집대성한 매우 의미있는 책이다. 컴퓨터가 대중화되기 이전에 쓰여진 책이지만 현재에도 컴퓨터로 계산하기 위한 기초공식 작업에 쓰여 연구자들 사이에서 상당히 사랑받는 책이다. 또한, 1964년에 발행된 이후 근 50년 동안 이 책에 있던 갖가지 오타들이 수정되어 현재는 거의 오류가 없는 완벽한 공식책이기 때문에 연구자들이 믿고 쓸 수 있다. 인터넷에 완전히 공개되어 있어 무료로 사용할 수도 있다.
공부할수록 NIST의 방대한 지식체계에 감사할 수 밖에 없다. 최근에는 NIST에서 Digital Library of Mathematical Functions을 인터넷에 공개했다. 책은 오류를 고치기 힘들지만 NIST 인터넷 정보는 실시간으로 오류가 수정된다.

[참고문헌]
[1] M. Abramowitz and I. A. StegunHandbook of Mathematical Functions with Formulas, Graphs, and Mathematical Tables, National Bureau of Standards: Applied Mathematics Series-55, 1964.

2010년 9월 1일 수요일

통계(統計, Statistics)

[경고] 아래 글을 읽지 않고 "통계"를 보면 바보로 느껴질 수 있습니다.
1. 확률



[통계: 그림 기반 표현법(statistics: graphical representation)]

[수치 해석: 플린코(Plinko) 확률(출처: phet.colorado.edu)]

통계학(統計學, statistics)은 자료의 수집, 분석, 예측 등을 다루는 학문이다. 통계의 어원은 국가(state)의 실태를 조사하는 학문이라서 국학(國學)이라 할 수 있다[2]. 통계가 다루는 전체 집합(universal set)모집단(母集團, population)이라 한다. 통계를 위한 모집단은 무엇이든지 될 수 있다. 특히 특정 대상을 시간적으로 관찰하여 모집단으로 삼으면 시계열(時系列, time series)이라 한다. 모집단에서 수집한 자료는 표본(標本, sample)이라 한다. 표본 수집이 바로 통계의 시작이며, 어떻게 표본을 수집할까라는 문제는 통계학에서 매우 중요하다. 왜냐하면 표본은 모집단을 대표해야 하지만 현실적으로 어떻게 자료를 수집해야 모집단을 잘 대표할지를 판단하기는 매우 어렵기 때문이다. 또한 표본 선택이 잘못되면 모집단의 특성과는 다른 특성이 통계에 나타날 수 있다. 표본을 모두 모은 집합은 표본 공간(標本空間, sample space)이라 한다. 표본 공간은 모집단의 부분 집합(subset)이다. 모아진 자료를 분석하기 위해 다양한 통계 변량을 정의한다. 대표적인 개념이 평균(平均, mean or average)표준 편차(標準偏差, standard deviation)이다. 평균은 표본이 상호공평하게 나누어 가질 수 있는 균등값이다. 표준 편차는 평균에서 표본이 벗어난 정도이다. 평균은 매우 다양하게 정의할 수 있으나 보통 산술 평균이 많이 쓰인다. 모집단에 대한 산술 평균 $\mu$는 식 (1)처럼 정의한다.

                                   (1)

여기서 $N$은 모집단의 크기이며 $x_i$는 $i$번째 표본값이다. 표본 공간에 대한 산술 평균 $\bar x$도 식 (1)과 유사하게 설정한다.

                                   (2)

여기서 $n$은 표본 공간의 크기, $n \le N$이다. 통계학이 현실에서 제대로 성립하려면, 식 (2)에 있는 $\bar x$가 식 (1)의 $\mu$를 적절한 오차 범위 내에서 예측할 수 있어야 한다. 다시 말해 확률 기대값(expectation or expected value)의 성질에 기반을 두고, 표본 공간의 산술 평균 기대값 $E(\bar X)$이 모집단의 산술 평균 $\mu$가 된다는 가정이 통계학에 꼭 필요하다.

                (3)

여기서 $X_i$는 $i$번째 시행을 표현하는 확률 변수(random variable)이다. 즉 각 시행을 수행할 때 표본이 모집단의 특성을 반영하도록 잘 선택되면,[혹은 표본 $X_i$의 기대값 $E(X_i)$가 모집단의 산술 평균 $\mu$가 되면] 식 (3)처럼 모집단과 표본 공간의 산술 평균에 대한 기대값은 동일해진다. 모집단에 대한 표준 편차 $\sigma$를 정의하기 위해 분산(分散, variance) $\sigma^2$을 식 (4)처럼 표현한다.

                                   (4)

표본 공간에 대해서는 2개의 분산을 정의할 수 있다.

                                   (5)

                                   (6)

모집단의 표준 편차는 $s_n$이나 $s$를 이용해서 예측할 수 있다. 이 중에서 나은 추정자(推定子, estimator)는 의외로 $s$이다. 이런 의외의 결과를 베셀의 수정(Bessel's correction)이라 한다. 이를 처음으로 발견한 사람인 베셀Friedrich Wilhelm Bessel(1784–1846)은 우리가 알고 있는 베셀 함수(Bessel function)와 관계있는 천문학자이다. 베셀의 수정을 증명하려면 분산의 성질을 먼저 이해해야 한다. 확률의 기대값 $E(X)$ 관점으로 분산 ${\rm Var}(X)$의 성질을 유도한다.

                                  (7)

              (8)

              (9)

                                  (10)

식 (9)와 (10)에 등장하는 ${\rm Cov}(X, Y)$는 공분산(共分散, covariance)이다. 공분산은 분산의 일반화로서 두 확률 변수 $X, Y$가 가진 상관 관계(相關關係, correlation)를 표현한다.

              (11)

확률 변수 $X$와 $Y$가 독립이면 공분산은 아래와 같이 0이 된다. 즉, 상관 관계가 없다는 뜻이다.

              (12)

따라서, 만약 확률 변수 $X_i$가 상호 독립이라면[혹은 $i \ne j$일 때 ${\rm Cov}(X_i, X_j) = 0$] 식 (10)은 아래처럼 간단히 표현될 수 있다.

                                  (13)

[베셀의 수정]
각각의 시행을 나타내는 확률 변수 $X_i$가 상호 독립적이며 모집단의 확률적 특성을 동등하게 가진 경우 표본 공간의 표준 편차 $s$에 대한 기대값은 모집단의 표준 편차 $\sigma$와 같아진다.

[증명]

             (14)

식 (14)의 증명에서 식 (3)과 (13)을 사용하였고 확률 변수 $X_i$가 가진 평균 $E(X_i)$와 분산 ${\rm Var}(X_i)$는 모집단의 평균 $\mu$와 분산 $\sigma^2$과 같다고 가정하였다.
______________________________

베셀의 수정이 의미하는 바는 분명하다. 표본 공간 평균의 기대값은 모집단의 평균과 동일하지만, 표본 공간의 분산은 자유도가 1만큼 줄어들기 때문에 분산 계산시 -1을 빼주어야 모집단의 분산을 좀더 정확하게 추정할 수 있다. 이는 표본 공간 평균이 표본 자체의 특성을 내포하고 있기 때문에 표본 공간 분산에서는 자유도가 1만큼 줄어듦으로 이해할 수 있다.
평균과 분산에 대한 정의를 이용하여 확률 이론의 재미난 성질인 큰 수의 법칙(law of large numbers)을 증명한다. 큰 수의 법칙을 위해 아래 식을 먼저 고려한다.

              (15)

확률 변수의 분산은 제곱해서 더한 값[항상 양수]이므로, 어떤 확률 변수 $X$의 분산이 0이면 $X$는 반드시 상수가 되어야 한다.[∵ 양수의 합계가 $0$이라면, 더한 개별 양수값은 $0$만 가능하다.] 즉 확률 변수 $X$는 확률적 무작위성의 특성을 잃어버리고 고정된 값만 가질 수 있다.

[큰 수의 법칙]
상호 독립적인 확률 변수를 $X_i$라 할 때, 시행 회수 $n$을 증가시키면 $X_i$의 평균 확률 변수 $\bar X_n$은 무작성위성을 잃고 $X_i$의 평균 혹은 기대값($\mu$)에 수렴한다. 

              (16)

여기서 $\epsilon$은 임의의 매우 작은 양수이다.

[증명]
확률 변수 $X_i$는 확률적으로 동일한 특성을 가지고 있으므로, $X_i$와 관계없이 평균과 분산이 동일하다. 그러면 식 (3)에 의해 평균 확률 변수는 $\mu$가 된다. 분산은 식 (13)에 의해 다음과 같이 표현된다.

                                  (17)

식 (16)과 같이 $n$이 무한대로 가면, 평균 확률 변수의 분산은 0이 된다. 분산이 0이면 확률 변수가 상수[식 (15)에 의해 상수]라는 뜻이므로, 평균 확률 변수는 반드시 상수가 되어야 한다. 즉 평균 확률 변수의 기대값이 $\mu$라서 상수값은 $\mu$가 된다. 따라서 $n$이 무한대로 감에 따라 평균 확률 변수의 존재 범위($|X_n - \mu|$)는 한없이 축소[$\epsilon \to 0$]될 수 있다.
______________________________

식 (17)을 표준 편차 관점에서 쓰면, 드 무아브르Abraham de Moivre(1667–1754)가 1718년드 무아브르 51세, 조선 숙종 시절에 발견한 드 무아브르의 방정식(de Moivre's equation) 혹은 표준 오차에 대한 제곱근 규칙(square root law for standard error)이라 부른다[1].

                                  (18)

여기서 표준 오차 $\sigma_{\bar X_n}$은 평균 확률 변수 $\bar X_n$에 대한 표준 오차(standard error) 혹은 표본 공간의 표준 편차를 의미한다. 식 (18)은 식 (6)에 나온 $s$와 구별되어야 한다. 두 식을 꼼꼼하게 비교해보면, 크기 $n$인 표본 공간을 구성하는 $X_i$에 대한 표준 편차 $s$는 표본 평균 $\bar X_n$이 만드는 표준 편차 $\sigma_{\bar X_n}$와 분명히 다르다.
드 무아브르의 방정식은 뉴턴Isaac Newton(1643–1727)의 흑역사중 하나이다[1]. 케임브리지 대학교(Cambridge University)의 종신 교수직을 버리고 1696년뉴턴 53세, 조선 숙종 시절에 왕립조폐국(Royal Mint)의 감사(warden of the Mint)로 임명된 뉴턴은 대주화개혁(大鑄貨改革, Great Recoinage of 1696)을 적극적으로 추진했다. 영국의 대주화개혁은 무게가 제각각인 옛날 동전을 무게가 거의 균일한 새로운 동전으로 대체하는 엄청난 사업이었다. 이 당시 영국에서는 은으로 만드는 동전의 테두리를 깎아서 은을 모으는 부패 행위가 만연했다. 은화의 테두리를 깎는 행위를 막기 위해, 의회는 동전 테두리에 의도적인 굴곡과 글씨까지 넣도록 했다. 하지만 화폐가 유통되는 상황은 더 악화되었다. 테두리에 굴곡이 있는 동전은 은의 가치가 보존되므로 자기가 보관하거나 녹여서 유럽 대륙으로 팔았고, 사람들이 꺼려하는 무게가 가벼워진 동전만 남았다. 말 그대로 악화가 양화를 쫓아냈다. 결국 의회는 이 모든 문제의 근원을 해결하고자 했다. 동전을 만들 때 생기는 무게의 변동성이 문제였으므로, 뉴턴 감사로 하여금 제조 공정을 개선하고 품질 관리도 철저히 해서 무게가 균일한 동전을 생산하게 했다. 뉴턴은 의회의 요구를 성공적으로 실행했다. 다만 동전의 품질 관리에 존재하던 감춰진 문제점은 해결하지 못했다. 예를 들어, 동전의 무게가 100g일 때, 동전 무게의 오차는 100g $\pm$ 1g이라고 정할 수 있다. 생산된 동전이 오차 범위에 들어가는지 전수 조사를 하면 좋지만, 시대가 17세기말이라서 무게를 정확히 재기가 너무 힘들었다. 그래서 표본으로 추출한 동전을 모아서 전체 무게를 잰 후에 평균을 내서 100g $\pm$ 1g 범위에 속하는지만 조사했다. 이 지점에서 표준 오차에 대한 제곱근 규칙이 나와야 하지만, 뉴턴은 그냥 오차 범위 100g $\pm$ 1g를 그대로 고수했다. 이러면 동전 무게의 품질을 정확히 측정할 수 없다. 예를 들어, 동전 100개를 모아서 평균을 낸 측정의 오차 범위는 식 (18)에 의해 100g $\pm$ 0.1g이 되어야 원래 동전의 오차 범위 $\sigma$를 추정할 수 있다. 정상적인 상황에서 뛰어난 수학자인 뉴턴이 간단한 계산만으로도 유도할 수 있는 식 (18)을 놓쳤을 리는 없다. 다만 동전 생산이라는 생업에 지쳐서 고단한 몸으로 현실을 벗어났을 때는 창의성이 생기지 않았으리라. 천하의 뉴턴도 삶의 여유가 없으니까 새로운 생각을 할 수 없었다. 다만, 이런 상황은 동전 통계에만 국한된다. 다른 영역에서 뉴턴의 머리는 팽팽 돌아갔다. 뉴턴 기준으로 근본 없는[∵ 라이프니츠에게 배운 야곱 베르누이의 동생이며 제자가 요한 베르누이. 요한 베르누이는 뉴턴이 뻥쟁이라고 뒷담화를 엄청나게 했다.] 요한 베르누이Johann Bernoulli(1667–1748)가 뉴턴에게 최속 강하선(最速降下線, brachistochrone curve) 문제로 도전한 해가 1696년이다. 오후 네 시 정도에 지친 상태로 조폐국에서 퇴근한 뉴턴은 저녁 식사까지 거르면서 최속 강하선 문제를 고민해 다음 날 새벽 네 시에 기어이 문제를 해결했다. 역시 뉴턴의 지성은 마르지 않는 샘물이었다. 자기의 생업인 동전 생산에서 발생한 통계 문제만을 제외하면 말이다.

[참고문헌]
[2] 나가노 히로유키(永野 裕之), 다시 확률 통계 - 통계편, 길벗, 2022.

확률(確率, Probability)


[확률(probability)]

확률은 수학 분야 중에서도 매우 독특하다. 무작위로 얻어지는 결과를 예측할 수 있는 환상의 수학이 확률이다. 모든 것이 무작위로 얻어진다면 이를 수학으로 표현할 수는 없다. 무작위로 결과가 얻어지지만 관찰을 계속하면 나오는 결과들 전체가 특정한 규칙을 가진다는 믿음이 확률 이론의 기저에 있다. 이런 상상을 바탕으로 사건(事件, event) $A$가 발생할 확률 $P(A)$를 정의하면 아래와 같다.

                                    (1)

여기서 $N$은 일어날 수 있는 모든 경우의 수[혹은 전사건(全事件, total event)의 개수], $n$은 사건 $A$가 발생하는 경우의 수이며, 모든 사건은 공평하게 발생한다고 가정했다. 식 (1)은 확률의 거의 모든 측면을 설명할 수 있다. 이 정의는 1814년라플라스 65세, 조선 순조 시절에 라플라스Pierre-Simon Laplace(1749–1827)가 최초로 사용하였다. 사실 확률 이론의 시작은 훨씬 오래전이다. 1654년파스칼 31세, 조선 효종 시절에 도박사인 메레의 기사Antoine Gombaud, Chevalier de Méré(1607–1684)[본명은 곰보]는 파스칼Blaise Pascal(1623–1662)에게 도박이 갑자기 중단된 경우의 합리적인 판돈 나누기 문제를 질문했다[1]. 이 질문에 대한 답을 하기 위해 파스칼이 고안하고 페르마Pierre de Fermat(1607–1665)가 기여했던 기대값(expectation or expected value) 개념이 확률론의 시작이다. 도박에서 시작한 확률 이론이 현대 물리학의 꽃인 양자 역학(量子力學, quantum mechanics)에도 쓰이고 있으니 수학은 당대에만 평가해서는 그 끝을 알 수가 없다.
확률은 기본적으로 특정 사건이 일어날 수 있는 비율이다. 식 (1)을 계산하기 위해서는 경우의 수(境遇數, number of cases or number of chances)가 매우 중요하다. 경우의 수는 특정 사건을 헤아림이다. 수학 분야 중에서 논리적으로 명확하게 헤아리는 방법을 연구하는 분야는 집합론(集合論, set theory)이다. 사건 $A$는 전체 집합[혹은 전체 사건] $S$의 부분 집합(部分集合, subset)이라 정의하고 사건 $A$가 발생하는 경우의 수는 부분 집합 $A$의 원소 개수라 생각하면 된다. 이런 사정을 고려해서 아래와 같이 집합론 기반으로 확률을 정의하면 식 (1)보다는 좀더 매끄럽게 정의할 수 있다.
  • : 확률은 발생 비율이므로 개별 사건 $A_n$의 확률은 반드시 0과 1 사이여야 한다. 이 개념을 함수적으로 바라보면 확률 $P(A_n)$은 부분 집합 $A_ n$에서 실수 구간 [0, 1]의 한 값으로 가는 함수 관계로 생각할 수 있다.
  • : 만약 개별 사건 $A_n$의 교집합이 없다면 발생 가능한 모든 개별 사건의 확률 합은 반드시 1이 되어야 한다.
위의 집합론적 정의를 바탕으로 확률의 특징을 구하면 아래와 같다.

                       (2)

                       (3)

                       (4)

                       (5)

여기서 $A^C$는 $A$의 여집합(餘集合, complementary set)이며 $n_A$는 사건 $A$의 발생 회수[혹은 부분 집합 $A$의 원소 개수]를 의미한다. 식 (3)은 확률 이론에서 매우 유명한 조건부 확률(conditional probability)을 의미한다. 예를 들어, $P(A|B)$는 사건 $B$가 일어난 경우 사건 $A$가 일어날 확률이다. 두 사건 $A$, $B$가 식 (6)과 같은 관계를 가지면 상호 독립(mutually independent)이라고 정의한다.

                                    (6)

두 사건이 상호 독립 혹은 독립 사건(獨立事件, independent event)이라면, 상대방 사건에 서로 영향을 주거나 받지 않고 사건 자체가 독자적으로 발생한다. 그래서 상호 독립의 정의인 식 (6)에 의해 $P(A|B)$ = $P(A)$, $P(B|A)$ = $P(B)$가 성립한다. 즉, 사건 $B$의 발생 유무에 관계없이 $P(A|B)$는 $P(A)$이므로, 사건 $A, B$는 서로 독립이 된다. 마찬가지로 사건 $A$와 관계없는 $B$의 조건부 확률 $P(B|A)$는 $P(B)$로 간략화된다. 발생 회수 관점으로 식 (6)을 쓴 경우에는 상호 독립이 다음처럼 표현된다.

                                    (7)

집합 이론으로 확률 이론을 전개하면 여러 가지로 유리한 점이 많다. 특히, 유한 집합이 아닌 무한 집합까지도 집합론이 통용되기 때문에 확률의 전사건이 무한 집합이더라도 현재까지 유도한 내용을 모두 사용할 수 있다. 독립 사건과 비슷하지만 다른 개념을 가진 배반 사건도 있다. 배반 사건(背反事件, exclusive event)은 사건 $A, B$가 상보적이어서 $A$가 일어나면 $B$는 발생하지 않고 $B$가 있을 때 $A$는 없다. 배반 사건을 집합 개념으로 쓰면 다음과 같다.

                                    (8)

독립 사건과 배반 사건을 나타내는 식 (6)과 (8)을 참고해서 우리의 이해를 명확히 할 수 있다. 독립 사건은 사건 $A, B$가 서로 관계되지 않는다는 뜻이고, 배반 사건은 $A, B$가 서로 공통점이 없다는 의미이다. 그래서 $P(A) \ne 0$, $P(B) \ne 0$의 조건에서 독립 사건은 $P(A \cap B) \ne 0$이지만, 배반 사건은 반드시 $P(A \cap B)$ = $0$이 된다.
확률의 특성을 내포하고 있는 변수는 확률 변수(確率變數, random variable)라 한다. 수학적으로 정의하면 확률 변수는 확률 공간(probability space)에서 가측 공간(可測空間, measurable space)으로 가는 함수의 일종이다. 좀더 쉽게 설명하면 무작위로 나오는 사건들 각각을 측정 가능한 숫자로 배정하면 확률 변수가 된다. 확률의 정의와 비슷하지만 확률 변수는 말 그대로 변수이다. 다만, 일반변수와는 다르게 확률 변수는 함수값이 고정되지 않고 사건이 발생할 때마다 무작위로 바뀐다. 예를 들어 동전을 던질 때 앞면 혹은 뒷면이 나오는 경우는 확률 변수 $X$로 표현할 수 있다.

                                    (8)

앞면과 뒷면이 나오는 확률이 같으면 확률 변수 $X$의 기대값은 아래와 같다.

                                   (9)

여기서 $f(x_i)$는 $P(X = x_i)$인 확률이다. 확률의 기대값은 아래의 성질을 가지고 있다.

             (10)

두 확률 변수 $X$, $Y$ 곱의 기대값은 아래로 정의한다.

                                  (11)

여기서 $f(x_i, y_j)$는 $x_i$와 $y_j$가 동시에 발생할 확률인 결합 확률(joint probability)이다. 만약 두 확률 변수 $X$, $Y$가 상호 독립이면 식 (6)에 의해 두 확률 변수 $X$, $Y$ 곱의 기대값은 따로 계산될 수 있다.

             (12)

여기서 생각할 부분이 하나 있다. 확률 변수의 합은 간단히 기대값을 이용하면 되는데, 확률 변수의 곱은 왜 결합 확률까지 고려해야 하나? 예를 들어, $Z = X + Y$, $W = X \cdot Y$라고 정의한다. 확률은 빈도이므로 Z를 결정할 때 $X$의 빈도와 $Y$의 빈도는 서로 직접적인 영향을 주지 않는다. $X$가 큰 수가 나오면 $Y$값에 직접적인 관계없이 $Z$는 큰 값이 된다. 덧셈이기 때문이다. 곱셈인 $W$는 다르다. $X$의 빈도가 크게 나오더라도 $Y$의 빈도가 작으면 전체값 $W$는 크지 않을 수 있다. 극단적으로 $Y = 0$이라면 $X$가 아무리 크더라도 $W$는 0이 된다. 그래서, $X$와 $Y$가 동시에 발생할 확률인 결합 확률을 반드시 고려해야 한다. 그래도 이해가 되지 않는다면 수학적으로 생각해야 한다. 식 (10)을 일반적인 결합 확률 $f(x_i, y_j)$를 이용해서 아래와 같이 증명한다.

             (13)

여기서 $f_X(x_i)$와 $f_Y(y_j)$는 주변 확률(marginal probability)이다. 주변 확률은 확률 변수중 한 변수[$x_i$ 혹은 $y_j$]만 고려해서 계산한 확률이다. 식 (13)과 (11)을 바탕으로 확률 변수의 합과 곱을 다시 생각한다. 예를 들어, 확률 변수 $X$, $Y$가 아래 빈도로 얻어진다고 가정한다.

   

이 숫자들의 덧셈은 서로 영향을 주지 않지만[∵ 덧셈이니까! 덧셈은 교환 법칙이 성립하므로 $x$끼리 혹은 $y$끼리 모아서 빈도를 계산할 수 있다.] 곱셈은 상호 영향을 준다.[∵ 곱셈이니까! 곱셈은 곱해주는 수에 비례해서 더해주기 때문에 $x$, $y$가 상호 영향을 당연히 준다.]
[그림 1] 주사위 던지기의 평균값(출처: wikipedia.org)

확률 이론은 실생활에 도움이 될까? 조금만 생각해봐도 분명히 도움된다. 그러면 확률이 왜 유용할까? 바로 큰 수의 법칙(law of large number)때문이다. 큰 수의 법칙은 확률을 실생활과 연결하는 핵심적인 개념이다. 어떤 일[예를 들면 주사위 던지기]을 계속 할 경우 특정 사건이 출현하는 비율이 점근적으로 확률값에 수렴한다는 뜻이다. 예를 들어, [그림 1]을 관찰한다. 주사위 던지기를 하면 1에서 6까지 임의의 수가 나온다. 하지만 계속 던져가면 그 기대값은 3.5에 수렴함을 보여준다.

                         (14)

이 법칙을 증명하려면 통계(statistics)에서 사용하는 평균(mean or average)과 분산(variance) 개념을 사용해야 한다.


   1. 기본(basics)   

[기본 성질]

                  (1.1)

                  (1.2)

                  (1.3)


   2. 조건부 확률(conditional probability)   

[기본 성질]

                       (2.1)

                       (2.2)

사건 $A, B$가 부분 집합 관계이면 조건부 확률이 매우 간단해진다.

                  (2.3)

여기서 $A \subset B$이다.

[증명]
조건부 확률의 정의를 변형해서 $P(A \cap B)$ = $P(A) P(B|A)$ = $P(A)$로 증명한다.
______________________________

[독립 사건(independent event)]

                  (2.4)

여기서 $A, B$는 서로 독립이다.

[증명]
식 (1.1)과 (1.2)에 따라 $P(A \cup B)$ = $P(A) + P(B) - P(A)P(B)$ = $P(A) + P(A^C) P(B)$가 된다. 또한 집합론을 쓰면, $P(A \cup B)$ = $P(A) + P(A^C \cap B)$ = $P(A) + P(A^C) P(B|A^C)$도 얻는다. 따라서 지금 공식화한 두 식을 상호 비교해서 식 (2.4)를 유도한다.
______________________________

[배반 사건(exclusive event)]

                  (2.5)

여기서 $P(A) \ne 0$, $P(B) \ne 0$이다.

[증명]
배반 사건 조건인 식 (8)을 식 (2.1)에 대입한다.
______________________________


[다음 읽을거리]
1. 통계
2. 순열과 조합
3. 재미나는 정보량의 정의

[참고문헌]
[1] B. Pascal, Traité du triangle arithmétique (Treatise on Arithmetical Triangle), 1654.