1. 확률
[통계: 그림 기반 표현법(statistics: graphical representation)]
[수치 해석: 플린코(Plinko) 확률(출처: phet.colorado.edu)]
통계학(統計學, statistics)은 자료의 수집, 분석, 예측 등을 다루는 학문이다. 통계의 어원은 국가(state)의 실태를 조사하는 학문이라서 국학(國學)이라 할 수 있다[2]. 통계가 다루는 전체 집합(universal set)은 모집단(母集團, population)이라 한다. 통계를 위한 모집단은 무엇이든지 될 수 있다. 특히 특정 대상을 시간적으로 관찰하여 모집단으로 삼으면 시계열(時系列, time series)이라 한다. 모집단에서 수집한 자료는 표본(標本, sample)이라 한다. 표본 수집이 바로 통계의 시작이며, 어떻게 표본을 수집할까라는 문제는 통계학에서 매우 중요하다. 왜냐하면 표본은 모집단을 대표해야 하지만 현실적으로 어떻게 자료를 수집해야 모집단을 잘 대표할지를 판단하기는 매우 어렵기 때문이다. 또한 표본 선택이 잘못되면 모집단의 특성과는 다른 특성이 통계에 나타날 수 있다. 표본을 모두 모은 집합은 표본 공간(標本空間, sample space)이라 한다. 표본 공간은 모집단의 부분 집합(subset)이다. 모아진 자료를 분석하기 위해 다양한 통계 변량을 정의한다. 대표적인 개념이 평균(平均, mean or average)과 표준 편차(標準偏差, standard deviation)이다. 평균은 표본이 상호공평하게 나누어 가질 수 있는 균등값이다. 표준 편차는 평균에서 표본이 벗어난 정도이다. 평균은 매우 다양하게 정의할 수 있으나 보통 산술 평균이 많이 쓰인다. 모집단에 대한 산술 평균 $\mu$는 식 (1)처럼 정의한다.
(1)
여기서 $N$은 모집단의 크기이며 $x_i$는 $i$번째 표본값이다. 표본 공간에 대한 산술 평균 $\bar x$도 식 (1)과 유사하게 설정한다.
(2)
여기서 $n$은 표본 공간의 크기, $n \le N$이다. 통계학이 현실에서 제대로 성립하려면, 식 (2)에 있는 $\bar x$가 식 (1)의 $\mu$를 적절한 오차 범위 내에서 예측할 수 있어야 한다. 다시 말해 확률 기대값(expectation or expected value)의 성질에 기반을 두고, 표본 공간의 산술 평균 기대값 $E(\bar X)$이 모집단의 산술 평균 $\mu$가 된다는 가정이 통계학에 꼭 필요하다.
(3)
여기서 $X_i$는 $i$번째 시행을 표현하는 확률 변수(random variable)이다. 즉 각 시행을 수행할 때 표본이 모집단의 특성을 반영하도록 잘 선택되면,[혹은 표본 $X_i$의 기대값 $E(X_i)$가 모집단의 산술 평균 $\mu$가 되면] 식 (3)처럼 모집단과 표본 공간의 산술 평균에 대한 기대값은 동일해진다. 모집단에 대한 표준 편차 $\sigma$를 정의하기 위해 분산(分散, variance) $\sigma^2$을 식 (4)처럼 표현한다.
(4)
표본 공간에 대해서는 2개의 분산을 정의할 수 있다.
(5)
(6)
모집단의 표준 편차는 $s_n$이나 $s$를 이용해서 예측할 수 있다. 이 중에서 나은 추정자(推定子, estimator)는 의외로 $s$이다. 이런 의외의 결과를 베셀의 수정(Bessel's correction)이라 한다. 이를 처음으로 발견한 사람인 베셀Friedrich Wilhelm Bessel(1784–1846)은 우리가 알고 있는 베셀 함수(Bessel function)와 관계있는 천문학자이다. 베셀의 수정을 증명하려면 분산의 성질을 먼저 이해해야 한다. 확률의 기대값 $E(X)$ 관점으로 분산 ${\rm Var}(X)$의 성질을 유도한다.
(8)
(9)
(10)
식 (9)와 (10)에 등장하는 ${\rm Cov}(X, Y)$는 공분산(共分散, covariance)이다. 공분산은 분산의 일반화로서 두 확률 변수 $X, Y$가 가진 상관 관계(相關關係, correlation)를 표현한다.
(11)
확률 변수 $X$와 $Y$가 독립이면 공분산은 아래와 같이 0이 된다. 즉, 상관 관계가 없다는 뜻이다.
(12)
따라서, 만약 확률 변수 $X_i$가 상호 독립이라면[혹은 $i \ne j$일 때 ${\rm Cov}(X_i, X_j) = 0$] 식 (10)은 아래처럼 간단히 표현될 수 있다.
(13)
[베셀의 수정]
각각의 시행을 나타내는 확률 변수 $X_i$가 상호 독립적이며 모집단의 확률적 특성을 동등하게 가진 경우 표본 공간의 표준 편차 $s$에 대한 기대값은 모집단의 표준 편차 $\sigma$와 같아진다.
[증명]
(14)
식 (14)의 증명에서 식 (3)과 (13)을 사용하였고 확률 변수 $X_i$가 가진 평균 $E(X_i)$와 분산 ${\rm Var}(X_i)$는 모집단의 평균 $\mu$와 분산 $\sigma^2$과 같다고 가정하였다.
______________________________
베셀의 수정이 의미하는 바는 분명하다. 표본 공간 평균의 기대값은 모집단의 평균과 동일하지만, 표본 공간의 분산은 자유도가 1만큼 줄어들기 때문에 분산 계산시 -1을 빼주어야 모집단의 분산을 좀더 정확하게 추정할 수 있다. 이는 표본 공간 평균이 표본 자체의 특성을 내포하고 있기 때문에 표본 공간 분산에서는 자유도가 1만큼 줄어듦으로 이해할 수 있다.
평균과 분산에 대한 정의를 이용하여 확률 이론의 재미난 성질인 큰 수의 법칙(law of large numbers)을 증명한다. 큰 수의 법칙을 위해 아래 식을 먼저 고려한다.
확률 변수의 분산은 제곱해서 더한 값[항상 양수]이므로, 어떤 확률 변수 $X$의 분산이 0이면 $X$는 반드시 상수가 되어야 한다.[∵ 양수의 합계가 $0$이라면, 더한 개별 양수값은 $0$만 가능하다.] 즉 확률 변수 $X$는 확률적 무작위성의 특성을 잃어버리고 고정된 값만 가질 수 있다.
[큰 수의 법칙]
상호 독립적인 확률 변수를 $X_i$라 할 때, 시행 회수 $n$을 증가시키면 $X_i$의 평균 확률 변수 $\bar X_n$은 무작성위성을 잃고 $X_i$의 평균 혹은 기대값($\mu$)에 수렴한다.
(16)
여기서 $\epsilon$은 임의의 매우 작은 양수이다.
[증명]
확률 변수 $X_i$는 확률적으로 동일한 특성을 가지고 있으므로, $X_i$와 관계없이 평균과 분산이 동일하다. 그러면 식 (3)에 의해 평균 확률 변수는 $\mu$가 된다. 분산은 식 (13)에 의해 다음과 같이 표현된다.
(17)
식 (16)과 같이 $n$이 무한대로 가면, 평균 확률 변수의 분산은 0이 된다. 분산이 0이면 확률 변수가 상수[식 (15)에 의해 상수]라는 뜻이므로, 평균 확률 변수는 반드시 상수가 되어야 한다. 즉 평균 확률 변수의 기대값이 $\mu$라서 상수값은 $\mu$가 된다. 따라서 $n$이 무한대로 감에 따라 평균 확률 변수의 존재 범위($|X_n - \mu|$)는 한없이 축소[$\epsilon \to 0$]될 수 있다.
______________________________식 (17)을 표준 편차 관점에서 쓰면, 드 무아브르Abraham de Moivre(1667–1754)가 1718년드 무아브르 51세, 조선 숙종 시절에 발견한 드 무아브르의 방정식(de Moivre's equation) 혹은 표준 오차에 대한 제곱근 규칙(square root law for standard error)이라 부른다[1].
(18)
여기서 표준 오차 $\sigma_{\bar X_n}$은 평균 확률 변수 $\bar X_n$에 대한 표준 오차(standard error) 혹은 표본 공간의 표준 편차를 의미한다. 식 (18)은 식 (6)에 나온 $s$와 구별되어야 한다. 두 식을 꼼꼼하게 비교해보면, 크기 $n$인 표본 공간을 구성하는 $X_i$에 대한 표준 편차 $s$는 표본 평균 $\bar X_n$이 만드는 표준 편차 $\sigma_{\bar X_n}$와 분명히 다르다.
드 무아브르의 방정식은 뉴턴Isaac Newton(1643–1727)의 흑역사중 하나이다[1]. 케임브리지 대학교(Cambridge University)의 종신 교수직을 버리고 1696년뉴턴 53세, 조선 숙종 시절에 왕립조폐국(Royal Mint)의 감사(warden of the Mint)로 임명된 뉴턴은 대주화개혁(大鑄貨改革, Great Recoinage of 1696)을 적극적으로 추진했다. 영국의 대주화개혁은 무게가 제각각인 옛날 동전을 무게가 거의 균일한 새로운 동전으로 대체하는 엄청난 사업이었다. 이 당시 영국에서는 은으로 만드는 동전의 테두리를 깎아서 은을 모으는 부패 행위가 만연했다. 은화의 테두리를 깎는 행위를 막기 위해, 의회는 동전 테두리에 의도적인 굴곡과 글씨까지 넣도록 했다. 하지만 화폐가 유통되는 상황은 더 악화되었다. 테두리에 굴곡이 있는 동전은 은의 가치가 보존되므로 자기가 보관하거나 녹여서 유럽 대륙으로 팔았고, 사람들이 꺼려하는 무게가 가벼워진 동전만 남았다. 말 그대로 악화가 양화를 쫓아냈다. 결국 의회는 이 모든 문제의 근원을 해결하고자 했다. 동전을 만들 때 생기는 무게의 변동성이 문제였으므로, 뉴턴 감사로 하여금 제조 공정을 개선하고 품질 관리도 철저히 해서 무게가 균일한 동전을 생산하게 했다. 뉴턴은 의회의 요구를 성공적으로 실행했다. 다만 동전의 품질 관리에 존재하던 감춰진 문제점은 해결하지 못했다. 예를 들어, 동전의 무게가 100g일 때, 동전 무게의 오차는 100g $\pm$ 1g이라고 정할 수 있다. 생산된 동전이 오차 범위에 들어가는지 전수 조사를 하면 좋지만, 시대가 17세기말이라서 무게를 정확히 재기가 너무 힘들었다. 그래서 표본으로 추출한 동전을 모아서 전체 무게를 잰 후에 평균을 내서 100g $\pm$ 1g 범위에 속하는지만 조사했다. 이 지점에서 표준 오차에 대한 제곱근 규칙이 나와야 하지만, 뉴턴은 그냥 오차 범위 100g $\pm$ 1g를 그대로 고수했다. 이러면 동전 무게의 품질을 정확히 측정할 수 없다. 예를 들어, 동전 100개를 모아서 평균을 낸 측정의 오차 범위는 식 (18)에 의해 100g $\pm$ 0.1g이 되어야 원래 동전의 오차 범위 $\sigma$를 추정할 수 있다. 정상적인 상황에서 뛰어난 수학자인 뉴턴이 간단한 계산만으로도 유도할 수 있는 식 (18)을 놓쳤을 리는 없다. 다만 동전 생산이라는 생업에 지쳐서 고단한 몸으로 현실을 벗어났을 때는 창의성이 생기지 않았으리라. 천하의 뉴턴도 삶의 여유가 없으니까 새로운 생각을 할 수 없었다. 다만, 이런 상황은 동전 통계에만 국한된다. 다른 영역에서 뉴턴의 머리는 팽팽 돌아갔다. 뉴턴 기준으로 근본 없는[∵ 라이프니츠에게 배운 야곱 베르누이의 동생이며 제자가 요한 베르누이. 요한 베르누이는 뉴턴이 뻥쟁이라고 뒷담화를 엄청나게 했다.] 요한 베르누이Johann Bernoulli(1667–1748)가 뉴턴에게 최속 강하선(最速降下線, brachistochrone curve) 문제로 도전한 해가 1696년이다. 오후 네 시 정도에 지친 상태로 조폐국에서 퇴근한 뉴턴은 저녁 식사까지 거르면서 최속 강하선 문제를 고민해 다음 날 새벽 네 시에 기어이 문제를 해결했다. 역시 뉴턴의 지성은 마르지 않는 샘물이었다. 자기의 생업인 동전 생산에서 발생한 통계 문제만을 제외하면 말이다.
[참고문헌]
[1] 닉 폴슨, 제임스 스콧, 수학의 쓸모: 불확실한 미래에서 보통 사람들도 답을 얻는 방법, 더퀘스트, 2020.
[2] 나가노 히로유키(永野 裕之), 다시 확률 통계 - 통계편, 길벗, 2022.