1. 확률
[통계: 그림 기반 표현법(statistics: graphical representation)]
[수치 해석: 플린코(Plinko) 확률(출처: phet.colorado.edu)]
통계학(統計學, statistics)은 자료의 수집, 분석, 예측 등을 다루는 학문이다. 통계의 어원은 국가(state)의 실태를 조사하는 학문이라서 국학(國學)이라 할 수 있다[2]. 통계가 다루는 전체 집합(universal set)은 모집단(母集團, population)이라 한다. 통계를 위한 모집단은 무엇이든지 될 수 있다. 특히 특정 대상을 시간적으로 관찰하여 모집단으로 삼으면 시계열(時系列, time series)이라 한다. 모집단에서 수집한 자료는 표본(標本, sample)이라 한다. 표본 수집이 바로 통계의 시작이며, 어떻게 표본을 수집할까라는 문제는 통계학에서 매우 중요하다. 왜냐하면 표본은 모집단을 대표해야 하지만 현실적으로 어떻게 자료를 수집해야 모집단을 잘 대표할지를 판단하기는 매우 어렵기 때문이다. 또한 표본 선택이 잘못되면 모집단의 특성과는 다른 특성이 통계에 나타날 수 있다. 표본을 모두 모은 집합은 표본 공간(標本空間, sample space)이라 한다. 표본 공간은 모집단의 부분 집합(subset)이다. 모아진 자료를 분석하기 위해 다양한 통계 변량을 정의한다. 대표적인 개념이 평균(平均, mean or average)과 표준 편차(標準偏差, standard deviation)이다. 평균은 표본이 상호공평하게 나누어 가질 수 있는 균등값이다. 표준 편차는 평균에서 표본이 벗어난 정도이다. 평균과 표준 편차는 선형 최소 제곱법(linear least squares)의 직접적인 산출물이다.
평균은 매우 다양하게 정의할 수 있으나 보통 산술 평균이 많이 쓰인다. 모집단에 대한 산술 평균 $\mu$는 식 (1)처럼 정의한다.
(1)
여기서 $N$은 모집단의 크기이며 $x_i$는 $i$번째 표본값이다. 표본 공간에 대한 산술 평균 $\bar x$도 식 (1)과 유사하게 설정한다.
(2)
여기서 $n$은 표본 공간의 크기, $n \le N$이다. 통계학이 현실에서 제대로 성립하려면, 식 (2)에 있는 $\bar x$가 식 (1)의 $\mu$를 적절한 오차 범위 내에서 예측할 수 있어야 한다. 다시 말해 확률 기대값(expectation or expected value)의 성질에 기반을 두고, 표본 공간의 산술 평균 기대값 $E[\bar X]$이 모집단의 산술 평균 $\mu$가 된다는 가정이 통계학에 꼭 필요하다.
(3)
여기서 $X_i$는 $i$번째 시행을 표현하는 확률 변수(random variable)이다. 즉 각 시행을 수행할 때 표본이 모집단의 특성을 반영하도록 잘 선택되면,[혹은 표본 $X_i$의 기대값 $E[X_i]$가 모집단의 산술 평균 $\mu$가 되면] 식 (3)처럼 모집단과 표본 공간의 산술 평균에 대한 기대값은 동일해진다. 모집단에 대한 표준 편차 $\sigma$를 정의하기 위해 분산(分散, variance) $\sigma^2$을 식 (4)처럼 표현한다.
(4)
표본 공간에 대해서는 2개의 분산을 정의할 수 있다.
(5)
(6)
(6)
모집단의 표준 편차는 $s_n$이나 $s$를 이용해서 예측할 수 있다. 이 중에서 나은 추정자(推定子, estimator)는 의외로 $s$이다. 이런 의외의 결과를 베셀의 수정(Bessel's correction)이라 한다. 이를 처음으로 발견한 사람인 베셀Friedrich Wilhelm Bessel(1784–1846)은 우리가 알고 있는 베셀 함수(Bessel function)와 관계있는 천문학자이다. 베셀의 수정을 증명하려면 분산의 성질을 먼저 이해해야 한다. 확률의 기대값 $E[X]$ 관점으로 분산 ${\rm Var}[X]$의 성질을 유도한다.
(7)
(8)
(9)
(10)
(8)
(9)
(10)
여기서 $E[X^2]$은 2차 적률 혹은 모멘트(積率, moment)이다. 식 (9)와 (10)에 등장하는 ${\rm Cov}(X, Y)$는 공분산(共分散, covariance)이다. 공분산은 분산의 일반화로서 두 확률 변수 $X, Y$가 가진 상관 관계(相關關係, correlation)를 표현한다.
(11)
확률 변수 $X$와 $Y$가 독립이면 공분산은 아래와 같이 0이 된다. 즉, 상관 관계가 없다는 뜻이다.
(12)
따라서, 만약 확률 변수 $X_i$가 상호 독립이라면[혹은 $i \ne j$일 때 ${\rm Cov}(X_i, X_j)$ = $0$] 식 (10)은 아래처럼 간단히 표현될 수 있다.
(13)
[베셀의 수정(Bessel's correction)]
각각의 시행을 나타내는 확률 변수 $X_i$가 상호 독립적이며 모집단의 확률적 특성을 동등하게 가진 경우 표본 공간의 표준 편차 $s$에 대한 기대값은 모집단의 표준 편차 $\sigma$와 같아진다.
[증명]
(14)
식 (14)의 증명에서 식 (3)과 (13)을 사용하였고 확률 변수 $X_i$가 가진 평균 $E[X_i]$와 분산 ${\rm Var}[X_i]$는 모집단의 평균 $\mu$와 분산 $\sigma^2$과 같다고 가정하였다.
______________________________
베셀의 수정이 의미하는 바는 분명하다. 표본 공간 평균의 기대값은 모집단의 평균과 동일하지만, 표본 공간의 분산은 자유도가 1만큼 줄어들기 때문에 분산 계산시 -1을 빼주어야 모집단의 분산을 좀더 정확하게 추정할 수 있다. 이는 표본 공간 평균이 표본 자체의 특성을 내포하고 있기 때문에 표본 공간 분산에서는 자유도가 1만큼 줄어듦으로 이해할 수 있다.
평균과 분산에 대한 정의를 이용하여 확률 이론의 재미난 성질인 큰 수의 법칙(law of large numbers)을 증명한다. 1837년푸아송 56세, 조선 헌종 시절에 푸아송 분포(Poisson distribution)를 개발한 푸아송Siméon Denis Poisson(1781–1840)이 큰 수의 법칙도 함께 소개했다[3]. 큰 수의 법칙을 위해 아래 식을 먼저 고려한다.
확률 변수의 분산은 제곱해서 더한 값[항상 양수]이므로, 어떤 확률 변수 $X$의 분산이 0이면 $X$는 반드시 상수가 되어야 한다.[∵ 양수의 합계가 $0$이라면, 더한 개별 양수값은 $0$만 가능하다.] 즉 확률 변수 $X$는 확률적 무작위성의 특성을 잃어버리고 고정된 값만 가질 수 있다.
[큰 수의 법칙(law of large numbers)]
상호 독립적인 확률 변수를 $X_i$라 할 때, 시행 회수 $n$을 증가시키면 $X_i$의 평균 확률 변수 $\bar X_n$은 무작성위성을 잃고 $X_i$의 평균 혹은 기대값($\mu$)에 수렴한다.
(16)
여기서 $\epsilon$은 임의의 매우 작은 양수이다.
[증명]
확률 변수 $X_i$는 확률적으로 동일한 특성을 가지고 있으므로, $X_i$와 관계없이 평균과 분산이 동일하다. 그러면 식 (3)에 의해 평균 확률 변수는 $\mu$가 된다. 분산은 식 (13)에 의해 다음과 같이 표현된다.
(17)
식 (16)과 같이 $n$이 무한대로 가면, 평균 확률 변수의 분산은 0이 된다. 분산이 0이면 확률 변수가 상수[식 (15)에 의해 상수]라는 뜻이므로, 평균 확률 변수는 반드시 상수가 되어야 한다. 즉 평균 확률 변수의 기대값이 $\mu$라서 상수값은 $\mu$가 된다. 따라서 $n$이 무한대로 감에 따라 평균 확률 변수의 존재 범위($|X_n - \mu|$)는 한없이 축소[$\epsilon \to 0$]될 수 있다.
______________________________식 (17)을 표준 편차 관점에서 쓰면, 드 무아브르Abraham de Moivre(1667–1754)가 1718년드 무아브르 51세, 조선 숙종 시절에 발견한 드 무아브르의 방정식(de Moivre's equation) 혹은 표준 오차에 대한 제곱근 규칙(square root law for standard error)이라 부른다[1].
(18)
여기서 표준 오차 $\sigma_{\bar X_n}$은 평균 확률 변수 $\bar X_n$에 대한 표준 오차(standard error) 혹은 표본 공간의 표준 편차를 의미한다. 식 (18)은 식 (6)에 나온 $s$와 구별되어야 한다. 두 식을 꼼꼼하게 비교해보면, 크기 $n$인 표본 공간을 구성하는 $X_i$에 대한 표준 편차 $s$는 표본 평균 $\bar X_n$이 만드는 표준 편차 $\sigma_{\bar X_n}$와 분명히 다르다.
드 무아브르의 방정식은 뉴턴Isaac Newton(1643–1727)의 흑역사중 하나이다[1]. 케임브리지 대학교(Cambridge University)의 종신 교수직을 버리고 1696년뉴턴 53세, 조선 숙종 시절에 왕립조폐국(Royal Mint)의 감사(warden of the Mint)로 임명된 뉴턴은 대주화개혁(大鑄貨改革, Great Recoinage of 1696)을 적극적으로 추진했다. 영국의 대주화개혁은 무게가 제각각인 옛날 동전을 무게가 거의 균일한 새로운 동전으로 대체하는 엄청난 사업이었다. 이 당시 영국에서는 은으로 만드는 동전의 테두리를 깎아서 은을 모으는 부패 행위가 만연했다. 은화의 테두리를 깎는 행위를 막기 위해, 의회는 동전 테두리에 의도적인 굴곡과 글씨까지 넣도록 했다. 하지만 화폐가 유통되는 상황은 더 악화되었다. 테두리에 굴곡이 있는 동전은 은의 가치가 보존되므로 자기가 보관하거나 녹여서 유럽 대륙으로 팔았고, 사람들이 꺼려하는 무게가 가벼워진 동전만 남았다. 말 그대로 악화가 양화를 쫓아냈다. 결국 의회는 이 모든 문제의 근원을 해결하고자 했다. 동전을 만들 때 생기는 무게의 변동성이 문제였으므로, 뉴턴 감사로 하여금 제조 공정을 개선하고 품질 관리도 철저히 해서 무게가 균일한 동전을 생산하게 했다. 뉴턴은 의회의 요구를 성공적으로 실행했다. 다만 동전의 품질 관리에 존재하던 감춰진 문제점은 해결하지 못했다. 예를 들어, 동전의 무게가 100g일 때, 동전 무게의 오차는 100g $\pm$ 1g이라고 정할 수 있다. 생산된 동전이 오차 범위에 들어가는지 전수 조사를 하면 좋지만, 시대가 17세기말이라서 무게를 정확히 재기가 너무 힘들었다. 그래서 표본으로 추출한 동전을 모아서 전체 무게를 잰 후에 평균을 내서 100g $\pm$ 1g 범위에 속하는지만 조사했다. 이 지점에서 표준 오차에 대한 제곱근 규칙이 나와야 하지만, 뉴턴은 그냥 오차 범위 100g $\pm$ 1g를 그대로 고수했다. 이러면 동전 무게의 품질을 정확히 측정할 수 없다. 예를 들어, 동전 100개를 모아서 평균을 낸 측정의 오차 범위는 식 (18)에 의해 100g $\pm$ 0.1g이 되어야 원래 동전의 오차 범위 $\sigma$를 추정할 수 있다. 정상적인 상황에서 뛰어난 수학자인 뉴턴이 간단한 계산만으로도 유도할 수 있는 식 (18)을 놓쳤을 리는 없다. 다만 동전 생산이라는 생업에 지쳐서 고단한 몸으로 현실을 벗어났을 때는 창의성이 생기지 않았으리라. 천하의 뉴턴도 삶의 여유가 없으니까 새로운 생각을 할 수 없었다. 다만, 이런 상황은 동전 통계에만 국한된다. 다른 영역에서 뉴턴의 머리는 팽팽 돌아갔다. 뉴턴 기준으로 근본 없는[∵ 라이프니츠에게 배운 야곱 베르누이의 동생이며 제자가 요한 베르누이. 요한 베르누이는 뉴턴이 뻥쟁이라고 뒷담화를 엄청나게 했다.] 요한 베르누이Johann Bernoulli(1667–1748)가 뉴턴에게 최속 강하선(最速降下線, brachistochrone curve) 문제로 도전한 해가 1696년이다. 오후 네 시 정도에 지친 상태로 조폐국에서 퇴근한 뉴턴은 저녁 식사까지 거르면서 최속 강하선 문제를 고민해 다음 날 새벽 네 시에 기어이 문제를 해결했다. 역시 뉴턴의 지성은 마르지 않는 샘물이었다. 자기의 생업인 동전 생산에서 발생한 통계 문제만을 제외하면 말이다.
[참고문헌]
[1] 닉 폴슨, 제임스 스콧, 수학의 쓸모: 불확실한 미래에서 보통 사람들도 답을 얻는 방법, 더퀘스트, 2020.
[2] 나가노 히로유키(永野 裕之), 다시 확률 통계 - 통계편, 길벗, 2022.
[3] S. D. Poisson, Recherches sur la Probabilité des Jugements en Matière Criminelle et en Matière Civile (Research on the Probability of Judgments in Criminal and Civil Cases), Paris, France, 1837. (In French, 방문일 2024-12-22)
[4] J. Soch, The Book of Statistical Proofs, Zenodo, 2024.
[다음 읽을거리]
안녕하세요, 정말 좋은글 감사드립니다. 분산에서 n-1의 이유가 베셀의 수정인 이유임을 첨 알았습니다!. 얼마전부터 읽기 시작하는데 글은 첨 남겨 봅니다 ^^ 궁금한게 있는데요, 식 (14 )에서 세번째줄에 variance와 뮤의 합과 차로 된 식이 네번째 줄에 시그마^2-variance(1/n*sum(Xi)) 로 변하는지를 잘 모르겠습니다 ;; 답변좀 부탁드립니다ㅠ
답글삭제칭찬 감사합니다, Benjamin Lee님. ^^
삭제1. 조건에서 $X_i$를 잘 뽑는다고 했으므로 ${\rm Var}(X_i) = \sigma^2$입니다.
2. 또한, $\bar X = 1/n \sum_{i=1}^n X_i$이므로 ${\rm Var}(\bar X)$에 대입하면 식 (14)의 네째줄이 얻어집니다.
안녕하세요 오늘 학교에서 친구와 논쟁을 하게 되었는데요. 그 논쟁좀 풀어주세요 ㅠㅠ 말씀드리자면 동전을 500억번 던졌는데 모두 앞면이 나왔어요. 그렇다면 다음 번의 동전이 뒷면이 나올확률은 무엇일까요? 동전을 몇번을 던지던 독립시행이기 때문에 2분의 1이라고 제 친구가 말을했지만 저는 (2분의1)+(0+)라고 생각했거든요. 왜냐면 큰수의 법칙으로 시행을 많이 할수록 수학적확률과 통계적 확률간의 차이가 점점 줄어드는것 아닌가요? 그렇다면 주사위를 매우 많이 던진다면 수학적확률과 통계적 확률간의 차이를 줄이기 위하여 뒷면이 나올 확률이 더 커져야되는거 아닌가요? 하지만 큰수의 법칙을 적용할려면 시행을 무한으로 극한을 취해야되기 때문에 유한의 시행은 영향을 거의 끼치지 않을 것 같습니다. 그래도 그래도 잘은 모르겠지만 왠지 아주 작은 양수 즉, 무한소가 2분의1뒤에 더 붙을거 같은 생각이 들었습니다. 이 생각을 어떻게 표현해야 될지는 모르겠지만 그런 생각이 들었습니다. 제 말이 틀린건가요? 증명도 못하고 추상적으로 생각해봤기 때문에 말도 안되는 소리 같다고도 생각되지만, 왠지 확률 2분의1에 아주아주작은 양수가 더해질것 같습니다. 하지만 그 차이가 없는것이나 다름없기 때문에 2분의1이라고 해도 무방한거 같다는생각도 듭니다.
답글삭제좋은 논쟁을 하셨네요, 익명님. ^^
삭제질문에서처럼 동전 던지기는 독립 시행이기 때문에 앞에 나온 조건과 현재 던지는 조건은 관계없습니다. 뒷면이 나올 확률은 1/2입니다.
식 (16)에 있는 것처럼 큰 수의 법칙은 평균에 대한 얘기입니다. 시행 회수가 늘어나면 동전 던지기의 평균은 1/2에 수렴한다는 뜻입니다.
식 (3)의 두 줄 밑에 괄호안에 표본의 기댓값이 아니고 표본의 산술평균의 기댓값 아닌가요?
답글삭제문제는 없는데요. 변수만 더 추가했어요.
삭제큰 수의 법칙 에서 평균 확률 변수는 Xi의 평균에 수렴한다 는 말이 맞나요? 평균 확률 변수의 기댓값이 Xi의 평균에 수렴한다는 말인가요?
답글삭제그 밑에 증명에서도 평균확률변수가 뮤가 된다는 말이 평균확률변수의 기댓값이 뮤가 된다는 말인데 저렇게 되어 있는 것인지요
아닙니다. 평균 확률 변수의 기대값이 아니고 평균 확률 변수가 상수가 된다는 뜻입니다. 본문을 약간 고쳤어요.
삭제큰 수의 법칙 증명에서 Xi는 확률적으로 동일한 특성을 갖고 있으므로 평균과 분산이 같다고 했는데 하나는 주사위 하나는 동전이어도 상호 독립적인데 어떻게 모든 상호 독립인 확률변수의 평균과 분산이 같다고 가정할 수 있나요?
답글삭제시행 회수를 키우면 주사위와 동전의 평균 확률 변수도 상수로 갑니다.
삭제더 정확한 논증은 중심 극한 정리(central limit theorem)가 필요해요.
이 개념을 이해하려면 확률과 통계를 배워야 알수 있는 건가요?
답글삭제네. 통계를 공부하면서 중심 극한 정리도 찾아보세요.
삭제