2010년 9월 1일 수요일

통계(統計, statistics)



[경고] 아래 글을 읽지 않고 "통계"를 보면 바보로 느껴질 수 있습니다.
1. 확률



[통계 - 그림 기반 표현법(statistics - graphical representation)]

[수치 해석: 플린코(Plinko) 확률(phet.colorado.edu)]

통계학은 자료의 수집, 분석, 예측 등을 다루는 학문이다.
통계가 다루는 전체 집합(universal set)은 모집단(母集團, population)이라 한다. 통계를 위한 모집단은 무엇이든지 될 수 있다. 특히 특정 대상을 시간적으로 관찰하여 모집단으로 삼는 것을 시계열(時系列, time series)이라 한다.
모집단에서 수집한 자료는 표본(標本, sample)이라 한다. 표본 수집이 통계의 시작이며 어떻게 표본을 수집할 것인가 하는 문제는 매우 중요하다. 왜냐하면 표본은 모집단을 대표해야 하지만 현실적으로 어떻게 자료를 수집해야 모집단을 대표할 것인가는 쉽지 않은 문제이기 때문이다. 또한 표본 선택이 잘못되면 모집단의 특성과는 다른 특성이 통계에 나타날 수 있다.
표본들을 모두 모은 집합은 표본 공간(標本空間, sample space)이라 한다. 표본 공간은 모집단의 부분 집합(subset)이다.
모아진 자료를 분석하기 위해 다양한 통계 변량을 정의한다.
대표적인 것이 평균(平均, mean or average)과 표준 편차(標準偏差, standard deviation)이다.
평균은 표본이 상호공평하게 나누어 가질 수 있는 균등값이다. 표준 편차는 평균에서 표본들이 벗어난 정도이다.
평균은 매우 다양하게 정의할 수 있으나 보통 산술 평균이 많이 쓰인다.
모집단에 대한 산술 평균은 식 (1)로 정의한다.

                                   (1)

여기서 $N$은 모집단의 크기이며 $x_i$는 $i$번째 얻어진 표본값이다.
표본 공간에 대한 산술 평균은 식 (1)과 유사하게 아래로 정의한다.

                                   (2)

여기서 $n \le N$. 통계학이 현실에서 제대로 성립하려면 식 (2)가 식 (1)을 적절한 범위내에서 예측할 수 있어야 한다. 이 말은 확률 기대값(expectation value)의 성질을 이용해 아래로 정의할 수 있다.

                (3)

여기서 $X_i$는 $i$번째 시행의 확률 변수(random variable)이다. 식 (3)이 의미하는 바는 각 시행을 수행할 때 표본이 모집단의 특성을 반영하도록 선택하면(or 표본의 기대값이 모집단의 산술 평균이 되면) 모집단과 표본 공간의 산술 평균 기대값은 동일해진다는 것을 의미한다.
모집단에 대한 표준 편차 $\sigma$를 정의하기 위해 분산(分散, variance) $\sigma^2$를 식 (4)로 표현한다.

                                   (4)

표본 공간에 대해서는 2개의 분산을 정의할 수 있다.

                                   (5)

                                   (6)

모집단의 표준 편차는 $s_n$이나 $s$를 이용해서 예측할 수 있다. 이 중에서 나은 추정자(推定子, estimator)는 의외로 $s$이다. 이런 의외의 결과를 베셀의 수정(Bessel's correction)이라 한다. 이를 처음으로 발견한 사람인 베셀(Friedrich Wilhelm Bessel)은 우리가 알고 있는 베셀 함수(Bessel function)와 관계있는 사람이다.
베셀의 수정을 증명하려면 분산의 성질을 먼저 이해해야 한다. 확률의 기대값 $E(X)$ 관점으로 분산 ${\rm Var}(X)$의 성질을 유도하도록 하자.

                                  (7)

              (8)

              (9)

                                  (10)

식 (9)와 (10)에 등장하는 ${\rm Cov}(X, Y)$는 공분산(共分散, covariance)이다. 공분산은 분산의 일반화로서 두 확률 변수 $X, Y$가 가진 상관 관계(相關關係, correlation)를 표현한다.

              (11)

확률 변수 $X$와 $Y$가 독립이면 공분산은 아래와 같이 0이 된다. 즉, 상관 관계가 없다는 뜻이다.

              (12)

따라서, 만약 확률 변수 $X_i$가 상호 독립이라면(or ${\rm Cov}(X_i, X_j) = 0$ when $i \ne j$) 식 (10)은 아래로 간단히 표현될 수 있다.

                                  (13)

[베셀의 수정]
각각의 시행을 나타내는 확률 변수 $X_i$가 상호 독립적이며 모집단의 확률적 특성을 동등하게 가진 경우 표본 공간 표준 편차 $s$의 기대값은 모집단의 표준 편차 $\sigma$와 같아진다.

[증명]

             (14)

식 (14)의 증명에서 식 (3)과 (13)을 사용하였고 확률 변수 $X_i$가 가진 평균 $E(X_i)$와 분산 ${\rm Var}(X_i)$는 모집단의 평균 $\mu$와 분산 $\sigma^2$과 같다고 가정하였다.
______________________________

베셀의 수정이 의미하는 바는 분명하다. 표본 공간 평균의 기대값은 모집단의 평균과 동일하지만, 표본 공간의 분산은 자유도가 1만큼 줄어들기 때문에 분산 계산시 -1을 빼주어야 모집단의 분산을 좀더 정확하게 추정할 수 있다.
이는 표본 공간 평균이 표본 자체의 특성을 내포하고 있기 때문에 표본 공간 분산에서는 자유도가 1만큼 줄어드는 것으로 이해할 수 있다.

평균과 분산에 대한 정의를 이용하여 확률 이론의 재미난 성질인 큰수의 법칙(law of large number)을 증명해 보자. 큰수의 법칙 증명을 위해 아래 식을 먼저 고려하자.

              (15)

분산은 제곱해서 더한 값이므로 어떤 확률 변수 $X$의 분산이 0이 되면 각각의 제곱한 값(양수)이 0이 되어야 하므로 $X$는 반드시 상수가 되어야 한다. 즉, 이 확률 변수는 확률적 무작위성의 특성을 잃어버리고 고정된 값만 가질 수 있다.

[큰수의 법칙]
$X_i$를 상호 독립적인 확률 변수라 할 때 시행 회수 $n$을 증가시키면 $X_i$의 평균 확률 변수는 $X_i$의 평균($\mu$)에 수렴한다. 

              (16)

여기서 $\epsilon$은 임의의 매우 작은 양수이다.

[증명]
$X_i$는 확률적으로 동일한 특성을 가지고 있으므로 $X_i$와 관계없이 평균과 분산은 동일하다.
그러면, 식 (3)에 의해 평균 확률 변수는 $\mu$가 된다. 분산은 식 (13)에 의해

                                  (17)

식 (16)과 같이 $n$이 무한대로 가면 평균 확률 변수의 분산은 0이 된다. 분산이 0이라는 뜻은 해당 확률 변수가 상수라는 뜻(식 (15) 참고)이므로 평균 확률 변수는 반드시 상수가 되어야 한다. 즉, 평균 확률 변수의 기대값이 $\mu$이므로 이 상수는 $\mu$가 된다.
따라서 $n$이 무한대로 감에 따라 평균 확률 변수의 존재 범위($|X_n - \mu|$)는 한없이 축소될 수 있다($\epsilon \to 0$).
______________________________
Enhanced by Zemanta

댓글 4개 :

  1. 안녕하세요, 정말 좋은글 감사드립니다. 분산에서 n-1의 이유가 베셀의 수정인 이유임을 첨 알았습니다!. 얼마전부터 읽기 시작하는데 글은 첨 남겨 봅니다 ^^ 궁금한게 있는데요, 식 (14 )에서 세번째줄에 variance와 뮤의 합과 차로 된 식이 네번째 줄에 시그마^2-variance(1/n*sum(Xi)) 로 변하는지를 잘 모르겠습니다 ;; 답변좀 부탁드립니다ㅠ

    답글삭제
    답글
    1. 칭찬 감사합니다, Benjamin Lee님. ^^

      1. 조건에서 $X_i$를 잘 뽑는다고 했으므로 ${\rm Var}(X_i) = \sigma^2$입니다.

      2. 또한, $\bar X = 1/n \sum_{i=1}^n X_i$이므로 ${\rm Var}(\bar X)$에 대입하면 식 (14)의 네째줄이 얻어집니다.

      삭제
  2. 안녕하세요 오늘 학교에서 친구와 논쟁을 하게 되었는데요. 그 논쟁좀 풀어주세요 ㅠㅠ 말씀드리자면 동전을 500억번 던졌는데 모두 앞면이 나왔어요. 그렇다면 다음 번의 동전이 뒷면이 나올확률은 무엇일까요? 동전을 몇번을 던지던 독립시행이기 때문에 2분의 1이라고 제 친구가 말을했지만 저는 (2분의1)+(0+)라고 생각했거든요. 왜냐면 큰수의 법칙으로 시행을 많이 할수록 수학적확률과 통계적 확률간의 차이가 점점 줄어드는것 아닌가요? 그렇다면 주사위를 매우 많이 던진다면 수학적확률과 통계적 확률간의 차이를 줄이기 위하여 뒷면이 나올 확률이 더 커져야되는거 아닌가요? 하지만 큰수의 법칙을 적용할려면 시행을 무한으로 극한을 취해야되기 때문에 유한의 시행은 영향을 거의 끼치지 않을 것 같습니다. 그래도 그래도 잘은 모르겠지만 왠지 아주 작은 양수 즉, 무한소가 2분의1뒤에 더 붙을거 같은 생각이 들었습니다. 이 생각을 어떻게 표현해야 될지는 모르겠지만 그런 생각이 들었습니다. 제 말이 틀린건가요? 증명도 못하고 추상적으로 생각해봤기 때문에 말도 안되는 소리 같다고도 생각되지만, 왠지 확률 2분의1에 아주아주작은 양수가 더해질것 같습니다. 하지만 그 차이가 없는것이나 다름없기 때문에 2분의1이라고 해도 무방한거 같다는생각도 듭니다.

    답글삭제
    답글
    1. 좋은 논쟁을 하셨네요, 익명님. ^^

      질문에서처럼 동전 던지기는 독립 시행이기 때문에 앞에 나온 조건과 현재 던지는 조건은 관계없습니다. 뒷면이 나올 확률은 1/2입니다.

      식 (16)에 있는 것처럼 큰 수의 법칙은 평균에 대한 얘기입니다. 시행 회수가 늘어나면 동전 던지기의 평균은 1/2에 수렴한다는 뜻입니다.

      삭제

욕설이나 스팸글은 삭제될 수 있습니다. [전파거북이]는 선플운동의 아름다운 인터넷을 지지합니다.