2011년 9월 2일 금요일

재미나는 정보량의 정의(definition of information content)


[경고] 아래 글을 읽지 않고 "정보량의 정의"를 보면 바보로 느껴질 수 있습니다.
1. 확률


[정보기술의 아버지: 섀넌]

통신이론(communication theory)의 기반을 이루는 정보이론(information theory)은 식 (1)과 같은 단순한 공식으로 시작한다.

                       (1)

여기서 E는 어떤 사건(event)이며 p(E)E가 일어날 확률(probability)이다.
식 (1)은 섀넌(Claude Elwood Shannon)이 제안한 정보량(information content)의 정의이다[1]. 단순한 로그함수(logarithmic function)로 구성된 정보량을 기반으로 통신이론의 감초인 식 (2)의 섀넌-하틀리 정리(Shannon-Hartley theorem)[1]를 유도할 수 있다는 것은 수학의 위대한 힘을 보여준다.

                       (2)

여기서 C는 채널용량(channel capacity), B는 대역폭(bandwidth), S/N은 신호대잡음비(SNR: Signal to Noise Ratio)이다. 섀넌이 천재라 불리고 위대한 점은 비트라는 말이 거의 처음 생겼을 때(1943년 즈음 투키(John Wilder Tukey)가 제안) 이미 장래의 정보기술(IT: information technology)에 필요한 거의 모든 이론을 이미 완성했다는 것이다. 이게 1948년의 일(논문을 완성한 것은 1944년)이다[1].

[그림 1] 영국산 불독(출처: wikipedia.org)

식 (1)을 섀넌이 정의한 방법을 생각해보자. 조금만 생각해보면 알지만 바로 스무고개(twenty questions)이다. 답을 찾기 위해 예, 아니오만 답할 수 있는 질문을 하여 특정 사물을 찾아내는 놀이가 바로 스무고개이다. 예를 들어 내가 생각하는 답이 [그림 1]과 같이 '개'인 경우 상대방은 아래와 같은 질문을 해서 답을 맞출 수 있다.
  • 살아있는 것입니까? 예 → 생물이군.
  • 식물입니까? 아니오 → 동물이군.
  • 집에서 키우는 것입니까? 예 → 가축이군.
  • 새끼를 낳습니까? 예 → 포유류군.
  • 어린이보다 키가 작은가요? 예 → 개나 고양이군.
  • 개입니까? 예, 맞았습니다.
이런 질문을 통해 '개'라는 답을 찾은 경우 이 답의 정보량은 얼마인가? 여기에 대한 수학적인 답을 한 것이 식 (1)이다. 예, 아니오만 답할 수 있다는 것은 이진수(binary number)인 비트(bit: binary digit)를 의미한다. 위에 제시한 스무고개에서 6번의 질문만에 답을 맞추었으므로 정보량은 6 [bits]가 된다.
이 개념을 일반화 시켜보자. 어떤 사건이 발생하고 이 사건의 정보량을 알기 위해서는 스무고개를 해야한다. 어떤 사건이 자주 일어난다면 몇 번 질문할 필요없이 쉽게 답을 맞출 수 있고 아주 드물게 일어난다면 많은 질문을 해야 답을 찾을 수 있다. 그래서, 섀넌도 답을 얻기 위해 예/아니오 질문을 하는 평균회수를 정보량으로 정의했다.
예를 들어 '개'는 흔한 동물이름이기 때문에 스무고개에 등장하면 쉽게 답을 맞출 수 있지만 내가 생각하는 답이 '운운셉튬(Ununseptium)'이라면 답을 맞추기가 매우 어렵다.
그래서, 정보량이라는 개념은 희소성(rareness), 놀라움(surprisal), 불확실성(uncertainty), 무작위성(randomness)과 밀접한 관계가 있다. 이것과 함께 확률의 초보적 정의를 보자.

                                    (3)

여기서 N은 일어날 수 있는 모든 경우의 수(or 전사건(全事件, total event)의 갯수), n은 사건 A가 발생하는 경우의 수이며, 모든 사건은 공평하게 발생한다고 가정했다. 식 (3)에서 n이 작어질수록 희소성이 있으며 놀라우며 불확실성이 증가한다는 것을 알 수 있다.
식 (3)을 식 (1)에 대입하여 보기 편한 형태로 만들자.

                                    (4)

즉, 스무고개와 마찬가지로 [그림 2]와 같이 예/아니오를 통해(or 이분법을 통해) 나눌 수 있는 가지수(or 비트수)를 정보량으로 정한 것이다.

[그림 2] 트리(tree) 구조(출처: wikipedia.org)

[참고문헌]
[1] C. E. Shannon, "A Mathematical Theory of Communication", Bell System Tech. J., vol. 27, pp. 379–423, 623-656, July, Oct. 1948.
Enhanced by Zemanta

댓글 2개 :

  1. 정보이론쪽 글은 이제 안올리시나요??

    답글삭제
    답글
    1. 통신쪽 글을 쓸 때는 식 (2)를 처음부터 끝까지 엄밀하게 증명하는 것이 목표였는데요, 요즘 시간이 안 나서 못 하고 있어요. 언젠가 기회가 되겠죠.

      삭제

욕설이나 스팸글은 삭제될 수 있습니다. [전파거북이]는 선플운동의 아름다운 인터넷을 지지합니다.