2022년 2월 19일 토요일

엔트로피로 불리는 평균 정보량(Entropy as Mean Information Content)

[경고] 아래 글을 읽지 않고 "엔트로피로 불리는 평균 정보량"을 보면 바보로 느껴질 수 있습니다.


[그림 1] 동전 던지기의 확률 변수 $X$에 대한 엔트로피 $H(X)$(출처: wikipedia.org)

사건 확률을 정의한 다음에 평균(mean)을 써서 특정 사건 $E$의 특성을 정량화하는 방식처럼, 정보량 $I(X)$를 가지고 평균을 구하고 이를 정보의 엔트로피(entropy) $H(X)$로 이름 붙인다.

                          (1)

여기서 $X$는 사건 $E$의 이산 확률 변수(discrete random variable)이며 그 확률은 $p_i$ = $\operatorname{Pr}[X=x_i]$, $h(p)$는 확률 $p$에 대한 엔트로피 성분(entropy component)이다. 엔트로피에 $H$를 쓴 이유는 에타(eta) $\eta$의 대문자가 H이기 때문이다.
우리가 통신을 하는 목적은 정보원(information source)에서 많은 정보를 얻기 위함이다. 정보량은 확률과 로그 함수로 쉽게 정의하지만, 정보량만으로 최대 정보를 얻는 방법을 고안하기는 어려워서 식 (1)로 만든 엔트로피를 사용한다. 예를 들면, 정보원이 가진 원천 알파벳(source alphabet) $S$의 기호(symbol) $s_i$의 발생 확률을 조정해서 엔트로피 $H(S)$가 최대가 되도록 부호화를 하면, 수신원에서 최대의 정보를 획득할 수 있다. 여기서 원천 알파벳은 $S$ = $\{s_1, s_2, \cdots \}$처럼 정보원이 쓰는 기호를 모두 모은 집합이다. 식 (1)처럼 엔트로피는 평균 정보량(mean information content)이기 때문에, 평균 정보량이 최대가 되도록 원천 알파벳을 구성하면 수신원은 평균적으로 많은 정보를 정보원으로부터 얻을 수 있다.
평균 정보량의 최대값으로부터 평균 정보량을 물리학의 엔트로피로 부르는 이유를 파악할 수 있다. 

[참고문헌]
[1] C. E. Shannon, "A mathematical theory of communication", Bell System Tech. J., vol. 27, pp. 379–423, 623–656, Jul., Oct. 1948.

댓글 없음 :

댓글 쓰기

욕설이나 스팸글은 삭제될 수 있습니다. [전파거북이]는 선플운동의 아름다운 인터넷을 지지합니다.