2024년 7월 1일 월요일

로렌츠 진동자 모형(Lorentz Oscillator Model)

[경고] 아래 글을 읽지 않고 "로렌츠 진동자 모형"을 보면 바보로 느껴질 수 있습니다.

[확인] 본 페이지는 exp(-iωt)와 exp(jωt) 시간 약속을 둘 다 사용하고 있습니다.


[그림 1] 로렌츠 진동자 모형으로 근사화한 복소 유전율(출처: wikipedia.org)

원자(atom)의 내부 구조를 모르던 시절에 나온 로렌츠 진동자 모형(Lorentz oscillator model)은 전자(electron)와 양성자(proton) 간의 전기력만 이용한 이론화인데도 유전율(permittivity) $\epsilon$의 주파수 변동성을 잘 설명한다[1]. 로렌츠 진동자 모형은 전기력, 훅의 법칙(Hooke's law), 견인 계수(drag coefficient) $\gamma$가 전자에 함께 작용한다고 생각해서 뉴턴의 운동 법칙(Newton's law of motion)을 적용한다.

                  (1)

여기서 $\bar r$은 양성자를 원점으로 정한 전자의 위치, $\bar E$는 전기장(electric field), $m_e$와 $e$는 각각 전자의 질량과 전하량, $k$는 용수철 상수(spring constant); 견인 계수 $\gamma$는 손실(loss)을 설명하며 전자의 평균 자유 시간(mean free time) $\tau$에 대한 역수인 $\gamma$ = $1/\tau$이다. 견인 계수 기호로 $\gamma$ 대신 대문자인 $\Gamma$를 쓰는 경우도 있다.
전자가 만드는 분극 밀도(polarization density)를 $\bar P$ = $-n_e e \bar r$로 두고 식 (1)을 변형한다.

                  (2)

여기서 $n_e$는 단위 부피당 존재하는 전자 개수인 전자 농도(electron concentration)이다. 드루데 모형(Drude model)으로 유도한 전기 전도도 $\sigma$를 써서 식 (2)를 간단히 표현한다.

                  (3)

여기서 $\sigma$ = $n_e e^2 \mathbin{/} (\gamma m_e)$, 진동자(oscillator)의 공진 각주파수(resonant angular frequency)는 $\omega_0$ = $\sqrt{ k / m_e}$이다.


   1. exp(-iωt) 시간 약속   

전기장과 전자의 위치는 주기성이 있다고 가정해 페이저(phasor) 기반으로 $\bar E$ = $\bar {\bf E}(\omega) e^{-i \omega t}$, $\bar r$ = $\bar {\bf r}(\omega) e^{-i \omega t}$로 둘 수 있다. 이를 식 (1)에 대입해서 $\bar {\bf r}(\omega)$를 구한다.

                          (1.1)

외부 전기장에 의해 양성자에서 멀어진 전자는 전기 쌍극자 모멘트(electric dipole moment) $\bar {\bf p}(\omega)$를 형성한다.

                          (1.2)

체적 $V$에 존재하는 $N$개의 전기 쌍극자 모멘트는 모두 같은 방향을 향한다고 간략화함으로써 분극 밀도 $\bar {\bf P}(\omega)$를 쉽게 얻는다.

                          (1.3)

여기서 $n_e$ = $N/V$는 전자 농도(electron concentration), 플라즈마 각주파수(plasma angular frequency)는 $\omega_p$ = $\sqrt{n_e e^2 \mathbin{/} (m_e \epsilon_0)}$, $\chi_e (\omega)$는 전기 감수율(electric susceptibility)이다. 전기장이 생성하는 물질 내부의 분극 밀도를 알기 때문에, 구성 관계식(constitutional relation)을 써서 주파수에 따라 변하는 복소 유전율(complex permittivity) $\epsilon(\omega)$를 공식화한다.

                          (1.4)

여기서 $\chi_e(\omega)$ = $\chi_e'(\omega) + i \chi_e''(\omega)$이다. 공진 주파수 $f_0$ = $\omega_0 \mathbin{/} (2 \pi)$는 수십 THz 이상으로 매우 높고 다수의 공진이 생길 수 있기 때문에, 실제 측정 결과를 보정하는 공식은 식 (1.4)를 더 일반화해서 사용한다.

                          (1.5)

여기서 $\epsilon_\infty$는 무한대에서 측정한 유전 상수[이론적으로는 1이지만 실험에서는 1이상 나옴], $f_j$는 $j$번 공진의 가중치, $N_r$은 공진 개수이다. 식 (1.5)에서 $s_j$ = $\omega_p^2 f_j$, $\Gamma_j$ = $\gamma_j$로 쓰기도 한다.
복소 유전율 대신 광학 전도도(optical conductivity)에 로렌츠 진동자 모형을 쓰기도 한다. 광학 전도도는 전기 전도도(electrical conductivity)를 광학 영역으로 일반화한 지표이다. 복소 유전율에서 정의한 손실 탄젠트(loss tangent)를 전기 전도도 형태로 바꾸어서 광학 전도도 $\sigma(\omega)$를 정의한다. 그래서 광학 전도도는 광학 영역에서 물질에 흡수되는 양과 관련된다.

                          (1.6)

여기서 주파수가 매우 커지면 광학 전도도는 0에 수렴한다.[∵ $\epsilon(\omega)$는 $1/\omega^2$ 비율로 작아진다.]


   2. exp(jωt) 시간 약속   

[그림 2.1] RLC 직렬 공진 회로(출처: wikipedia.org)

독특하게 생긴 로렌츠 진동자 모형을 [그림 2.1]에 보인 전기 회로의 RLC 직렬 공진 회로(series resonant circuit)로 등가화해 상상할 수 있다[2]. 분극 전류 밀도(polarization current density) $\bar J_p$ = $d \bar P / dt$를 식 (3)에 대입한다.

                  (2.1)

식 (2.1)에 $e^{j \omega t}$ 시간 약속을 가진 페이저를 적용한다.

                  (2.2)

여기서 $LC$ = $1/\omega_0^2$이다. 식 (2.2)는 기존 운동 방정식인 식 (1)을 RLC 직렬 공진 회로로 단순히 바꾼다는 측면이 있지만, 당연히 RLC가 가진 물리적 성질에 기반을 두고 있다. 먼저 유도 용량(inductance) $L$은 전류의 관성과 관계되므로, 전자의 관성 질량(inertial mass)인 $m_e$는 $L$과 연결된다. 역수 $1/C$는 일래스턴스(elastance)이므로 용수철의 탄성 비율에 해당한다. 식 (2.2)에 임피던스(impedance) $\bf Z$를 정의해서, RLC 직렬 공진 회로의 $\bar {\bf J}_p (\omega)$를 구한다.

                  (2.3)

다음 단계로 분극 전류 밀도를 분극 밀도와 전기장으로 바꾸어서 전기 감수율 $\chi_e(\omega)$를 얻는다.

                          (2.4)

이때 로렌츠 진동자 모형에 저장되는 에너지 밀도는 $L, C$에 대해 $u_m, u_e$로 각각 정의한다. 여기서 $u_m$은 관성 질량 $m_e$에 의한 운동 에너지(kinetic energy) 밀도, $u_e$는 용수철과 관계된 위치 에너지(potential energy) 밀도이다.

                  (2.5)

여기서 $u_t$는 전체 에너지 밀도이며 0보다 크거나 같다. 시스템에 저장된 에너지 밀도인 식 (2.5)의 마지막식을 보면, 리액턴스의 주파수 변화율은 항상 0보다 커야 한다. 이 결과는 잘 알려진 포스터의 리액턴스 정리(Foster's reactance theorem)로도 예측 가능하다. 최종적으로 식 (2.5)의 $u$를 가지고 로렌츠 진동자 모형에 저장된 전기장의 에너지(energy of electric field) $W_e$를 공식화한다.

                  (2.6)

회로량 $R, X$를 포함한 식 (2.6)을 매질 특성인 유전율의 관계식으로 변형하기 위해 $\chi_e'$의 미분을 고려한다.

                  (2.7)

저손실(low loss) 혹은 공진(resonance)을 벗어난 조건, $R \ll |X|$에서 항 $R/X$를 무시한 식 (2.7)을 식 (2.6)에 대입한다[2].

                          (2.8a)

여기서 $\epsilon'$ = $\epsilon_0 (1 + \chi_e')$이다. 저항 $R$ = $0$인 때, 식 (2.8a)는 근사식이 아닌 등식이 된다. 어떤 크기의 체적 $v$를 선택하든지 저장된 에너지 $W_e$는 0보다 커야 하므로,[∵ 식 (2.6)에서 $dX/d\omega > 0$] 저손실 혹은 비공진(nonresonance) 가정에서 유전율 실수부의 주파수 특성은 다음 부등식을 따른다.

                          (2.8b)

하지만 직렬 공진(series resonance)에 가까운 대역에서 $X \approx 0$이 발생하기 때문에, 공진 주파수의 근방에서 식 (2.7)의 매질 기울기 $d (\omega \chi_e') \mathbin{/} d\omega$는 0보다 작아진다. 물론 공진 주파수를 벗어난 지점에서는 식 (2.8b)가 잘 성립한다.


[참고문헌]
[1] T. Hirosige, "Origins of Lorentz' theory of electrons and the concept of the electromagnetic field," Hist. Stud. Phys. Sci., vol. 1, pp. 151–209, Jan. 1969.
[2] R. E. Collin, Foundations for Microwave Engineering, 2nd ed., New York, NY, USA: Wiley-IEEE Press, 2001, pp. 33–39.

2024년 6월 25일 화요일

위너–킨친 정리(Wiener–Khinchin Theorem)

[경고] 아래 글을 읽지 않고 "위너–킨친 정리"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 스펙트럼 분석기(spectrum analyzer)에 나타난 잡음 모습(출처: wikipedia.org)

열 잡음(thermal noise)처럼 시간에 따라 무작위(randomness)로 나오는 물리 현상을 분석하는 도구로 매우 유명한 확률 과정(random process) 혹은 추계 과정(stochastic process)이 있다. 확률 과정은 확률을 측정하는 확률 실험(random experiment)에 의해 도출되는 확률 변수(random variable)를 나열해서 구성한다. 나열되는 순서는 보통 시간을 따르기 때문에, [그림 1]처럼 시간에 따라 무작위로 변하는 확률 변수[그림 1에서 전력 분포]의 모임을 확률 과정이라 한다. 시간 대신 다른 매개변수[예를 들어 시행 순서, 저장 위치 등]의 차례를 가정하더라도, 이 순서의 변화는 확률 과정에 속한다. 전기 회로에 자주 나오는 잡음 전압(noise voltage)을 예로 보면, 오랜 시간 관찰한 잡음 전압은 평균(mean)이 거의 0 V이고, 표준 편차(standard deviation)는 온도에 따라 비례적으로 커지는 확률 과정이다.

[그림 2] 시간에 따른 입자의 위치 변동(출처: wikipedia.org)

물위에 떠있는 꽃가루의 움직임 같은 브라운 운동(Brownian motion)은 확률 과정의 또 다른 예가 된다. [그림 2]처럼 입자는 시간에 따라 무작위로 이동하지만, 이동 평균(moving average)은 대충 $x$ = $0$에 가깝고, 분산(variance)에 해당하는 이동 위치의 제곱은 0이 아닌 값을 가진다. 따라서 [그림 2]와 같은 브라운 운동은 확률 실험의 결과물인 표본 $s$에서 확률 변수 $X_{t, s}$ 혹은 $X(t, s)$를 시간 $t$ = $t_i$ 순서로 나열하는 확률 과정 $\{X_{t, s}\}$ 혹은 $\{X(t, s)\}$로 설명할 수 있다. 확률 실험의 표본이 하나라면 굳이 $\{X_{t, s}\}$로 표기하는 대신 간략화한 $\{X_{t}\}$ 혹은 $\{X(t)\}$를 사용한다. 시간마다 확률 변수를 완전히 바꾸면 이론화가 너무 어려워져서, 시간에 따라 $X_t$는 계속 바뀌지만 확률 분포(probability distribution)는 모든 시간에서 하나의 확률 변수 $X$의 함수로 생성된다고 가정한다. 이 경우를 확률 과정의 정상성(定常性, stationarity) 혹은 정상 확률 과정(stationary random process)으로 부른다.
정상성을 관찰하는 시간 범위를 축소해서, 안정 상태(steady state)처럼 $t$ = $0$에서 $\tau$까지 관찰한 결과가 이후 시간에도 특점 시점 $t_1, t_2$에 관계없이 계속 반복된다는 병진 대칭(translational symmetry)을 가진 정상성도 정의한다. 즉, 이런 확률 과정은 $t_1, t_2$가 아닌 $\tau$ = $t_2 - t_1$의 병진 대칭성을 가진다. 이는 기존 정상성의 범위를 넓히거나 약화시킨 추상화라서 광의 정상성(wide-sense stationarity, WSS) 혹은 약의 정상성(weak-sense stationarity)으로 명한다. 시작 시간을 자유롭게 선택하며 관찰 시점을 임의 $n$개로 넓혀도 병진 대칭성이 있다는 정상성은 엄격 정상성(strict stationarity) 혹은 강한 정상성(strong stationarity)으로 구분한다. 광의 정상성은 킨친Aleksandr Khinchin(1894–1959)이 제안한 중요한 확률 개념이다. 이외에도 킨친은 확률 변수를 써서 확률 과정의 수학적 정의도 내렸다.
확률 지식에 기반해서 엄격 정상성과 광의 정상성을 각각 정의한다.

                          (1a: 광의 정상성, $\tau$ = $t_2 - t_1$)

                          (1b: 엄격 정상성)

                          (1c: 두 시점의 엄격 정상성)

여기서 $\operatorname{Cov}(X, Y)$는 공분산(covariance), $E[X]$는 기대값(expectation), 평균 $\mu_X$와 분산 $\operatorname{Var}[X]$ = $\sigma_X^2$은 유한; $F_X(\cdot)$는 $\{X_t\}$의 결합 확률 분포(joint probability distribution)로 만든 누적 분포 함수(cumulative distribution function)이다. 각 $n$개 시점의 결합 확률 분포에 대해, 시간의 병진 대칭성을 보장하는 혹은 동일한 경과 시간 $\tau$에서 각 시점의 결합 확률 분포가 보존되는 엄격 정상성은 평균과 공분산 조건만 가진 광의 정상성보다 확률 기준으로 더 엄격하고 강력하다.
공분산 대신 신호 처리에 많이 쓰는 자기 상관(autocorrelation) 함수로 식 (1a)를 대신할 수 있다. 먼저 시간 평균(time average)을 이용해 확률 변수 $X$에 대한 자기 상관 함수 $\rho_{XX}(t_1, t_2)$와 자기 공분산(auto-covariance) 함수 $K_{XX}(t_1, t_2)$를 정의한다. 다만 시간 평균 $\langle X \rangle$와 기대값 $E[X]$가 동일하다는 가정이 필요하다.[이를 에르고드 성질(ergodicity)이라 부른다.]

                          (2: 시간 평균)

                          (3a: 엄격 정상성)

여기서 $\langle X \rangle$는 $X$의 시간 평균이다. 시간 평균은 각 시간에 확률 변수가 발생하는 확률이 $1/T$로 동일하다고 가정하고 계산한 평균이다.[식 (2)에 나온 $1/T$을 시간별 발생 확률로 생각해도 된다.] 광의 정상성에서는 시간차 $\tau$ = $t_2 - t_1$로 자기 상관과 공분산을 쓸 수 있어서 식 (3a)가 간략화된다.

                          (3b: 광의 정상성)

여기서 $K_{XX}(0)$ = $\sigma_X^2$이다. 따라서 광의 정상성에서는 시점에 무관하게 공분산이 같다는 조건이나 간편한 자기 상관 함수 $\rho_{XX}(\tau)$를 쓸 수 있다.
확률 과정 $x(t)$를 위해 정의한 자기 상관 함수 $\rho_{XX}(\tau)$와 광의 정상성 개념을 합쳐서, 간단하지만 심오한 정리인 위너–킨친 정리(Wiener–Khinchin theorem)를 만든다[1]. 증명에 앞서 관측 시간 $T$에서만 적분해서 만드는 절단된 푸리에 변환(truncated Fourier transform)을 정의한다.

                        (4a)

이 푸리에 변환의 크기 $|F_T(\omega)|$를 제곱하고 $T$로 나누어서 전력 스펙트럼 밀도(power spectral density) $S(\omega)$를 계산한다.

                       (4b)

여기서 $|F_T(\omega)|^2$은 에너지 스펙트럼 밀도(energy spectral density)이다. 이상을 종합해서 위너–킨친 정리를 유도한다.

[위너–킨친 정리] [1]

                       (5a)

                       (5b)

여기서 $X_T(\omega)$는 확률 과정 $x(t)$의 절단된 푸리에 변환이다.

[증명]
확률 과정 $x(t)$의 절단된 푸리에 변환 $X_T(\omega)$는 새로운 확률 변수가 된다.

                       (6a)

식 (6a)를 에너지 스펙트럼 밀도로 만들어서 시간 평균을 적용한다.

                       (6b)

식 (6b)에 나온 마지막식에 병진 대칭성에 대한 이중 적분식을 응용해서 단일 적분으로 바꾼다.

                       (6c)

여기서 $u$ = $t + \tau$이다. 시간 구간 $T$를 무한대로 보내면, 피적분 함수에 있는 $|\tau|/T$는 0으로 수렴하기 때문에 식 (5a)가 얻어진다. 식 (5b)는 식 (5a)의 푸리에 역변환(inverse Fourier transform)이다.
______________________________

식 (5b)에 $\tau$ = $0$을 대입하면, 위너–킨친 정리 방식의 파르세발의 정리(Parseval's theorem)가 얻어진다.
위너–킨친 정리를 이용해서 확률 과정인 잡음 전압(noise voltage) $v(t)$의 특성을 분석할 수 있다. 잡음이 생기는 전기 회로에 대한 확률 실험에서 적당한 표본을 선택해 시간 $T$ 동안 수집한 $v(t)$는 다음과 같다.

                       (7a)

여기서 $\omega_m$ = $2 \pi m \mathbin{/} T$; 진폭 $a_m, b_m$은 광의 정상성을 만족하며 실수인 확률 변수, $v(t)$는 푸리에 급수(Fourier series)로 공식화, 잡음 $v(t)$의 시간 평균값은 0이다. 식 (7a)로 구성한 자기 상관 함수는 다음과 같다.

                  (7b)

위너–킨친 정리에 따라 식 (7b)를 푸리에 변환함[식 (5a)의 결과]으로써 잡음 전압이 가진 전력 스펙트럼 밀도 $S(\omega)$를 계산한다. 이 밀도를 식 (5b)처럼 적분해서 잡음 전력(noise power) $P_\text{tot}$를 얻는다.

                       (7c)

다만 $P_\text{tot}$는 한 번의 확률 실험에서 구한 값이므로, 다른 실험을 무한히 반복해서 얻은 잡음 전력의 기대값(expectation) $E[P_\text{tot}]$를 최종적으로 계산한다.

                       (8a: 앙상블 평균)

                       (8b)

여기서 $s_i$는 확률 실험의 $i$번째 표본, 광의 정상성으로 인해 $a_m, b_m$이 따르는 분산은 $\sigma_m^2$으로 동일하다.[∵ 사인과 코사인 함수는 위상 지연만 차이나므로, 광의 정상성이라서 시간에 대한 병진 대칭성이 있는 $a_m, b_m$의 확률적 특성은 같다.]

[그림 3] 여러 악기로 구성하여 연주하는 모임인 앙상블(출처: wikipedia.org)

식 (8a)는 시간을 붙박이로 놓고 표본의 평균을 구한 기대값이며 앙상블 평균(ensemble average)으로 부른다. 앙상블 혹은 총체(總體, ensemble)는 확률 실험으로 나올 수 있는 모든 결과물의 모임이다. 표본을 고정한 식 (2)의 시간 평균과 시간을 고정한 식 (8a)의 앙상블 평균이 같은 경우는 에르고드 성질(ergodicity)이라 이름 붙인다. 에르고드는 통계 역학(statistical mechanics)을 발명한 볼츠만Ludwig Boltzmann(1844–1906)이 고대 그리스어 에르곤(일, 물체, ἔργον, work, thing)오도스(경로, ὁδός, path)를 합쳐서 만든 용어이다. 어원적으로 보면 에르고드는 사물이 지나는 길인 물체 경로를 의미한다. 에르곤에는 협회(guild)란 의미도 있어서, 에로고드를 물체 집단이 움직이는 전체 경로로 개념을 확장해 집단 경로로 의역해도 된다. 에르고드 성질을 가진 체계인 에르고드 시스템(ergodic system)에서는 시간적으로 오랫동안 특성을 관찰할 필요 없이, 정상 확률 과정 하나를 선택해서 평균과 같은 통계적 처리로 시간적 변화를 추계해도 된다.

[참고문헌]
[1] C. Jayaprakash, "Wiener-Khinchin theorem," Ohio State University, OH, USA. (방문일 2024-06-24)

2024년 6월 15일 토요일

채널 용량과 정보 전송의 한계(Channel Capacity and Limit of Information Transmission)

[경고] 아래 글을 읽지 않고 "채널 용량과 정보 전송의 한계"를 보면 바보로 느껴질 수 있습니다.


[그림 1] 신호대 잡음비(signal-to-noise ratio, SNR)에 대한 채널 용량(channel capacity)의 변화(출처: wikipedia.org)

통신이 이루어지는 경로인 채널(channel)을 통과하는 정보 전송(information transmission) 속도의 최대값인 채널 용량(channel capacity) $C$는 모든 디지털 및 아날로그 통신의 전송 한계를 규정한다. 통신의 중요한 지표인 채널 용량은 이산 채널(discrete channel)을 기준으로 통신을 지배하는 개념인 시스템 상호 정보(system mutual information) $I(X; Y)$의 최대값으로 정의한다.

                          (1)

여기서 $X$와 $Y$는 송신 및 수신 기호(Tx & Rx symbols)의 확률 변수(random variable), 시스템 상호 정보 $I(X; Y)$는 잡음이 있는 채널의 연결도[단위: 비트(bit)], $p(x_i)$는 송신 기호 $x_i$의 발생 확률이다. 송신 기호 $x_i$가 발생 확률 $p(x_i)$로 생기면, 채널 확률(channel probability) $p_{ji}$ = $p(y_j | x_i)$에 따라 수신 기호 $y_j$는 $p_{ji} p(x_i)$ 비율로 들어온다. 따라서 채널 용량을 규정하는 항목은 $x_i$의 발생 확률 $p(x_i)$와 채널 천이 행렬(channel transition matrix)이다. 채널 용량의 단위는 상호 정보 혹은 엔트로피와 동일하게 비트(bit)이지만, 이는 정보 전송을 맛깔나게 표현하지 못해서 너무 밋밋하다. 그래서 보낸 기호당 비트수(bit per symbol sent)인 bit/symbol이 채널 용량의 단위로 자주 사용된다. 이 경우 보낸 기호(symbol sent)를 기준으로 정의한 이산 채널의 채널 용량임을 강조하기 위해 $C$ 대신 $C_s$를 쓰기도 한다.

[그림 2] 이진 대칭 채널(binary symmetric channel, BSC)에서의 정보 전송(출처: wikipedia.org)

이산 채널의 채널 용량을 구하기 위해 가장 간단한 이산 채널인 [그림 2]의 이진 대칭 채널(binary symmetric channel, BSC)을 고려한다. 송수신에서 잡음(noise)에 의해 비트가 바뀌는 확률인 교차 확률(crossover probability) $p$를 강조해서 [그림 2]의 구성을 $\text{BSC}_p$로 부른다. 이런 BSC의 채널 천이 행렬 ${\bf T}(Y|X)$는 매우 단순하다.

                          (2)

여기서 $p$는 교차 확률, $q$ = $1-p$는 정상 확률이다. 식 (2)로 기술되는 $\text{BSC}_p$의 채널 용량 $C_\text{BSC}$를 유도한다. 먼저 수신 기호 $y_j$의 엔트로피(entropy) $H(Y)$와 선험적 조건부 엔트로피(a priori conditional entropy) 혹은 잡음 엔트로피(noise entropy) $H(Y|X)$를 계산한다.

                          (3a: 이진 엔트로피 함수)

                          (3b)

                          (3c)

                          (3d)

여기서 송신 기호 $x_i$를 보내는 확률은 $a_0$ = $p(x_0)$, $a_1$ = $p(x_1)$; ${\bf T}(Y|X)$로 얻은 수신 기호 $y_j$를 받는 확률은 $b_0$ = $p(y_0)$, $b_1$ = $p(y_1)$; $a_0 + a_1$ = $1$, $b_0 + b_1$ = $1$이다. 식 (3d)에서 보듯이 선험적 조건부 엔트로피는 채널 잡음에 의해 발생되는 교차 확률 $p$만의 함수라서 잡음 엔트로피란 명칭이 적절하다. 식 (3c)에서 식 (3b)를 빼면 BSC의 시스템 상호 정보가 식 (3a)의 이진 엔트로피 함수(binary entropy function)로 공식화된다.

                          (4a)

잡음 엔트로피 $H_b(p)$는 교차 확률 $p$만의 함수이기 때문에, BSC의 채널 용량은 $a_0$을 바꿀 때 $H_b(b_0)$의 최대값으로 결정한다.

                          (4b)

여기서 $a_0$ = $1/2$에서 $b_0$ = $1/2$이 나와서 $H_b(b_0)$는 최대값 1비트를 가진다.
연속 채널(continuous channel)의 채널 용량은 적분을 쓰는 연속 엔트로피(continuous entropy) $H_c(X)$를 사용하기 때문에 증명 과정이 난해하다. 다행히 통신 채널에 존재하는 잡음이 가법적 백색 가우스 잡음(additive white Gaussian noise, AWGN)일 때는 얻어지는 채널 용량 관계식이 간단해지며, 이 공식은 섀넌–하틀리 정리(Shannon–Hartley theorem)로 알려져있다. AWGN은 다음과 같은 성질로 인해 통신 이론에 가장 많이 쓰인다.
  • AWGN의 평균 $\mu$는 0, 분산 $\sigma^2$은 잡음 전력(noise power) $N$: $\mu$ = $0$, $\sigma^2$ = $N$
  • 시간 영역(time domain)에서 잡음의 확률 밀도 함수(probability density function, PDF) $p_X(x)$는 정규 분포(normal distribution)를 따름: $p_X(x)$ = $1 / (\sqrt{2 \pi} \sigma) \cdot e^{-x^2/(2 \sigma^2)}$
  • 열 잡음(thermal noise)처럼 AWGN은 모든 주파수에 걸쳐있고[색깔 기준으로 모든 색의 합인 흰색이며] 잡음 전력은 $N$ = $k_B TB$, $k_B$는 볼츠만 상수(Boltzmann constant), $T$는 절대 온도(absolute temperature), $B$는 수신기의 대역폭
  • 아날로그 신호의 확률 변수 $X$와 잡음의 확률 변수 $W$는 독립적으로 더해져서 출력 신호의 확률 변수는 $Y$ = $X+W$로 표현; $X, W$는 통계적으로 독립이므로 출력 전력은 $S+N$으로 나옴, 여기서 $S$는 입력 신호의 전력
여기에 더해서 독립인 송신 기호를 동시에 채널로 전송할 때의 전체 채널 용량은 각 송신 기호에 대한 채널 용량의 합으로 간략화된다. 

[독립인 송신 기호의 확률 변수 $X_1, X_2$에 대한 전체 채널 용량(total channel capacity) $C(X_1 \times X_2)$]

                          (5a)

여기서 $C(X)$는 송신 확률 변수 $X$만의 채널 용량이다.

[증명]
독립인 송신 확률 변수 $X_1, X_2$가 생성하는 시스템 상호 정보는 다음과 같다.

                          (5b)

여기서 $Y_1, Y_2$는 각각 $X_1, X_2$에 대한 수신 확률 변수이다. 송신 확률 변수 $X_1, X_2$는 서로 독립이라서, 식 (5b)의 우변을 최대로 만들려면 각 시스템 상호 정보가 최대로 나오면 된다. 따라서 전체 채널 용량 $C(X_1 \times X_2)$은 각 채널 용량의 합으로 표현된다.
______________________________

식 (5a)를 활용하면 $n$비트를 각각 독립적으로 전송하는 BSC의 채널 용량은 매우 간단히 공식화된다.

                          (6)

여기서 각 비트의 송신 확률 변수는 $X$이다.
디지털 신호(digital signal)가 아닌 아날로그 신호를 전송하는 채널이 가진 채널 용량은 섀넌–하틀리 정리(Shannon–Hartley theorem)로 표시된다.

[섀넌–하틀리 정리(Shannon–Hartley theorem)]
AWGN 채널의 채널 용량 $C$[단위: bps(bit per second) 혹은 bit/s]는 아날로그 신호(analog siganl)가 지나는 채널의 대역폭(bandwidth) $B$[단위: Hz]와 신호대 잡음비(SNR: Signal-to-Noise Ratio) $S/N$의 함수이다.

                          (7)

여기서 $S$와 $N$은 각각 입력 신호 및 잡음의 전력[단위: W], $C_s$는 연속 엔트로피로 정의한 보낸 기호당 비트수인 채널 용량[단위: bit/symbol]이다.

[증명]
이산 채널의 채널 용량인 식 (1)을 연속 채널용 연속 엔트로피로 바꾼다.

                          (8a)

여기서 $X, Y$는 각각 송신 및 수신 기호의 연속 확률 변수, $I_c(X;Y)$는 연속 엔트로피 $H_c(X)$로 만든 연속 신호(continuous signal)의 시스템 상호 정보이다. 정적분의 라그랑주 승수를 쓰면 출력 엔트로피는 정규 분포에서 최대가 된다.

                          (8b)

AWGN은 $X$와 $W$가 서로 독립이라서 잡음 엔트로피 $H_c(Y|X)$가 잡음 확률 변수 $W$만으로 표현된다.

                          (8c)

여기서 $W$는 정규 분포를 따른다. 식 (8b)와 (8c)를 식 (8a)에 대입해서 연속 채널의 채널 용량 $C_s$를 보낸 기호당 비트수로 나타낸다.

                          (8d)

보낸 기호당 비트수(bit per symbol sent)인 $C_s$를 초당 비트수(bit per second)인 $C$로 바꾸려면 연속 신호의 표본화(sampling)를 고려해야 한다. 표본화는 연속 신호를 이산 신호로 바꾸는 과정이다. 채널의 대역폭이 $B$로 제한된 경우에 입력 신호의 표본화 주파수[sampling frequency] $f_0$[단위: Hz 혹은 symbol/s]는 최대 $2B$까지만 증가할 수 있다. 왜냐하면 나이퀴스트–섀넌 표본화 정리(Nyquist–Shannon sampling theorem)에 의해 $f_0$는 나이퀴스트 전송률(Nyquist rate)[단위: symbol/s] $R_n$ = $2B_s$보다 크면 되지만, 표본화된 이산 신호가 지나는 채널의 대역 제한으로 인해 $B_s \le B$가 된다. 여기서 $B_s$는 연속 신호가 가진 대역폭이다. 쉽게 말해 빠르게 표본화를 해도 채널의 유한한 대역폭으로 인해 $B_s$가 아닌 $B$만큼만 정보가 전송된다. 그래서 최대 표본화 주파수인 $2B$를 식 (8d)에 곱해서 식 (7)을 얻는다.
______________________________

섀넌–하틀리 정리에서 대역폭은 식 (6)처럼 각 비트를 독립적으로 전송하기 위한 매개체로 사용된다.

[참고문헌]
[1] C. E. Shannon, "A mathematical theory of communication", Bell System Tech. J., vol. 27, pp. 379–423, 623–656, Jul., Oct. 1948.
[2] R. W. Hamming, Coding and Information Theory, 2nd ed., Englewood Cliffs, NJ, USA: Prentice-Hall, 1986.