[경고] 아래 글을 읽지 않고 "라그랑주 승수"를 보면 바보로 느껴질 수 있습니다.

[그림 1] 제한 함수 $g(x, y)$ = $c$를 가진 함수 $f(x, y)$의 최적화(출처: wikipedia.org)
최적화(optimization) 기법의 하나로 자주 쓰이는 라그랑주 승수(Lagrange multiplier)는 제한 조건을 가진 다변수 함수의 최대값이나 최소값을 구할 때 유용하다. 라그랑주 승수로 푸는 문제는 [그림 1]과 같은 구조를 가진다. 우리가 최적화할 다변수 함수를 $f(x, y)$라 하면, 이 함수가 최대값이나 최소값을 가지는 지점은 극값(extreme value)이다. 이 경우에 다변수 함수 $f(x, y)$의 극값은 완전 미분(exact differential) $df(x, y)$가 0이 되는 특정 위치에서 생기며, 극점에서 편미분 $\partial f / \partial x$ 및 $\partial f / \partial y$는 0으로 계산된다.
(1)여기서 $dx, dy$는 자유롭게 변한다. 미분소 $dx, dy$가 움직이다가 식 (1)의 편미분이 0이 되는 극점을 찾으면, 이 극점이 바로 우리가 원하는 최적해이다. 다음 단계로 다변수 함수 $f(x, y)$에 [그림 1]과 같은 제한 조건을 걸기 위해 제한 함수 $g(x, y)$ = $c$를 고려한다. 여기서 $c$는 제한 함수 $g(x, y)$를 고정하는 조건 상수(conditional constant)이고, $g(x, y)$는 음함수(implicit function)의 표현식이다. 음함수 특성으로 인해 명확히 표시는 안되지만, $g(x, y)$ = $c$ 관계식을 따라 $x, y$는 서로 종속되어서 최적화의 제한 조건이 된다. 그러면 $g(x, y)$는 상수이므로 식 (1)과 같은 완전 미분은 항상 $dg(x, y)$ = $0$이 된다.
(2)여기서 $g_y \ne 0$, 식 (1)과 다르게 $dx, dy$는 독립이 아니고 식 (2)로 서로 연결된다. 식 (2)에서 $g_y$ = $0$이라면 $g_x$를 대신 택해서 $dx$ = $-g_y/g_x \cdot dy$로 둔다. 혹시 $g_x$까지 0인 경우는 음함수 관계인 $g(x, y)$가 그냥 상수라는 뜻이라서 말이 되지 않는다. 식 (1)과 (2)를 묶는 계수이며 라그랑주 승수라 불리는 매개변수인 $\lambda$를 도입해 식 (1)과 (2)를 깔끔하게 연계한다[1].
(3)
(4) 식 (4)를 다시 완전 미분으로 바꿈으로써 논리 전개를 더 직접적으로 수행한다.
(5)여기서 $\partial g / \partial y \ne 0$, $\lambda$는 마지막 항으로 계산할 수 있지만 굳이 결정하지 않는 매개변수이다. 식 (5)를 시작점으로 두고 더 많은 다변수 $x_i$와 여러 개의 제한 함수 $g_k(\bar r)$로 확장한 라그랑주 승수는 다음처럼 표현한다.
(6a)여기서 $\bar r$ = $(x_1, x_2, \cdots, x_n)$, $m$과 $n$은 각각 제한 함수 및 다변수의 개수, $\lambda_k$는 $k$번 라그랑주 승수이다.

[그림 2] 2변수 함수 $F(x, y)$ = $x^2 - y^2$의 구배 $\bar \nabla F(x, y)$(출처: wikipedia.org)
식 (6a)를 [그림 2]와 같은 구배(gradient) 연산자로 더 간단하게 표기할 수 있다.
(6b)여기서 $\bar \lambda$ = $(\lambda_1, \lambda_2, \cdots, \lambda_k)$; 제한 함수를 더 명확히 제시하려고 $\partial \mathfrak{L} / \partial \lambda_k$ = $g_k$ = $0$ 조건[조건 상수 $c_k$ = $0$으로 설정]을 덧붙이기도 한다. 식 (6b)에 정의한 $\mathfrak{L}(\bar r; \bar \lambda)$는 라그랑주 연산자 혹은 라그랑지언(Lagrangian)으로 부르며, 이 개념은 변분법(Variational Method)의 직접적인 결과물이다[2].
[변분법(variational method)이란?]
라그랑주 승수의 원리는 구배(gradient)에 근원을 두고 있다. [그림 2]의 제시처럼 구배는 스칼라 함수 $f$가 증가하는 방향을 가리킨다. 이 스칼라 함수가 최대나 최소를 가지는 위치에서는 꼭대기나 골짜기가 되기 때문에, 기울기는 0이 되어야 해서 $\bar \nabla f$ = $\bar 0$이 된다. 하지만 [그림 1]과 같이 제한 함수 $g$ = $c$도 동시에 만족해야 하므로, 새로운 함수 $f + \lambda g$를 도입하고 라그랑주 승수 $\lambda$를 조절해서 $\bar \nabla (f+ \lambda g)$ = $\bar 0$을 만든다. 그러면 $f+ \lambda g$는 이 위치 $\bar r$에서 극값을 가지고 제한 함수는 $g$ = $c$로 변화가 없어서 $f$도 같은 위치 $\bar r$에서 우리가 찾는 극값이 생긴다. 이런 발상이 라그랑주 승수의 핵심이다.
우리가 찾는 극값 위치 $\bar r$의 성분 개수 $n$과 구배가 만드는 방정식의 개수 $n$도 재미있는 부분이다. 왜냐하면 라그랑주 승수 $\lambda$도 결정해야 하는 미지수이므로, 필요한 방정식 개수는 $n$이 아닌 $n+1$이기 때문이다. 하지만 방정식 개수가 $n$개만 있어서 하나가 부족한데도 $n+1$개인 미지수를 어떻게 정확히 결정할 수 있을까? 우리가 놓치고 있는 제한 함수 $g$에 답이 있다. 벡터 $\bar r$은 $g$를 만족해야 하기 때문에 $\bar r$의 성분은 독립이 아니고 종속이 됨으로써 미지수가 하나 줄어든다. 결과적으로 제한 함수 조건으로 인해 미지수 개수는 하나 줄어들지만 매개변수 $\lambda$가 다시 추가된다. 그래서 우리가 구해야 하는 미지수와 방정식의 개수가 같아지므로 라그랑주 승수는 잘 동작하게 된다. 또한 식 (6b)처럼 제한 조건이 $k$개로 늘어나면, 미지수와 방정식 개수를 맞추기 위해 라그랑주 승수의 개수도 $k$개로 증가해야 한다.
라그랑주 승수는 제한 조건을 가진 $f(x)$의 최대 및 최소 문제 뿐만 아니라 매개변수 $t$로 $f(x)$를 정적분한 $I(x)$ = $\int_a^b f[x(t);t]\,dt$의 최대값 혹은 최소값도 잘 구한다. 여기서 $x(t)$는 $t$의 함수, $k$번 제한 조건도 정적분되어 $c_k(x)$ = $\int_a^b g_k[x(t);t]\,dt$로 둔다. 이때 $I(x)$ 및 $c_k(x)$는 함수 $x$에 따라 정적분값이 바뀌는, 함수의 함수인 범함수(汎函數, functional)이다. 이 문제를 풀기 위한 완전 미분 $df$의 대체재는 변분법에 나오는 범함수의 미분소(differential) $dI$이다. 범함수 미분소 $dI$는 범함수 차분 $\Delta I$로 유추한다.
(7a)여기서 $h(t)$는 $x(t)$에서 살짝 바뀐 크기가 매우 작은 함수이다. 임의의 $h(t)$에 대해 범함수 미분소 $dI$ = $0$이 나오려면, 식 (1)처럼 함수 $x$에 대한 편미분 $\partial f(x;t) / \partial x$ = $0$이 성립해야 한다. 이 결과를 식 (4)처럼 제한 함수와 라그랑주 승수로 묶음으로써 정적분에 대한 라그랑주 승수 기법을 확립한다.
(7b)여기서 함수 $x_i(t)$를 성분으로 하는 벡터는 $\bar r(t)$ = $(x_1(t), x_2(t), \cdots, x_n(t))$이다.
1. 엔트로피(entropy)
[유한 범위의 연속 확률 변수]
[증명]
(1.1a)
(1.1b)
정적분의 라그랑주 승수인 식 (7b)를 쓰기 위해 정적분 $I(p)$를 연속 엔트로피 $H(X)$로 놓고 범함수의 제한 조건은 전체 확률이 1인 공리를 쓴다.
(1.1a)그러면 라그랑주 승수의 결과는 다음처럼 나온다.
(1.1b)확률 밀도 함수는 $x$에 관계없는 상수로 나오기 때문에 우리가 찾는 $p_X(x)$는 균등 분포가 된다. 또한 엔트로피의 성질에 따라 $x$에 독립적으로 골고루 확률이 분포되는 균등 분포는 큰 평균 정보량이 나온다. 그래서 균등 분포가 유한한 범위를 가진 $X$의 연속 엔트로피를 최대로 만든다.
______________________________
[분산(variance)이 고정된 연속 확률 변수]
분산이 $\sigma^2$, 평균은 $0$으로 고정된 연속 확률 변수 $X$의 연속 엔트로피 $H(X)$가 최대로 나오는 확률 밀도 함수 $p_X(x)$는 정규 분포(normal distribution)인 $1 / (\sqrt{2 \pi} \sigma) \cdot e^{-x^2/(2 \sigma^2)}$이다. 이 경우 $\max[H(X)]$ = $\log_2 (\sqrt{2 \pi e} \sigma)$가 얻어진다.
[증명]
(1.2a)
유도 과정은 정적분의 라그랑주 승수를 쓰는 식 (1.1)과 동일한 절차를 거친다. 다만 식 (1.1a)와 다르게 범함수의 제한 조건은 2가지로 늘어난다.
(1.2a)식 (1.2a)를 식 (7b)에 대입하고 정리해서 정규 분포를 얻는다.
(1.2b)그러면 $p_X(x)$는 정규 분포의 형태이므로, $\lambda_1'$ = $1 \mathbin{/} (\sqrt{2 \pi} \sigma)$, $\lambda_1'$ = $1 \mathbin{/} (2 \sigma^2)$으로 결정된다. 이 확률 밀도 함수로 연속 엔트로피도 계산한다.
(1.2c)라그랑주 승수의 산출물은 $\lambda_1', \lambda_2'$에서 극값이 얻어진다는 뜻이므로, 식 (1.2c)는 최대값이 아닌 최소값이 될 수도 있다. 이 지점을 확인하려고 식 (1.1)과 같은 균등 분포의 분산을 가정하고 $H(X)$를 구해본다.
(1.3)______________________________
아날로그 신호(analog signal)에 쓰이는 교류(alternating current, AC)는 평균이 0이고 신호의 제곱이 전력(power)에 정비례해서, 분산이 고정된 연속 확률 변수는 교류 신호를 굉장히 잘 표현한다.
[참고문헌]
[1] G. B. Arfken, H. J. Weber, and F. E. Harris, Mathematical Methods for Physicists, 7th ed., Academic Press, 2013.
[2] Daniel Liberzon, Calculus of Variations and Optimal Control Theory: A Concise Introduction, University of Illinois at Urbana-Champaign, IL, USA, 2010. (방문일 2024-06-13)
[다음 읽을거리]
안녕하세요 전파거북이선생님
답글삭제식 1과 다르게 g_x dx+g_y dy = 0에서 dx와 dy가 엮여있는 이유가 무엇일까요??
직관적으로 생각했을때 제약이 있기 때문에 g 위에서 x의 변화량이 얼마면 정해진만큼만 y가 변해야 하기 때문인가요?
삭제식 1에서는 제약이 없기 떄문에 x가 얼마나 변하든 y가 얼마든지 변할수 있었는것에 반해?
편하게 전파거북이로 불러주세요.
삭제식 (1)은 극값이라서 극점에서는 편미분이 0이 나옵니다. 그러면 극점에서 $df$ = $0$이 얻어집니다. 다만 이 극점은 우리가 찾아야 합니다.
식 (2)는 음함수라서 미분소가 $dg$ = $0$으로 나옵니다. 이때 $dg$는 완전 미분으로 쓸 수 있으니까, $dx, dy$의 관계식이 생기고 편미분이 0일 필요도 없어요. 이 미분 관계식을 만족하는 어떤 위치든지 이동 가능합니다.