조금은 느리게 살자: 라그랑주 승수(乘數, Lagrange Multiplier)

[경고] 아래 글을 읽지 않고 "라그랑주 승수"를 보면 바보로 느껴질 수 있습니다.

[그림 1] 제한 함수 $g(x, y)$ = $c$를 가진 함수 $f(x, y)$의 최적화(출처: wikipedia.org)

최적화(optimization) 기법의 하나로 자주 쓰이는 라그랑주 승수(Lagrange multiplier)는 제한 조건을 가진 다변수 함수의 최대값이나 최소값을 구할 때 유용하다. 라그랑주 승수로 푸는 문제는 [그림 1]과 같은 구조를 가진다. 우리가 최적화할 다변수 함수를 $f(x, y)$라 하면, 이 함수가 최대값이나 최소값을 가지는 지점은 극값(extreme value)이다. 이 경우에 다변수 함수 $f(x, y)$의 극값은 완전 미분(exact differential) $df(x, y)$가 0이 되는 특정 위치에서 생기며, 극점에서 편미분 $\partial f / \partial x$ 및 $\partial f / \partial y$는 0으로 계산된다.

(1)

여기서 $dx, dy$는 자유롭게 변한다. 미분소 $dx, dy$가 움직이다가 식 (1)의 편미분이 0이 되는 극점을 찾으면, 이 극점이 바로 우리가 원하는 최적해이다. 다음 단계로 다변수 함수 $f(x, y)$에 [그림 1]과 같은 제한 조건을 걸기 위해 제한 함수 $g(x, y)$ = $c$를 고려한다. 여기서 $c$는 제한 함수 $g(x, y)$를 고정하는 조건 상수(conditional constant)이고, $g(x, y)$는 음함수(implicit function)의 표현식이다. 음함수 특성으로 인해 명확히 표시는 안되지만, $g(x, y)$ = $c$ 관계식을 따라 $x, y$는 서로 종속되어서 최적화의 제한 조건이 된다. 그러면 $g(x, y)$는 상수이므로 식 (1)과 같은 완전 미분은 항상 $dg(x, y)$ = $0$이 된다.

(2)

여기서 $g_y \ne 0$, 식 (1)과 다르게 $dx, dy$는 독립이 아니고 식 (2)로 서로 연결된다. 식 (2)에서 $g_y$ = $0$이라면 $g_x$를 대신 택해서 $dx$ = $-g_y/g_x \cdot dy$로 둔다. 혹시 $g_x$까지 0인 경우는 음함수 관계인 $g(x, y)$가 그냥 상수라는 뜻이라서 말이 되지 않는다. 식 (1)과 (2)를 묶는 계수이며 라그랑주 승수라 불리는 매개변수인 $\lambda$를 도입해 식 (1)과 (2)를 깔끔하게 연계한다[1].

(3)

여기서 $f_y + \lambda g_y$ = $0$이다. 식 (2), (3)에서 $dy$는 $dx$에 종속되지만 $dx$는 임의로 설정할 수 있어서 라그랑주 승수 $\lambda$에 대한 결과식을 얻는다.

(4)

식 (4)를 다시 완전 미분으로 바꿈으로써 논리 전개를 더 직접적으로 수행한다.

(5)

여기서 $\partial g / \partial y \ne 0$, $\lambda$는 마지막 항으로 계산할 수 있지만 굳이 결정하지 않는 매개변수이다. 식 (5)를 시작점으로 두고 더 많은 다변수 $x_i$와 여러 개의 제한 함수 $g_k(\bar r)$로 확장한 라그랑주 승수는 다음처럼 표현한다.

(6a)

여기서 $\bar r$ = $(x_1, x_2, \cdots, x_n)$, $m$과 $n$은 각각 제한 함수 및 다변수의 개수, $\lambda_k$는 $k$번 라그랑주 승수이다.

[그림 2] 2변수 함수 $F(x, y)$ = $x^2 - y^2$의 구배 $\bar \nabla F(x, y)$(출처: wikipedia.org)

식 (6a)를 [그림 2]와 같은 구배(gradient) 연산자로 더 간단하게 표기할 수 있다.

(6b)

여기서 $\bar \lambda$ = $(\lambda_1, \lambda_2, \cdots, \lambda_k)$; 제한 함수를 더 명확히 제시하려고 $\partial \mathfrak{L} / \partial \lambda_k$ = $g_k$ = $0$ 조건[조건 상수 $c_k$ = $0$으로 설정]을 덧붙이기도 한다. 식 (6b)에 정의한 $\mathfrak{L}(\bar r; \bar \lambda)$는 라그랑주 연산자 혹은 라그랑지언(Lagrangian)으로 부르며, 이 개념은 변분법(Variational Method)의 직접적인 결과물이다[2].

[변분법(variational method)이란?]

라그랑주 승수의 원리는 구배(gradient)에 근원을 두고 있다. [그림 2]의 제시처럼 구배는 스칼라 함수 $f$가 증가하는 방향을 가리킨다. 이 스칼라 함수가 최대나 최소를 가지는 위치에서는 꼭대기나 골짜기가 되기 때문에, 기울기는 0이 되어야 해서 $\bar \nabla f$ = $\bar 0$이 된다. 하지만 [그림 1]과 같이 제한 함수 $g$ = $c$도 동시에 만족해야 하므로, 새로운 함수 $f + \lambda g$를 도입하고 라그랑주 승수 $\lambda$를 조절해서 $\bar \nabla (f+ \lambda g)$ = $\bar 0$을 만든다. 그러면 $f+ \lambda g$는 이 위치 $\bar r$에서 극값을 가지고 제한 함수는 $g$ = $c$로 변화가 없어서 $f$도 같은 위치 $\bar r$에서 우리가 찾는 극값이 생긴다. 이런 발상이 라그랑주 승수의 핵심이다.

우리가 찾는 극값 위치 $\bar r$의 성분 개수 $n$과 구배가 만드는 방정식의 개수 $n$도 재미있는 부분이다. 왜냐하면 라그랑주 승수 $\lambda$도 결정해야 하는 미지수이므로, 필요한 방정식 개수는 $n$이 아닌 $n+1$이기 때문이다. 하지만 방정식 개수가 $n$개만 있어서 하나가 부족한데도 $n+1$개인 미지수를 어떻게 정확히 결정할 수 있을까? 우리가 놓치고 있는 제한 함수 $g$에 답이 있다. 벡터 $\bar r$은 $g$를 만족해야 하기 때문에 $\bar r$의 성분은 독립이 아니고 종속이 됨으로써 미지수가 하나 줄어든다. 결과적으로 제한 함수 조건으로 인해 미지수 개수는 하나 줄어들지만 매개변수 $\lambda$가 다시 추가된다. 그래서 우리가 구해야 하는 미지수와 방정식의 개수가 같아지므로 라그랑주 승수는 잘 동작하게 된다. 또한 식 (6b)처럼 제한 조건이 $k$개로 늘어나면, 미지수와 방정식 개수를 맞추기 위해 라그랑주 승수의 개수도 $k$개로 증가해야 한다.

라그랑주 승수는 제한 조건을 가진 $f(x)$의 최대 및 최소 문제 뿐만 아니라 매개변수 $t$로 $f(x)$를 정적분한 $I(x)$ = $\int_a^b f[x(t);t]\,dt$의 최대값 혹은 최소값도 잘 구한다. 여기서 $x(t)$는 $t$의 함수, $k$번 제한 조건도 정적분되어 $c_k(x)$ = $\int_a^b g_k[x(t);t]\,dt$로 둔다. 이때 $I(x)$ 및 $c_k(x)$는 함수 $x$에 따라 정적분값이 바뀌는, 함수의 함수인 범함수(汎函數, functional)이다. 이 문제를 풀기 위한 완전 미분 $df$의 대체재는 변분법에 나오는 범함수의 미분소(differential) $dI$이다. 범함수 미분소 $dI$는 범함수 차분 $\Delta I$로 유추한다.

(7a)

여기서 $h(t)$는 $x(t)$에서 살짝 바뀐 크기가 매우 작은 함수이다. 임의의 $h(t)$에 대해 범함수 미분소 $dI$ = $0$이 나오려면, 식 (1)처럼 함수 $x$에 대한 편미분 $\partial f(x;t) / \partial x$ = $0$이 성립해야 한다. 이 결과를 식 (4)처럼 제한 함수와 라그랑주 승수로 묶음으로써 정적분에 대한 라그랑주 승수 기법을 확립한다.

(7b)

여기서 함수 $x_i(t)$를 성분으로 하는 벡터는 $\bar r(t)$ = $(x_1(t), x_2(t), \cdots, x_n(t))$이다.

1. 엔트로피(entropy)

[유한 범위의 연속 확률 변수]

범위 $a \le x \le b$에서 변하는 연속 확률 변수(continuous random variable) $X$가 만드는 연속 엔트로피(continuous entropy)를 최대로 만드는 확률 밀도 함수는 $p_X(x)$ = $1 \mathbin{/}(b-a)$인 균등 분포(uniform distribution)이다. 이때 연속 엔트로피의 최대값은 $\max[H(X)]$ = $\log_2 (b-a)$이다.

[증명]

정적분의 라그랑주 승수인 식 (7b)를 쓰기 위해 정적분 $I(p)$를 연속 엔트로피 $H(X)$로 놓고 범함수의 제한 조건은 전체 확률이 1인 공리를 쓴다.

(1.1a)

그러면 라그랑주 승수의 결과는 다음처럼 나온다.

(1.1b)

확률 밀도 함수는 $x$에 관계없는 상수로 나오기 때문에 우리가 찾는 $p_X(x)$는 균등 분포가 된다. 또한 엔트로피의 성질에 따라 $x$에 독립적으로 골고루 확률이 분포되는 균등 분포는 큰 평균 정보량이 나온다. 그래서 균등 분포가 유한한 범위를 가진 $X$의 연속 엔트로피를 최대로 만든다.

______________________________

[분산(variance)이 고정된 연속 확률 변수]

분산이 $\sigma^2$, 평균은 $0$으로 고정된 연속 확률 변수 $X$의 연속 엔트로피 $H(X)$가 최대로 나오는 확률 밀도 함수 $p_X(x)$는 정규 분포(normal distribution)인 $1 / (\sqrt{2 \pi} \sigma) \cdot e^{-x^2/(2 \sigma^2)}$이다. 이 경우 $\max[H(X)]$ = $\log_2 (\sqrt{2 \pi e} \sigma)$가 얻어진다.

[증명]

유도 과정은 정적분의 라그랑주 승수를 쓰는 식 (1.1)과 동일한 절차를 거친다. 다만 식 (1.1a)와 다르게 범함수의 제한 조건은 2가지로 늘어난다.

(1.2a)

식 (1.2a)를 식 (7b)에 대입하고 정리해서 정규 분포를 얻는다.

(1.2b)

그러면 $p_X(x)$는 정규 분포의 형태이므로, $\lambda_1'$ = $1 \mathbin{/} (\sqrt{2 \pi} \sigma)$, $\lambda_1'$ = $1 \mathbin{/} (2 \sigma^2)$으로 결정된다. 이 확률 밀도 함수로 연속 엔트로피도 계산한다.

(1.2c)

라그랑주 승수의 산출물은 $\lambda_1', \lambda_2'$에서 극값이 얻어진다는 뜻이므로, 식 (1.2c)는 최대값이 아닌 최소값이 될 수도 있다. 이 지점을 확인하려고 식 (1.1)과 같은 균등 분포의 분산을 가정하고 $H(X)$를 구해본다.

(1.3)

분명 $2 \pi e > 12$로 계산되어서 식 (1.2c)는 고정된 분산을 가진 $p_X(x)$가 도출할 수 있는 최대 연속 엔트로피가 된다.

______________________________

아날로그 신호(analog signal)에 쓰이는 교류(alternating current, AC)는 평균이 0이고 신호의 제곱이 전력(power)에 정비례해서, 분산이 고정된 연속 확률 변수는 교류 신호를 굉장히 잘 표현한다.

[참고문헌]

[1] G. B. Arfken, H. J. Weber, and F. E. Harris, Mathematical Methods for Physicists, 7th ed., Academic Press, 2013.

[2] Daniel Liberzon, Calculus of Variations and Optimal Control Theory: A Concise Introduction, University of Illinois at Urbana-Champaign, IL, USA, 2010. (방문일 2024-06-13)

[다음 읽을거리]

1. 채널 용량과 정보 전송의 한계

조금은 느리게 살자

2024년 6월 11일 화요일

라그랑주 승수(乘數, Lagrange Multiplier)

댓글 3개 :