조금은 느리게 살자: 직교 다항식(Orthogonal Polynomial)

[경고] 아래 글을 읽지 않고 "직교 다항식"을 보면 바보로 느껴질 수 있습니다.

[그림 1] 기하학에서 쓰이는 직교성(출처: wikipedia.org)

[그림 1]처럼 기하학에서 직각(right angle)의 의미로 쓰이는 직교성(orthogonality)은 함수상 내적(inner product on function) $\langle f, g \rangle$로 추상화해서 사용 범위를 적분(integration)으로 확장할 수 있다. 함수의 직교성은 스튀름–리우빌 이론(Sturm–Liouville Theory)의 결과이면서 완비성(completeness)을 증명하는 중요 수단이다.

(1)

여기서 $r(x)$는 스튀름–리우빌 이론에 나오는 밀도 함수(density function) 혹은 가중치 함수(weighting function)이며 항상 0보다 크다.[∵ $f(x)$ = $g(x)$인 경우 식 (1)을 항상 0보다 크게 만드는 조건이다.] 직교 다항식(orthogonal polynomial)은 식 (1)의 함수 $f(x), g(x)$가 다항식이며 그 내적은 0이 되는 다항식이다.

(2)

여기서 $\psi_n(x)$의 차수(degree)는 $n$이다. 직교 다항식의 대표적인 예는 르장드르 다항식(Legendre polynomial)이다.

주어진 적분 구간 $[a, b]$에서 직교 다항식을 생성하는 표준 방법은 그람–슈미트 과정(Gram–Schmidt process)이다. 다항식의 기저(basis)를 $1$, $x$, $\cdots$, $x^{n-1}$, $x^n$으로 두고, 주어진 다항식에 직교하는 또 다른 직교 함수를 차례로 생성한다. 먼저 그람–슈미트 과정에 따라 $\psi_0(x)$ = $a_0$으로 둔다. 다음으로 $\psi_1(x)$의 기저 $x$의 계수는 $a_1$로 설정하고 $\psi_0(x)$와 평행한 부분을 제거해서 $\langle \psi_1(x), \psi_0(x) \rangle$ = $0$으로 만든다.

(3a)

여기서 $a_n$은 $\psi_n(x)$에서 $x^n$의 실수 계수이다. 비슷한 방법으로 저차 다항식에 모두 직교하는 고차 다항식을 계속 만들 수 있다. 예를 들어, $\psi_0(x)$와 $\psi_1(x)$에 직교하도록 $\psi_2(x)$를 생성한다.

(3b)

임의의 $\psi_n(x)$도 식 (3b)와 비슷한 절차로 공식화된다.

(3c)

또한 $\psi_0(x), \psi_1(x), \cdots, \psi_n(x)$는 직교 기저(orthogonal basis)이기 때문에 $x^m$과도 항상 직교한다.

(4)

여기서 $\alpha_i$ = $\langle x^m, \psi_i(x) \rangle \mathbin{/} \langle \psi_i(x), \psi_i(x) \rangle$이다. 이와 같이 직교 다항식을 구성하는 계수 $a_0, a_1, \cdots, a_n$은 임의의 실수가 될 수 있으므로, 직교 다항식은 무수히 많이 존재한다.

직교 다항식 $\psi_n(x)$는 직교성인 식 (2)를 변형해서 스튀름–리우빌 미분 방정식(Sturm–Liouville differential equation)에 포함시킬 수 있다[1]. 그러면 스튀름–리우빌 이론(Sturm–Liouville theory)의 다양한 결과가 직교 다항식에도 바로 적용된다. 상상력만으로 직교 다항식의 미분 방정식을 만들기는 어렵기 때문에, 스튀름–리우빌 미분 방정식을 나침반으로 삼아 한 걸음씩 전진한다. 여분의 다항식 $p(x)$를 가진 새로운 항을 식 (2)에 추가해서 스튀름–리우빌 이론의 직교성을 강제로 만든다.

(5a)

여기서 함수 행렬식(Wronskian)은 $W[u, v]$ = $uv'-u'v$, $\lambda_n$은 직교 다항식 $\psi_n(x)$의 고유값(eigenvalue), 추가한 항이 $\psi_n(x)$에 관계없이 항상 0이 되도록 $p(a)$ = $p(b)$ = $0$이 되는 다항식을 선택한다. 식 (5a)에 나온 함수 행렬식을 풀어서 새로운 미분 방정식을 하나 찾는다.

(5b)

(5c)

여기서 $p(a)$ = $p(b)$ = $0$, 식 (7a)에 따라 구간 $(a, b)$에서 $p(x) > 0$이다. 최종적으로 식 (5c)는 직교 다항식에 대응하는 미분 방정식이며, 스튀름–리우빌 미분 방정식에 포함되기 때문에 직교 다항식은 다시 고유 함수(eigenfunction)가 되어서 스튀름–리우빌 이론의 모든 결과가 직교 다항식에도 성립한다.

[스튀름–리우빌 이론(Sturm–Liouville theory)과 직교 다항식(orthogonal polynomial)의 관계]

스튀름–리우빌 이론의 양끝점 $a,b$에서 $p(a)$ = $p(b)$ = $0$인 경우가 직교 다항식의 미분 방정식이므로, 스튀름–리우빌 이론의 모든 성질이 직교 다항식에서 성립한다. 다만 2가지 해 중의 하나는 직교 다항식이 되지만, 나머지 하나는 다항식이 아니다.

[증명: $a + b$ 관점]

식 (5a)와 (5b)는 스튀름–리우빌 미분 방정식이면서 $p(a)$ = $p(b)$ = $0$인 특별한 경우이기 때문에 직교 다항식의 미분 방정식은 스튀름–리우빌 이론에 속한다. 따라서 스튀름–리우빌 이론이 도출하는 모든 성질이 직교 다항식에서도 잘 만족된다. 하지만 스튀름–리우빌 미분 방정식의 제2해(the second solution)는 제1해(the first solution)를 분모에 넣고 적분한 결과라서, 제1해가 다항식인 경우에 제2해는 절대로 다항식이 될 수 없다.[∵ 다항식을 미분해서 분모가 다항식인 유리 함수(rational function)를 얻을 수 없기 때문이다.] 즉, 미분 방정식을 풀어서 얻는 해 중의 하나만 직교 다항식이 된다.

______________________________

식 (5c)를 더 일반화하기 위해 이 미분 방정식을 $r(x)$로 나누어본다.

(6)

여기서 $p'(x)$ = $dp(x)/dx$; $p(x)$의 조건으로 인해 $Q(a)$ = $Q(b)$ = $0$이다. 식 (6)에서 모든 항의 다항식 차수가 같으려면, $Q(x)$는 2차 함수(quadratic function), $L(x)$는 선형 함수(linear function)가 되어야 한다. 그래서 $Q(x)$ = $q_0(x-a)(x-b)$, $L(x)$ = $cx+d$로 둘 수 있다. 만약 $Q(x)$가 완전한 2차 함수[$q_0 \ne 0$]인 때는 롤의 정리(Rolle's theorem)에 의해 $Q'(x_0)$ = $0$을 만족하는 $x_0$이 $(a, b)$ 사이에 존재한다. 이는 $L(x)$의 근이 $(a, b)$ 구간 안에 있다는 의미이다.

식 (6)으로부터 식 (5c)를 생성할 때는 적분 인자(integration factor)에 해당하는 $m(x)$가 필요하다.

(7a: 적분 인자)

(7b: 밀도 함수 혹은 가중치 함수)

(7c)

여기서 $r(x) > 0$, $p(x) > 0$이므로 $Q(x) > 0$이 된다. 르장드르 다항식의 경우에 $Q(x)$ = $1-x^2$, $L(x)$ = $-2x$, $\lambda_n$ = $n(n+1)$인 식 (6)의 미분 방정식을 만족한다. 여기서 $Q(x)$의 근은 $\pm 1$이고 $L(x)$의 근은 $(-1, 1)$의 내부인 $x$ = $0$에 근이 있다. 식 (7a)를 가지고 르장드르 다항식의 $p(x)$도 구한다.

(8)

여기서 $p(x)$는 $(-1, 1)$에서 0보다 크도록 부호를 택한다. 식 (7a)와 같은 형태는 피어슨 미분 방정식(Pearson differential equation)으로 분류한다. 이 미분 방정식의 해인 $p(x)$를 이용해서 만든 연속 확률 분포(continuous probability distribution)는 피어슨 분포(Pearson distribution)가 된다. 피어슨 분포는 $Q(x), L(x)$의 계수를 바꾸어서 다양한 확률 분포를 생성할 수 있다. 다양성이 많은 만큼 피어슨 분포는 생물, 환경, 경제, 주식 등의 많은 분야에 쓰인다.

직교 다항식과 스튀름–리우빌 이론을 종합해서 직교 다항식이 내포한 다양한 성질을 증명한다.

$\psi_n(x)$의 차수는 $n$

그람–슈미트 과정으로 얻은 식 (3c)에 의해 $\psi_n(x)$의 고차 항은 $x^n$이다.

$\psi_n(x)$의 모든 근은 실수이며 단순근(simple root)

스튀름의 분리 정리(Sturm's separation theorem)로 인해 $\psi_n(x)$의 근은 모두 단순근이다. 또한 스튀름의 진동 정리(Sturm's oscillation theorem)를 적용하면, $\psi_{n+1}(x)$의 영점은 실수축에 있으며 $\psi_{n}(x)$보다 하나 더 많다. 어려운 스튀름–리우빌 이론을 적용할 필요 없이, 직교 다항식을 $\psi_n(x)$ = $a_n \pi_n(x)$로 가정해도 근의 분포를 증명할 수 있다. 여기서 $\pi_n(x)$는 $n$차 다항식을 인수 분해한 $\pi_n(x)$ = $(x-x_1)(x-x_2)\cdots(x-x_n)$이다. 먼저 직교 다항식의 근 $x_i$가 복소수라면, 켤레 복소수가 반드시 존재해서 $(x-x_i)(x-x_i)$ = $|x-x_i|^2$이 되므로 내적을 0으로 만들 수 없다. 그래서 모든 근은 실수가 되어야 한다. 또한 모든 근이 구간 $(a, b)$ 바깥에 있으면, $\pi_n(x)$는 $[a, b]$에서 부호를 바꾸지 않아서 식 (2)가 나올 수 없다. 이로 인해 근 $x_i$는 항상 구간 $(a, b)$ 안에 존재한다. 마지막으로 다중근(multiple root)이 있다는 가정은 식 (4)에 위배된다. 왜냐하면 $\pi_n(x)$의 모든 인수가 항상 양수가 되도록 인수 $(x-x_i)$를 선별해서 생성한 다항식 $p_m(x)$는 직교 다항식과의 곱 $\pi_n(x) p_m(x)$가 항상 0보다 커서 그 적분은 0이 될 수 없기 때문이다. 즉, $p_m(x)$의 차수 $m$이 $\pi_{n}(x)$의 차수 $n$보다 작으면 식 (4)에 따라 내적이 0이라는 직교성 조건은 다중근 설정과 충돌한다.

$\lambda_n$ = $\displaystyle{-n \left(\frac{n-1}{2}Q''(x) + L'(x) \right)}$

식 (6)에서 $x^n$의 계수를 모으면 $q_0 n(n-1) + c n + \lambda_n$ = $0$을 얻는다. 여기서 $Q''(x)$ = $2 q_0$, $L'(x)$ = $c$이다. 이로 인해 상수 함수인 $\psi_0(x)$의 고유값은 항상 $\lambda_0$ = $0$이다. 다음번 고유값은 $\lambda_{n+1}$ = $\lambda_{n} - n Q''(x) - L'(x)$로 유도된다.

로드리그의 공식(Rodrigues' formula)

(9)

여기서 $c_n$은 정규화 상수이다. 최초의 로드리그 공식은 르장드르 다항식 $P_n(x)$에서 나왔기 때문에, $P_n(x)$의 로드리그 공식을 염두에 두고 식 (4)의 $x^m$과 직교하는 다음 다항식을 도입한다.

(10a)

여기서 $P_n(x)$는 $Q(x)$ = $1-x^2$으로 설정된다. 식 (10a)를 식 (4)에 넣어서 $P_n(x)$와 같은 직교성이 생기는지 확인한다.

(10b)

여기서 $Q(x)$ = $q_0(x-a)(x-b)$; 부분 적분으로 나온 항은 일반 라이프니츠 규칙(general Leibniz rule)으로 인해 0이다. 식 (10b)의 절차는 $x^{m-1}$이 미분으로 0이 될 때까지 계속 진행할 수 있기 때문에, 식 (10a)는 $x^m$과 직교성이 성립한다. 다음 단계로 식 (10a)가 식 (6)의 해로 바뀌도록 $n$과 무관한 $f(x)$를 추가한다.

(10c)

함수 $f(x)$가 곱해지더라도 식 (10c)는 식 (10b)의 방식에 따라 직교성이 유지된다. 특별한 경우로 $n$ = $1$을 선정하고 식 (6)에 대입해서 $f(x)$를 결정한다.

(10d)

여기서 $C$는 적분 상수이다. 따라서 $f(x)$ = $r(x)$로 뽑으면 식 (9)가 증명된다. 특히 식 (7)의 조건으로 $\psi_1(x)$ = $c_1 L(x)$가 나온다.

(10e)

식 (9)의 특성을 확인하기 위해 $\psi_{n+1}(x)$를 로드리그의 공식으로 나타낸다[2].

(11a)

여기서 $c_n$ = $1$로 가정, $r(x) \psi_1(x)$ = $r'(x) Q(x) + r(x) Q'(x)$이다. 식 (11a)의 마지막 결과에 일반 라이프니츠 규칙을 적용해서 $r(x)Q^n(x)$와 $\psi_1(x) + nQ'(x)$를 따로 전개한다.

(11b)

여기서 $\psi_1(x) + nQ'(x)$는 선형 함수이다. 식 (11b)에 $n$ = $1$을 넣을 때, $\psi_2(x)$ = $[L'(x) + Q''(x)] Q(x)$ + $L(x)[L(x) + Q'(x)]$로 간략화된다. 식 (11a)의 좌변을 $r(x)Q^n(x)$와 $Q(x)$에 대해 미분할 수도 있다.

(11c)

식 (11b)와 (11c)를 연립하면 식 (5b)가 나오기 때문에, 식 (9)는 모든 $n$에 대해 직교성과 관련 미분 방정식을 만족하는 공식이다.

(11d)

여기서 식 (10e)로 인해 $\psi_1(x)$ = $L(x)$이다.

재귀 관계(recurrence relation)

(12)

여기서 $\psi_{n}(x)$ = $a_n \pi_n(x)$ = $a_n x^n + b_n x^{n-1} + \cdots$이다. 식 (11b)가 내포하는 성질처럼 직교 다항식은 반드시 재귀 관계를 가진다. 편리하게 증명하기 위해 식 (3c)에 나온 선형 결합(linear combination)에 바탕을 두고 인수 분해식으로 공식화한다.

(13a)

여기서 $\pi_n(x)$ = $(x-x_1)(x-x_2)\cdots(x-x_n)$; $\pi_{n+1}(x)$와 $\pi_n(x), \pi_{n-1}(x)$의 직교성을 맞추는 용도로 $\alpha_n, \beta_n$을 끌어들인다. 그래서 식 (13a)를 식 (2)에 대입해서 직교성을 만족시킨다.

(13b)

(13c)

여기서 $\gamma_n$ = $\langle \pi_{n}, \pi_{n} \rangle$이다. 식 (13c)는 약간 복잡해보여서 더 단순화한다.

(13d)

선형 결합의 계수 $\alpha_n$은 식 (13a)에서 $x^n$ 항의 계수를 비교해서 유도할 수도 있다.

(13e)

여기서 $\psi_{n+1}(x)$ = $a_{n+1} \pi_{n+1}(x)$ = $a_{n+1} x^{n+1} + b_{n+1} x^{n} + \cdots$이다.

수학 이론의 끄트머리에 있는 직교 다항식은 여러 기본 개념들과 서로 연결되어 있다. 직교 다항식이 인기 있는 이유는 다루기 편한 다항식이기 때문이다. 모든 근이 실수이고 우리가 다루는 구간 $(a, b)$ 안에 존재하고 있어서, 직교 다항식은 대수학의 기본 정리(fundamental theorem of algebra)로 인수 분해된다. 그리고 우리가 직교 다항식을 노래 부르는 또 다른 까닭은 바이어슈트라스 근사 정리(Weierstrass approximation theorem)에 기인한다. 아무리 복잡하게 변하는 함수라도 연속성만 전제되면, 다항식의 차수를 높여서 원하는 정밀도로 목표 함수를 근사할 수 있다. 다만 고계 미분이 커지는 연속 함수는 룽에 현상(Runge's phenomenon)이 생기므로 주의가 필요하다. 직교 다항식의 근원으로는 적분 방정식(integral equation)에서 발견한 함수상 내적(inner product on function)과 미분 방정식 이론의 본류인 스튀름–리우빌 이론(Sturm–Liouville theory)이 있다. 또한 직교 다항식의 두드러진 응용으로 가우스 구적법(Gaussian quadrature)이 있다. 직교 다항식이 가진 대부분의 성질을 활용해서 수치 적분(numerical integration)의 중요 도구인 가우스 구적법을 유도한다. 추가적으로 직교 다항식은 확률 분포(probability distribution)와 연결된다. 전혀 관계없어 보이지만 직교 다항식의 적분 인자에는 피어슨 미분 방정식(Pearson differential equation)이 출현한다. 피어슨 미분 방정식의 해는 피어슨 분포(Pearson distribution)의 확률 밀도 함수(probability density function)가 된다.

[참고문헌]

[1] J. Shohat, "A differential equation for orthogonal polynomials," Duke Math. J., vol. 5, no. 2, pp. 401–417, Jun. 1939.

[2] J. V. Iseghem, "Rodrigues formula and orthogonality," Université des Sciences et Technologies de Lille (University of Science and Technology of Lille), France, 1995. (방문일 2025-01-11)

[다음 읽을거리]

1. 가우스 구적법

2. 체비셰프의 미분 방정식