조금은 느리게 살자: 에르미트 행렬과 유니터리 행렬(Hermitian Matrix and Unitary Matrix)

[경고] 아래 글을 읽지 않고 "에르미트 행렬과 유니터리 행렬"을 보면 바보로 느껴질 수 있습니다.

[그림 1] 켤레 전치 행렬의 정의(출처: wikipedia.org)

행렬 $\bf A$에 대한 에르미트 행렬(Hermitian matrix)은 다음처럼 정의한다.

(1)

여기서 행렬의 원소는 일반적으로 복소수(complex number)이다. 식 (1)에 등장하는 ${\bf A}^H$는 $\bf A$의 켤레 전치 행렬(conjugate transpose)이다.

(2)

여기서 $(\cdot)^*$는 켤레 복소수(complex conjugate), $(\cdot)^T$는 전치 행렬(transpose)이다. 식 (1)의 정의에 의해, 에르미트 행렬의 대각선 원소는 항상 실수이다. 켤레 전치 행렬은 ${\bf A}^\dagger$처럼 표기할 수도 있다. 또한 켤레 전치 행렬 ${\bf A}^H$는 복소 행렬(complex matrix)을 위해 사용하는 개념이다. 복소 행렬이 아닌 실수 행렬을 고려한다면, 켤레 전치 행렬은 단순한 전치 행렬이 된다. 따라서 복소 영역의 에르미트 행렬은 실수 영역에서 대칭 행렬(symmetric matrix)이 된다. 식 (1)과 비슷하지만 다음과 같은 반대칭(反對稱, skew-symmetry) 특성을 가진 행렬은 반에르미트 행렬(skew-Hermitian matrix)이라 한다.

(3)

식 (3)에 의해 반에르미트 행렬의 대각선 원소는 $0$ 혹은 순허수가 된다. 에르미트 행렬과 반에르미트 행렬을 합치면 어떤 복소 행렬이든지 표현할 수 있다. 다른 말로 하면, 임의의 복소 행렬 $\bf A$를 다음처럼 에르미트 행렬과 반에르미트 행렬의 합으로 항상 분해할 수 있다.

(4)

식 (4)와 같은 복소 행렬의 관계는 실수 행렬에서 성립하는 대칭(symmetric)과 반대칭(skew-symmetric) 행렬의 합 특성과도 동일하다. 예를 들어 식 (4)에 있는 $\bf A$가 실수 행렬이 되면, 에르미트와 반에르미트 행렬은 대칭과 반대칭 행렬이 된다. 그러면 대칭 행렬의 특성처럼 이 두 행렬의 합은 원래 행렬 $\bf A$가 된다.

여러 행렬 중에서 제일 유명한 행렬이 에르미트 행렬이지만, 식 (1)의 정의는 다소 밋밋하다. 소문난 잔치에 먹을 것이 없는 상황일까? 아니다. 에르미트 행렬은 고유값(eigenvalue)과 고유 벡터(eigenvector)를 만날 때 빛이 난다.

[에르미트 행렬과 고유값의 관계]

에르미트 행렬의 고유값은 실수이다.

[증명]

행렬 $\bf A$의 고유값 $\lambda$와 고유 벡터 $\bf x$는 다음처럼 표현한다.

(5)

식 (5)의 양변에 ${\bf x}^H$를 곱해서 정리하면 다음을 얻는다.

(6)

여기서 ${\bf x}^H {\bf x}$는 복소 영역의 벡터 내적(dot product)이다. 식 (6)에 의해 $\lambda$ = $\lambda^*$이므로, $\lambda$는 실수가 되어야 한다.

______________________________

식 (6)의 결과를 2차 형식(quadratic form) 관점으로 보면, ${\bf x}^H {\bf Ax}$는 항상 실수이다.

[에르미트 행렬과 고유 벡터의 관계]

서로 다른 고유값을 가진 에르미트 행렬의 고유 벡터는 서로 직교한다.

[증명]

고유값 $\lambda_1, \lambda_2$에 해당하는 고유 벡터를 ${\bf x}_1, {\bf x}_2$라 하면, 식 (6)과 비슷하게 다음 관계식을 만들 수 있다.

(7)

식 (7)에서 두 고유값은 다르기 때문에, ${\bf x}_1, {\bf x}_2$는 직교한다.

______________________________

이상의 결과를 종합하면, 에르미트 행렬은 복소 영역으로 일반화한 대칭 행렬(symmetric matrix)이다. 그래서 실수가 원소인 대칭 행렬로 만든 여러 결과에서 대칭 행렬을 에르미트 행렬로 바꾸면, 복소 영역에서 그 결과가 그대로 성립한다. 직교 행렬(orthogonal matrix)에도 동일한 개념을 적용할 수 있다. 실수에서 정의한 벡터 내적(dot product) ${\bf x}^T {\bf y}$를 복소수로 확장하면 ${\bf x}^H {\bf y}$가 된다. 복소 영역의 직교 개념 ${\bf x}^H {\bf y}$ = $0$을 활용하여 행렬을 구성하는 열 벡터를 복소 영역에서 직교시키면, 직교 행렬은 다음과 같은 유니터리 행렬(unitary matrix)이 된다.

(8)

여기서 열 벡터는 다음에 표시한 정규 직교 관계가 성립한다.

(9)

유니터리 행렬은 단일 행렬로 번역할 수도 있다.[단일 행렬은 잘 쓰지 않는 표현이다. 이해를 위해 강제로 번역했을 뿐이다.] 유니터리 행렬을 구성하는 열 벡터는 복소 영역에서 정규 직교 기저를 이루어서 $n$차원 공간을 계량하는 하나의 단위계로 사용할 수 있다. 그래서 단일화된 혹은 일관된 단위(unit)를 뜻하는 유니터리(unitary)를 도입해서 식 (8)과 같은 행렬의 명칭을 정한다.

에르미트 행렬의 고유값과 고유 벡터가 가진 특성은 기시감이 든다. 이는 정확한 느낌이다. 행렬의 고유값과 고유 벡터는 스튀름–리우빌 이론(Sturm–Liouville theory)에서 봤던 미분 방정식의 고유값과 고유 함수(eigenfunction)와 무척 닮아있다. 수학 분야에서 행렬과 미분 방정식은 굉장히 다른 이론처럼 보이지만, 고유 벡터라는 색안경으로 보면 두 이론은 매우 밀접하게 연결되어 있다. 행렬과 미분 방정식의 연계성은 선형 최소 제곱법(linear least squares)에서도 볼 수 있다.

에르미트 행렬의 성질은 행렬의 고유값 및 고유 벡터와 밀접한 관계를 가지고 있다. 에르미트 행렬의 증명에 자주 등장하는 레일리 몫(Rayleigh quotient) $R_{\bf A}({\bf x})$는 에르미트 행렬 $\bf A$와 고유값 $\lambda$를 연결하는 소중한 개념이다.

(10)

여기서 ${\bf x}$는 임의의 열 벡터이며 ${\bf x} \ne {\bf 0}$이어야 한다. 레일리 몫은 미분 방정식을 다루는 스튀름–리우빌 이론(Sturm–Liouville Theory)에서도 중요하게 사용된다.

1. 다양한 응용(various applications)

고유값이 실수라는 조건을 이용해서 선형 대수학의 응용에 매우 중요한 에르미트 행렬의 특성을 증명한다.

[레일리–리츠 정리(Rayleigh–Ritz theorem)] [1], [2]

에르미트 행렬 $\bf A$가 가진 순서 있는 고유값 $\lambda_1 < \lambda_2 < \cdots < \lambda_n$에 대해, $k$번째 고유값 $\lambda_k$는 레일리 몫의 최소값과 같다.

(1.1)

여기서 $k$ = $1, 2, \cdots, n$, ${\bf U}_k^\perp$는 ${\bf U}_k$에 직교하는 부분 공간, ${\bf U}_k$는 집합 $\{{\bf u}_1, {\bf u}_2, \cdots, {\bf u}_k \}$로 생성(span)한 부분 공간(subspace), ${\bf u}_k$는 식 (9)를 만족하는 $\lambda_k$에 대한 고유 벡터이다.

[증명]

열 벡터 $\bf x$를 ${\bf u}_i$의 선형 결합으로 바꾸어서 레일리 몫을 계산한다.

(1.2)

여기서 $\bf x$는 ${\bf U}_{k-1}$는 항상 수직, ${\bf Au}_i$ = $\lambda_i {\bf u}_i$이다. 열 벡터 $\bf x$는 임의로 변할 수 있지만, 식 (1.2)에 의해 레일리 몫은 항상 $\lambda_k$보다 크거나 같다. 결국 레일리 몫의 최소값을 추적한 결과는 고유값 $\lambda_k$에 근접하므로 식 (1.1)이 증명된다.

______________________________

레일리–리츠 정리에 의해 임의의 열 벡터 $\bf x$에 대한 레일리 몫은 다음과 같은 범위에 있다.

(1.3)

식 (1.1)과 (1.3)에서 등호가 성립하는 경우는 $\bf x$ = $\alpha_k {\bf u}_k$이다. 레일리–리츠 정리에 사용한 직교 부분 공간 ${\bf U}_k^\perp$의 조건을 완화해서 임의의 부분 공간 ${\bf V}_k$에 대한 레일리 몫과 고유값의 관계를 구하면, 레일리–리츠 정리는 쿠란트-피셔 정리로 진화한다.

[쿠란트–피셔 정리(Courant–Fischer theorem)] [3]

에르미트 행렬 $\bf A$에 대한 레일리 몫의 최소-최대는 $k$번째 고유값 $\lambda_k$와 같다.

(1.4)

여기서 $k$ = $1, 2, \cdots, n$, $\lambda_1 < \lambda_2 < \cdots < \lambda_n$, 고유값 $\lambda_k$에 대한 고유 벡터는 ${\bf u}_k$이다.

[증명]

정규 직교 기저(orthonormal basis)인 고유 벡터 ${\bf u}_i$가 만드는 벡터 공간(vector space)을 $V$ = ${\rm span}(\{{\bf u}_1, {\bf u}_2, \cdots, {\bf u}_n \})$이라 한다. 여기서 ${\rm span}({\bf S})$는 집합 $\bf S$의 원소를 선형 결합하여 벡터 공간을 생성하는 연산자, $\bf V$의 차원은 ${\rm dim}({\bf V})$ = $n$이다. 벡터 공간 $\bf V$의 원소를 뽑아서 만든 차원 $k$를 가진 부분 공간은 ${\bf V}_k$ = ${\rm span}(\{{\bf v}_1, {\bf v}_2, \cdots, {\bf v}_k \})$라 한다. 여기서 ${\rm dim}({\bf V}_k)$ = $k$, 기저 ${\bf v}_i$는 고유 벡터 중의 하나이다. 또한 ${\bf V}_k$와는 약간 다르게 차원을 $n-k+1$로 가진 고유 벡터의 부분 공간을 ${\bf W}_k$ = ${\rm span}(\{{\bf u}_k, {\bf u}_{k+1}, \cdots, {\bf u}_n \})$으로 정의한다. 여기서 ${\rm dim}({\bf W}_k)$ = $n-k+1$, ${\bf u}_i$는 고유 벡터이다. 그러면 ${\bf V}_k$와 ${\bf W}_k$는 서로 교차되는 기저가 최소한 하나는 있다.

(1.5)

따라서 ${\bf V}_k$에서 뽑아서 만든 열 벡터 $\bf x$에는 ${\bf W}_k$의 기저가 섞이게 되므로 식 (1.2)와 비슷하게 다음 부등식이 성립한다.

(1.6)

여기서 $\alpha_i$와 $\mu_i$는 각각 기저 ${\bf v}_i$의 계수 및 고유값, $\lambda_{\max}$는 ${\bf V}_k \cap {\bf W}_k$의 원소가 가진 가장 큰 고유값이다. 최종적으로 식 (1.6)처럼 레일리 몫을 최대로 만드는 조건 하에서 레일리 몫의 최소값을 찾은 최소-최대 연산의 결과는 $\lambda_k$가 된다. 즉, ${\bf V}_k$ = ${\rm span}(\{{\bf u}_1, {\bf u}_2, \cdots, {\bf u}_k \})$로 선택해서 $\max[R_{\bf A}({\bf x})]$가 되는 조건은 ${\bf x}$ = ${\bf u}_k$이다. 고유 벡터 ${\bf u}_k$의 고유값은 차원 $k$를 가진 ${\bf V}_k$가 가질 수 있는 가장 작은 레일리 몫이므로 식 (1.4)의 첫째 줄이 유도된다.

식 (1.6)과 유사한 방법을 따라가면서 식 (1.4)의 둘째 줄도 증명한다. 먼저 부분 공간을 ${\bf W}_k$ = ${\rm span}(\{{\bf w}_k, {\bf w}_{k+1}, \cdots, {\bf w}_n \})$와 ${\bf V}_k$ = ${\rm span}(\{{\bf u}_1, {\bf u}_2, \cdots, {\bf u}_k \})$로 설정한다. 여기서 ${\bf w}_i$는 고유 벡터 중에서 선택한 기저 벡터이며 ${\bf V}_k \cap {\bf W}_k \ge 1$이 성립한다. 이번에는 $\bf x$를 ${\bf W}_k$에서 뽑아서 식 (1.6)과 같은 과정을 거친다.

(1.7)

여기서 $\beta_i$와 $\nu_i$는 각각 기저 ${\bf w}_i$의 계수 및 고유값, ${\bf W}_k$의 기저는 ${\bf V}_k$의 원소와 최소한 하나는 겹치며, $\lambda_{\min}$은 ${\bf V}_k \cap {\bf W}_k$의 기저가 만드는 최소 고유값이다. 그래서 $R_{\bf A}({\bf x})$의 최소값을 추적하면 $\lambda_{\min}$을 얻고, 이 $\lambda_{\min}$을 최대로 만들면 $\lambda_k$가 된다. 이 조건은 ${\bf W}_k$ = ${\rm span}(\{{\bf u}_k, {\bf u}_{k+1}, \cdots, {\bf u}_n \})$과 같으므로, $\min[R_{\bf A}({\bf x})]$을 형성하는 $\bf x$는 ${\bf u}_k$가 된다. 결국 ${\bf u}_k$의 고유값인 $\lambda_k$가 ${\bf W}_k$의 최대 레일리 몫이라서 식 (1.4)의 둘째줄도 깔끔하게 증명된다.

______________________________

쿠란트–피셔 정리는 레일리 몫의 최소와 최대를 다루고 있어서 최소-최대 정리(min-max theorem)라고도 불린다.

[참고문헌]

[1] gufotta, "Rayleigh-Ritz theorem," PlanetMath, Mar. 2013. (방문일 2021-11-06)

[2] J. H. Gallier, Appendix A. Rayleigh Ratios and the Courant-Fischer Theorem, Fundamentals of Linear Algebra and Optimization, 2020. (방문일 2021-11-06)

[3] B. G. Bodmann, 4. Variational Characterization of Eigenvalues, Matrix Theory, 2012. (방문일 2021-11-13)

[다음 읽을거리]

1. 특이값 분해

댓글 2개 :

익명2023년 6월 13일 AM 9:53
선형대수 공부 중.. 궁금한 것이 있어 질문합니다.

LU(LDU)분해, QR분해, 고유값 분해 공통점과 차이점에 대해 자세히 설명 해주실 수 있으실까요?

예를들면
1. 정사각 행렬에만 적용가능한지 아니면 모든 행렬에 적용이 가능한지를 비교
2. 열백터 중 서로 독립이 아닌 백터가 있을 때 각각의 분해가 어떤 형태로 그것을 표출하는지 비교
3. 하나의 행렬이 여러 개의 행렬로 분해될 때 분해된 행렬들 중 어느 행렬이 더 중요한지.
4. 각 행렬에 수반되는 4개의 기본 부분공간이 어떻게 변화하는지.
5. 그 외에 공통점과 차이점

혹시 위 5문항에 대한 설명을 자세히 해주실 수 있으실까요? 워낙 어려운 문제라 쉽지 않겠지만 한 번 실례를 무릎쓰고…..부탁드립니다..! 블로그 흥미롭게 보고 있어요 감사합니다 ❤️
답글삭제
답글