2020년 8월 3일 월요일

에르미트 행렬과 유니터리 행렬(Hermitian Matrix and Unitary Matrix)

[경고] 아래 글을 읽지 않고 "에르미트 행렬과 유니터리 행렬"을 보면 바보로 느껴질 수 있습니다.


[그림 1] 켤레 전치 행렬의 정의(출처: wikipedia.org)

행렬 $\bf A$에 대한 에르미트 행렬(Hermitian matrix)은 다음처럼 정의한다.

                       (1)

여기서 행렬의 원소는 일반적으로 복소수(complex number)이다. 식 (1)에 등장하는 ${\bf A}^H$는 $\bf A$의 켤레 전치 행렬(conjugate transpose)이다.

                       (2)

여기서 $(\cdot)^*$는 켤레 복소수(complex conjugate), $(\cdot)^T$는 전치 행렬(transpose)이다. 식 (1)의 정의에 의해, 에르미트 행렬의 대각선 원소는 항상 실수이다. 켤레 전치 행렬은 ${\bf A}^\dagger$처럼 표기할 수도 있다. 또한 켤레 전치 행렬 ${\bf A}^H$는 복소 행렬(complex matrix)을 위해 사용하는 개념이다. 복소 행렬이 아닌 실수 행렬을 고려한다면, 켤레 전치 행렬은 단순한 전치 행렬이 된다. 따라서 복소 영역의 에르미트 행렬은 실수 영역에서 대칭 행렬(symmetric matrix)이 된다. 식 (1)과 비슷하지만 다음과 같은 반대칭(反對稱, skew-symmetry) 특성을 가진 행렬은 반에르미트 행렬(skew-Hermitian matrix)이라 한다.

                       (3)

식 (3)에 의해 반에르미트 행렬의 대각선 원소는 $0$ 혹은 순허수가 된다. 에르미트 행렬과 반에르미트 행렬을 합치면 어떤 복소 행렬이든지 표현할 수 있다. 다른 말로 하면, 임의의 복소 행렬 $\bf A$를 다음처럼 에르미트 행렬과 반에르미트 행렬의 합으로 항상 분해할 수 있다.

                       (4)

식 (4)와 같은 복소 행렬의 관계는 실수 행렬에서 성립하는 대칭(symmetric)과 반대칭(skew-symmetric) 행렬의 합 특성과도 동일하다. 예를 들어 식 (4)에 있는 $\bf A$가 실수 행렬이 되면, 에르미트와 반에르미트 행렬은 대칭과 반대칭 행렬이 된다. 그러면 대칭 행렬의 특성처럼 이 두 행렬의 합은 원래 행렬 $\bf A$가 된다.
여러 행렬 중에서 제일 유명한 행렬이 에르미트 행렬이지만, 식 (1)의 정의는 다소 밋밋하다. 소문난 잔치에 먹을 것이 없는 상황일까? 아니다. 에르미트 행렬은 고유치(eigenvalue)고유 벡터(eigenvector)를 만날 때 빛이 난다.

[에르미트 행렬과 고유치의 관계]
에르미트 행렬의 고유치는 실수이다.

[증명]
행렬 $\bf A$의 고유치 $\lambda$와 고유 벡터 $\bf x$는 다음처럼 표현한다.

                       (5)

식 (5)의 양변에 ${\bf x}^H$를 곱해서 정리하면 다음을 얻는다.

                       (6)

여기서 ${\bf x}^H {\bf x}$는 복소 영역의 내적(inner product)이다. 식 (6)에 의해 $\lambda$ = $\lambda^*$이므로, $\lambda$는 실수가 되어야 한다.
______________________________

식 (6)의 결과를 2차 형식(quadratic form) 관점으로 보면, ${\bf x}^H {\bf Ax}$는 항상 실수이다.

[에르미트 행렬과 고유 벡터의 관계]
서로 다른 고유치를 가진 에르미트 행렬의 고유 벡터는 서로 직교한다.

[증명]
고유치 $\lambda_1, \lambda_2$에 해당하는 고유 벡터를 ${\bf x}_1, {\bf x}_2$라 하면, 식 (6)과 비슷하게 다음 관계식을 만들 수 있다.

                       (7)

식 (7)에서 두 고유치는 다르기 때문에, ${\bf x}_1, {\bf x}_2$는 직교한다.
______________________________

이상의 결과를 종합하면, 에르미트 행렬은 복소 영역으로 일반화한 대칭 행렬(symmetric matrix)이다. 그래서 실수가 원소인 대칭 행렬로 만든 여러 결과에서 대칭 행렬을 에르미트 행렬로 바꾸면, 복소 영역에서 그 결과가 그대로 성립한다. 직교 행렬(orthogonal matrix)에도 동일한 개념을 적용할 수 있다. 실수에서 정의한 벡터의 내적 ${\bf x}^T {\bf y}$를 복소수로 확장하면 ${\bf x}^H {\bf y}$가 된다. 복소 영역의 직교 개념 ${\bf x}^H {\bf y}$ = $0$을 활용하여 행렬을 구성하는 열 벡터를 복소 영역에서 직교시키면, 직교 행렬은 다음과 같은 유니터리 행렬(unitary matrix)이 된다.

                       (8)

여기서 열 벡터는 다음에 표시한 정규 직교 관계가 성립한다.

                       (9)

유니터리 행렬은 단일 행렬로 번역할 수도 있다.[단일 행렬은 잘 쓰지 않는 표현이다. 이해를 위해 강제로 번역했을 뿐이다.] 유니터리 행렬을 구성하는 열 벡터는 복소 영역에서 정규 직교 기저를 이루어서 $n$차원 공간을 계량하는 하나의 단위계로 사용할 수 있다. 그래서 단일화된 혹은 일관된 단위(unit)를 뜻하는 유니터리(unitary)를 도입해서 식 (8)과 같은 행렬의 명칭을 정한다.
에르미트 행렬의 고유치와 고유 벡터가 가진 특성은 기시감이 든다. 이는 정확한 느낌이다. 행렬의 고유치와 고유 벡터는 스튀름–리우빌 이론(Sturm–Liouville theory)에서 봤던 미분 방정식의 고유치와 고유 함수(eigenfunction)와 무척 닮아있다. 수학 분야에서 행렬과 미분 방정식은 굉장히 다른 이론처럼 보이지만, 고유 벡터라는 색안경으로 보면 두 이론은 매우 밀접하게 연결되어 있다. 행렬과 미분 방정식의 연계성은 선형 최소 제곱법(linear least squares)에서도 볼 수 있다.

에르미트 행렬의 성질은 행렬의 고유치 및 고유 벡터와 밀접한 관계를 가지고 있다. 에르미트 행렬의 증명에 자주 등장하는 레일리 몫(Rayleigh quotient) $R_{\bf A}({\bf x})$는 에르미트 행렬 $\bf A$와 고유치 $\lambda$를 연결하는 소중한 개념이다.

                       (10)

여기서 ${\bf x}$는 임의의 열 벡터이며 ${\bf x} \ne {\bf 0}$이어야 한다. 레일리 몫은 미분 방정식을 다루는 스튀름–리우빌 이론(Sturm–Liouville Theory)에서도 중요하게 사용된다.


   1. 다양한 응용(various applications)   

고유치가 실수라는 조건을 이용해서 선형 대수학의 응용에 매우 중요한 에르미트 행렬의 특성을 증명한다.

[레일리–리츠 정리(Rayleigh–Ritz theorem)] [1], [2]
에르미트 행렬 $\bf A$가 가진 순서 있는 고유치 $\lambda_1 < \lambda_2 < \cdots < \lambda_n$에 대해, $k$번째 고유치 $\lambda_k$는 레일리 몫의 최소값과 같다.

                       (1.1)

여기서 $k$ = $1, 2, \cdots, n$, ${\bf U}_k^\perp$는 ${\bf U}_k$에 직교하는 부분 공간, ${\bf U}_k$는 집합 $\{{\bf u}_1, {\bf u}_2, \cdots, {\bf u}_k \}$로 생성(span)한 부분 공간(subspace), ${\bf u}_k$는 식 (9)를 만족하는 $\lambda_k$에 대한 고유 벡터이다.

[증명]
열 벡터 $\bf x$를 ${\bf u}_i$의 선형 결합으로 바꾸어서 레일리 몫을 계산한다.

                       (1.2)

여기서 $\bf x$는 ${\bf U}_{k-1}$는 항상 수직, ${\bf Au}_i$ = $\lambda_i {\bf u}_i$이다. 열 벡터 $\bf x$는 임의로 변할 수 있지만, 식 (1.2)에 의해 레일리 몫은 항상 $\lambda_k$보다 크거나 같다. 결국 레일리 몫의 최소값을 추적한 결과는 고유치 $\lambda_k$에 근접하므로 식 (1.1)이 증명된다.
______________________________

레일리–리츠 정리에 의해 임의의 열 벡터 $\bf x$에 대한 레일리 몫은 다음과 같은 범위에 있다.

                       (1.3)

식 (1.1)과 (1.3)에서 등호가 성립하는 경우는 $\bf x$ = $\alpha_k {\bf u}_k$이다. 레일리–리츠 정리에 사용한 직교 부분 공간 ${\bf U}_k^\perp$의 조건을 완화해서 임의의 부분 공간 ${\bf V}_k$에 대한 레일리 몫과 고유치의 관계를 구하면, 레일리–리츠 정리는 쿠란트-피셔 정리로 진화한다.

[쿠란트–피셔 정리(Courant–Fischer theorem)] [3]
에르미트 행렬 $\bf A$에 대한 레일리 몫의 최소-최대는 $k$번째 고유치 $\lambda_k$와 같다.

                       (1.4)

여기서 $k$ = $1, 2, \cdots, n$, $\lambda_1 < \lambda_2 < \cdots < \lambda_n$, 고유치 $\lambda_k$에 대한 고유 벡터는 ${\bf u}_k$이다.

[증명]
정규 직교 기저(orthonormal basis)인 고유 벡터 ${\bf u}_i$가 만드는 벡터 공간(vector space)을 $V$ = ${\rm span}(\{{\bf u}_1, {\bf u}_2, \cdots, {\bf u}_n \})$이라 한다. 여기서 ${\rm span}({\bf S})$는 집합 $\bf S$의 원소를 선형 결합하여 벡터 공간을 생성하는 연산자, $\bf V$의 차원은 ${\rm dim}({\bf V})$ = $n$이다. 벡터 공간 $\bf V$의 원소를 뽑아서 만든 차원 $k$를 가진 부분 공간은 ${\bf V}_k$ = ${\rm span}(\{{\bf v}_1, {\bf v}_2, \cdots, {\bf v}_k \})$라 한다. 여기서 ${\rm dim}({\bf V}_k)$ = $k$, 기저 ${\bf v}_i$는 고유 벡터 중의 하나이다. 또한 ${\bf V}_k$와는 약간 다르게 차원을 $n-k+1$로 가진 고유 벡터의 부분 공간을 ${\bf W}_k$ = ${\rm span}(\{{\bf u}_k, {\bf u}_{k+1}, \cdots, {\bf u}_n \})$으로 정의한다. 여기서 ${\rm dim}({\bf W}_k)$ = $n-k+1$, ${\bf u}_i$는 고유 벡터이다. 그러면 ${\bf V}_k$와 ${\bf W}_k$는 서로 교차되는 기저가 최소한 하나는 있다.

                       (1.5)

따라서 ${\bf V}_k$에서 뽑아서 만든 열 벡터 $\bf x$에는 ${\bf W}_k$의 기저가 섞이게 되므로 식 (1.2)와 비슷하게 다음 부등식이 성립한다.

                       (1.6)

여기서 $\alpha_i$와 $\mu_i$는 각각 기저 ${\bf v}_i$의 계수 및 고유치, $\lambda_{\max}$는 ${\bf V}_k \cap {\bf W}_k$의 원소가 가진 가장 큰 고유치이다. 최종적으로 식 (1.6)처럼 레일리 몫을 최대로 만드는 조건 하에서 레일리 몫의 최소값을 찾은 최소-최대 연산의 결과는 $\lambda_k$가 된다. 즉, ${\bf V}_k$ = ${\rm span}(\{{\bf u}_1, {\bf u}_2, \cdots, {\bf u}_k \})$로 선택해서 $\max[R_{\bf A}({\bf x})]$가 되는 조건은 ${\bf x}$ = ${\bf u}_k$이다. 고유 벡터 ${\bf u}_k$의 고유치는 차원 $k$를 가진 ${\bf V}_k$가 가질 수 있는 가장 작은 레일리 몫이므로 식 (1.4)의 첫째 줄이 유도된다.
식 (1.6)과 유사한 방법을 따라가면서 식 (1.4)의 둘째 줄도 증명한다. 먼저 부분 공간을 ${\bf W}_k$ = ${\rm span}(\{{\bf w}_k, {\bf w}_{k+1}, \cdots, {\bf w}_n \})$와 ${\bf V}_k$ = ${\rm span}(\{{\bf u}_1, {\bf u}_2, \cdots, {\bf u}_k \})$로 설정한다. 여기서 ${\bf w}_i$는 고유 벡터 중에서 선택한 기저 벡터이며 ${\bf V}_k \cap {\bf W}_k \ge 1$이 성립한다. 이번에는 $\bf x$를 ${\bf W}_k$에서 뽑아서 식 (1.6)과 같은 과정을 거친다.

                       (1.7)

여기서 $\beta_i$와 $\nu_i$는 각각 기저 ${\bf w}_i$의 계수 및 고유치, ${\bf W}_k$의 기저는 ${\bf V}_k$의 원소와 최소한 하나는 겹치며, $\lambda_{\min}$은 ${\bf V}_k \cap {\bf W}_k$의 기저가 만드는 최소 고유치이다. 그래서 $R_{\bf A}({\bf x})$의 최소값을 추적하면 $\lambda_{\min}$을 얻고, 이 $\lambda_{\min}$을 최대로 만들면 $\lambda_k$가 된다. 이 조건은 ${\bf W}_k$ = ${\rm span}(\{{\bf u}_k, {\bf u}_{k+1}, \cdots, {\bf u}_n \})$과 같으므로, $\min[R_{\bf A}({\bf x})]$을 형성하는 $\bf x$는 ${\bf u}_k$가 된다. 결국 ${\bf u}_k$의 고유치인 $\lambda_k$가 ${\bf W}_k$의 최대 레일리 몫이라서 식 (1.4)의 둘째줄도 깔끔하게 증명된다.
______________________________

쿠란트–피셔 정리는 레일리 몫의 최소와 최대를 다루고 있어서 최소-최대 정리(min-max theorem)라고도 불린다.


[참고문헌]
[1] gufotta, "Rayleigh-Ritz theorem," PlanetMath, Mar. 2013. (방문일 2021-11-06)
[2] J. H. Gallier, Appendix A. Rayleigh Ratios and the Courant-Fischer Theorem, Fundamentals of Linear Algebra and Optimization, 2020. (방문일 2021-11-06)
[3] B. G. Bodmann, 4. Variational Characterization of Eigenvalues, Matrix Theory, 2012. (방문일 2021-11-13)

[다음 읽을거리]

특이값 분해(Singular Value Decomposition)

[경고] 아래 글을 읽지 않고 "특이값 분해"를 보면 바보로 느껴질 수 있습니다.


[스트랭Gilbert Strang 교수의 SVD 강의]

행렬의 대각화(diagonalization)에 쓰이는 식 (1)에 제시한 고유 분해(eigendecomposition)는 유용하지만 제한이 많다.

                  (1)

여기서 $\bf S$는 고유 벡터 행렬(eigenvector matrix), $\bf \Lambda$는 고유치 행렬(eigenvalue matrix)이다. 식 (1)이 성립하려면, 행렬 $\bf A$는 정방 행렬이어야 한다. 만약 $\bf A$가 정방 행렬이며 대칭 행렬이라면, 식 (1)을 더 간단히 공식화할 수 있다.

                  (2)

여기서 $\bf Q$는 고유 벡터로 구성한 직교 행렬(orthogonal matrix)이다. 식 (2)처럼 아름다운 고유 분해를 모든 행렬로 확장할 수 있는 방법이 존재한다. 그 비법은 바로 임의의 행렬을 대각화할 수 있는 특이값 분해(singular value decomposition)이다. 특이값 분해는 간단히 SVD라고도 한다. SVD를 쓰면, 정방 행렬 혹은 대칭 행렬 조건에 관계없이 임의의 행렬을 대각화할 수 있다.

[그림 1] 2차원에 적용한 특이값 분해(출처: wikipedia.org)

[특이값 분해]
임의의 $m \times n$ 행렬 $\bf A$를 다음과 같은 행렬의 곱으로 대각화할 수 있다. 

                  (3)

여기서 $\bf \Sigma$는 대각선 원소가 음수가 아닌 특이값(singular value) $\sigma_i$인 대각 행렬, $\bf U$와 $\bf V$는 각각 좌특이 벡터(left-singular vector) ${\bf u}_i$와 우특이 벡터(right-singular vector) ${\bf v}_i$가 열 벡터로 들어가는 직교 행렬(orthogonal matrix), $(\cdot)^T$는 전치 행렬(transpose)이다. 행렬 $\bf \Sigma$, $\bf U$, $\bf V$의 차원은 각각 $m \times n$, $m \times m$, $n \times n$이다.

[증명]
행렬 $\bf A$에 대해 특이값이 $0$이 아닌 좌특이 벡터와 우특이 벡터는 다음과 같다.

                  (4)

여기서 $\sigma_i$ = $\sqrt{\lambda_i}$, $\lambda_i$는 고유치(eigenvalue)이다. 식 (4)를 고유치와 고유 벡터의 관점으로 다시 쓰면 다음과 같다.

                  (5)

여기서 ${\bf u}_i$와 ${\bf v}_i$는 특이 벡터이면서 동시에 고유 벡터이다. 최소 제곱 행렬 ${\bf A}^T {\bf A}$와 ${\bf A} {\bf A}^T$는 $\bf A$에 관계없이 항상 대칭 행렬이다. 또한 두 최소 제곱 행렬의 고유치 $\lambda_i$는 음수가 아니고 서로 같다. 최소 제곱 행렬의 고유 벡터는 서로 직교하는 성질이 있다. 이러한 성질과 식 (5)를 바탕으로 최소 제곱 행렬을 고유 분해한다.

                  (6)

식 (6)에 있는 직교 행렬 $\bf U$, $\bf V$와 대각 행렬 ${\bf \Lambda}_u$, ${\bf \Lambda}_v$는 다음처럼 구성한다.

                  (7)

여기서 $r$ = $\operatorname{rank}({\bf A}) \le \min(m, n)$, 대각 행렬의 고유치는 내림차순으로 $\lambda_1 \ge \lambda_2 \ge \cdots \ge \lambda_r \ge 0$처럼 배치한다. 고유치가 서로 다르지 않고 같은 경우가 생기면, 고유 벡터를 선택할 때 자유도가 생긴다. 이때는 그람–슈미트 과정(Gram–Schmidt process)을 이용해서 고유 벡터가 서로 직교하도록 선택한다. 식 (7)에 있는 대각 행렬 ${\bf \Lambda}_u$, ${\bf \Lambda}_v$를 다음처럼 다시 분해할 수 있다.

                  (8)

여기서 특이값도 고유치[$\lambda_i$ = $\sigma_i^2$]처럼 내림차순으로 $\sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_r \ge 0$을 만족하게 배열한다. 식 (8)을 식 (6)에 대입하고 직교 행렬의 성질인 ${\bf Q} {\bf Q}^T$ = ${\bf Q}^T {\bf Q}$ = $\bf I$를 적용하면, 식 (6)을 더 세부적인 행렬로 분해할 수 있다.

                  (9)

따라서 행렬 $\bf A$는 식 (3)처럼 분해될 가능성이 있다. 마지막으로 식 (3)의 우변이 좌변과 같은지 확인하자[3]. 먼저 임의의 열 벡터 $\bf x$와 ${\bf \Sigma}{\bf V}^T$를 곱해보자.

                  (10)

식 (3)의 우변과 같은 모양을 만들기 위해 식 (10)의 결과에 $\bf U$를 곱한다.

                  (11)

식 (11)에 식 (4)의 첫째식을 대입해서 정리한다.

                  (12)

여기서 ${\bf v}_i$는 정규 직교 기저(orthonormal basis), $i > r$이면 ${\bf A} {\bf v}_i$ = $0$, ${\bf V}{\bf V}^T$ = $\bf I$이다. 따라서 식 (12)는 임의의 $\bf x$에 대한 항등식이어서 식 (3)이 성립한다.
______________________________

특이값의 영어 알파벳이 s로 시작하므로, 특이값을 가진 대각 행렬의 알파벳은 $\Sigma$가 된다. 또한 행렬 $\bf U$는 일반적으로 유니터리 행렬(unitary matrix)이어서 알파벳 U로 표현한다.
명확히 증명한 특이값 분해는 다양한 방식으로 응용할 수 있다.


   1. 기본(basics)   

[유사 역행렬(pseudoinverse)]

                  (1.1)

여기서 ${\bf \Sigma}^+$의 차원은 $n \times m$이며 대각선 원소는 $1/\sigma_1, 1/\sigma_2, \cdots, 1/\sigma_r, 0, \cdots, 0$이다.

[증명]
유사 역행렬의 특성을 확인하기 위해 다음 행렬 곱을 고려한다.

                  (1.2)

                  (1.3)

여기서 $i > r$이면 ${\bf u}_i^T {\bf A}$ = ${\bf v}_i^T {\bf A}^+$ = $0$이다. 행렬 곱 ${\bf  A} {\bf  A}^+$와 ${\bf  A}^+ {\bf  A}$는 완전한 항등 행렬이 아닐 수 있지만,  ${\bf  A}$ 혹은  ${\bf  A}^+$가 곱해진 조건에서는 항등 행렬이 된다. 따라서 식 (1.1)은 유사 역행렬의 표현식이 된다.
______________________________

행렬 ${\bf  A}$의 행 벡터가 모두 선형 독립이면, 식 (1.2)에 의해 ${\bf  A} {\bf  A}^+$ = $\bf I$가 된다. 이 경우 ${\bf  A}^+$는 우역행렬(right inverse)이다. 비슷하게 ${\bf  A}$의 열 벡터가 선형 독립이면, ${\bf  A}^+ {\bf  A}$ = $\bf I$가 되어서 ${\bf  A}^+$는 좌역행렬(left inverse)이 된다. 유사 역행렬은 일반화 역행렬(generalized inverse) 혹은 무어–펜로즈 역행렬(Moore–Penrose inverse)이라고도 한다.

[복소 영역으로 일반화]
에르미트 행렬(Hermitian matrix)과 유니터리 행렬(unitary matrix)을 도입하면 복소 영역에서 특이값 분해를 할 수 있다.

                  (1.4)

여기서 $\bf \Sigma$는 대각선 원소가 음수가 아닌 실수 특이값(singular value) $\sigma_i$인 대각 행렬, $\bf U$와 $\bf V$는 특이 행렬로 구성한 유니터리 행렬, $(\cdot)^H$는 켤레 전치 행렬(conjugate transpose)이다.

[증명]
에르미트 행렬의 고유치는 실수이며, 고유 벡터는 서로 직교한다. 유니터리 행렬은 열 벡터가 서로 정규 직교(orthonormal: 크기는 $1$이면서 서로 직교)한다. 이런 특성을 식 (3)의 증명에 교체해서 적용하면, 식 (1.4)를 증명할 수 있다.
______________________________


[참고문헌]
[1] G. Strang, Linear Algebra and its Applications, 4th ed., Brooks/Cole, 2006.
[2] G. Gundersen, "Proof of the singular value decomposition," Blog, 2018. (방문일 2020-08-03)
[3] M. Hutchings, "Notes on singular value decomposition for Math 54," Linear Algebra and Differential Equations, UC Berkeley, 2017. (방문일 2020-08-04)
[4] P. L. Gilabert, R. N. Braithwaite and G. Montoro, "Beyond the Moore-Penrose inverse: strategies for the estimation of digital predistortion linearization parameters," IEEE Microw. Mag., vol. 21, no. 12, pp. 34–46, Dec. 2020.

2020년 7월 31일 금요일

행렬의 고유치와 고유 벡터(Eigenvalue and Eigenvector of Matrix)

[경고] 아래 글을 읽지 않고 "행렬의 고유치와 고유 벡터"를 보면 바보로 느껴질 수 있습니다.


[고유치와 고유 벡터의 시각화]

행렬(matrix) 이론은 1차 연립 방정식인 ${\bf Ax} = {\bf b}$를 효율적으로 풀려는 의도에서 시작했다. 행렬로 표현한 ${\bf Ax} = {\bf b}$를 뜯어서 보자. 해를 표현하는 열 벡터(column vector) $\bf x$와 연립 방정식 행렬 $\bf A$의 곱 ${\bf Ax}$가 평면의 교점을 나타내는 열 벡터 $\bf b$와 같게 하는 $\bf x$를 찾는 과정이 1차 연립 방정식의 해법이다. 하지만 행렬을 1차 연립 방정식의 해법에만 묶어두기에는 행렬의 잠재력과 파급력이 너무 크다. 그래서 행렬의 곱 ${\bf Ax}$를 다시 보자. 해 $\bf x$와 연립 방정식 행렬 $\bf A$의 곱인 ${\bf Ax}$로 보지 말고, 열 벡터 $\bf x$의 선형 변환 $f({\bf x})$ = ${\bf Ax}$라 생각하자. 그러면 어떤 열 벡터 $\bf x$에 대해, 선형 변환을 하더라도 $\bf x$와 같은 방향에 놓이는 열 벡터가 존재할 수 있다. 이를 행렬 관계식으로 표현하면 다음과 같다.

                  (1)

여기서 $\bf x$는 고유 벡터(eigenvector), $\lambda$는 $\bf x$에 대한 고유치(eigenvalue)라 부른다. 고유 벡터와 고유치에 쓰이는 영어 아이건(eigen, 고유한)은 독일어에서 유래한다. 이러한 고유치의 어원에서 독일 수학의 위대함을 넌지시 볼 수 있다. 만약 고유치 $\lambda$ = $1$이라면, 고유 벡터 $\bf x$는 선형 변환 $\bf A$에 대한 고정점(fixed point)이라 생각할 수도 있다. 즉, 고유 벡터는 선형 변환을 하더라도 원래 벡터의 방향을 그대로 가지고 있고, 원래 벡터와 선형 변환한 벡터는 고유치만큼만 다르다. 고유 벡터의 대표적인 예는 [그림 1]에 소개한 회전 연산에 대한 주축(主軸, principal axis)이다. 3차원 공간에서 회전을 하면, 주축 벡터 $\hat e$를 중심으로 벡터가 $\theta$만큼 회전한다. 하지만 $\hat e$와 나란한 벡터는 회전하지 않고 원래 방향을 그대로 유지한다. 그래서 [그림 1]의 회전 연산에 대한 고유 벡터는 주축 벡터 $\hat e$가 된다. 회전 연산은 벡터의 크기를 바꾸지 않기 때문에 $\hat e$의 고유치는 $1$이 된다.

[그림 1] 3차원 공간에서 주축 $\hat e$에 대한 회전(출처: wikipedia.org)

고유 벡터를 식 (1)처럼 정의해서 행렬을 선형 변환으로 보는 관점은 이해가 간다. 하지만 1차 연립 방정식에 사용한 행렬을 식 (1)처럼 썼다고 해서, 고유치와 고유 벡터가 매우 큰 개념일 수 있을까? 이 부분을 이해하려면 식 (1)을 다르게 봐야 한다. 과감하게 행렬과 스칼라(scalar) 개념을 착각해야 한다. 식 (1)의 좌변과 우변이 같다면, ${\bf A} \equiv \lambda$라 생각할 수 있다.[행렬 ${\bf A}$가 $1\times1$ 행렬이 아닌 다음에야 스칼라 $\lambda$와 절대 같을 수는 없다. 하지만 ${\bf A}$의 특성을 표현하는 스칼라로 $\lambda$를 선택할 수는 있다.] 즉, 식 (1)에 의해 복잡한 행렬 ${\bf A}$를 단 하나의 스칼라 $\lambda$로 표현할 수 있는 길이 열린다. 우리가 행렬을 분석할 때, ${\bf A}$를 직접 공략하기보다 ${\bf A}$를 바꾼 $\lambda$로 분석하면 더 쉽게 행렬의 여러 특성을 예측할 수 있다. 그래서 행렬 이론의 전반전이 1차 연립 방정식의 해법인 ${\bf Ax}$ = ${\bf b}$라면, 후반전은 ${\bf Ax}$ = $\lambda{\bf x}$로 시작한다.
행렬이 주어지면 고유치부터 먼저 정해야 한다. 식 (1)을 이항해서 고유치 $\lambda$에 대한 방정식을 만든다.

                  (2)

식 (2)의 우변에 있는 행렬식이 $0$이 아니면 식 (2)의 좌변에 있는 방정식이 풀린다. 그러면 $\bf x$ = $\bf 0$이 되므로, $\lambda$에 관계 없고 의미도 없는 고유 벡터가 된다.[∵ 해 $\bf x$ = $\bf 0$은 자명하므로, 고유 벡터에서 제외한다.] 따라서 식 (2)의 우변이 꼭 성립해야 한다. 대수학의 기본 정리(fundamental theorem of algebra)를 쓰면 식 (2)의 우변을 다음처럼 공식화할 수도 있다.

                  (3)

여기서 ${\bf A}$의 차원은 $n \times n$, $\lambda_i$는 $i$번째 고유치이다. 고유치에 대한 행렬식이 $0$이므로, 정방 행렬(square matrix) ${\bf A} - \lambda {\bf I}$를 구성하는 행 벡터 중에서 하나 이상은 선형 종속(linear dependence)이 되어야 한다. 예를 들어 $i$번째 행이 다른 행과 선형 종속이라 가정한다. 그러면 식 (2)의 좌변에 따라 고유 벡터 $\bf x$를 다음처럼 결정할 수 있다.

             (4)

여기서 $x_i \ne 0$이 되도록 $i$번째 행을 선택한다.


   1. 기본(basics)   

식 (1)을 이용해서 정방 행렬 $\bf A$, 고유 벡터 $\bf x$, 고유치 $\lambda$의 관계를 다양하게 증명할 수 있다.

[고유치의 합]
모든 고유치의 합은 정방 행렬의 대각합과 같다.

[증명]
행렬의 대각합(對角合, trace) $\operatorname{tr}({\bf A})$은 대각선 원소의 합으로 정의한다.

                  (1.1)

식 (3)의 원래 의미는 $\lambda$에 대한 $n$차 방정식이다. 하지만 식 (3)의 처음 두 식에는 임의의 $\lambda$를 넣을 수 있다. 이 경우 $\lambda \to \infty$로 가는 극한(limit)을 생각한다. 그러면 정방 행렬 ${\bf A} - \lambda {\bf I}$은 대각 행렬(diagonal matrix)로 수렴해서 다음 관계가 성립한다.

                  (1.2)

식 (1.2)에서 $\lambda^{n-1}$ 항의 계수를 비교하면, 정방 행렬의 대각합은 모든 고유치의 합과 같다.
______________________________

고유치의 합 특성에 의해, 모든 고유치가 양수가 되려면 정방 행렬의 대각합이 반드시 $0$보다 커야 한다.

[고유치의 곱]
모든 고유치의 곱은 정방 행렬의 행렬식이다.

[증명]
식 (3)에서 $\lambda$ = $0$을 대입하면 증명할 수 있다.
______________________________

고유치의 곱 특성에 따라 행렬식이 $0$이면, $0$인 고유치가 반드시 존재한다. 또한 고유치가 $0$인 고유 벡터는 식 (4)에 $\lambda$ = $0$을 대입해 계산할 수 있다. 

[고유치와 고유 벡터의 관계]
서로 다른 고유치에 대한 고유 벡터는 선형 독립이다.

[증명]
고유치 $\lambda_1, \lambda_2$에 대한 고유 벡터를 ${\bf x}_1, {\bf x}_2$라 한다. 고유 벡터 ${\bf x}_1, {\bf x}_2$의 선형 결합(linear combination)에 식 (1)을 적용해서 정리하면 다음과 같다[1].

                  (1.3)

고유 벡터의 선형 결합에 $\lambda_2$를 곱하면 다음 관계도 얻는다.

                  (1.4)

식 (1.3), (1.4)의 최종 결과를 서로 빼주어 ${\bf x}_2$를 없애자.

                  (1.5)

고유치는 서로 다르고 ${\bf x}_1$이 영 벡터가 아니기 때문에, 식 (4)의 좌변을 만족하려면 $\alpha_1$ = $0$이 되어야 한다. 비슷한 방법으로 식 (1.3)에서 ${\bf x}_1$을 없애면 다음과 같다.

                  (1.6)

따라서 $\alpha_1$ = $\alpha_2$ = $0$이 되어야 하므로, ${\bf x}_1$과 ${\bf x}_2$는 서로 선형 독립이다. 고유 벡터가 두 개보다 더 많더라도 식 (1.5), (1.6)과 동일한 방법으로 $\alpha_i$ = $0$을 증명할 수 있다. 그래서 고유치가 서로 다르면 고유 벡터는 항상 선형 독립이다. 
______________________________

[대칭 행렬과 고유치의 관계]
대칭 행렬의 고유치는 항상 실수이다.

[증명]
실수 원소로 구성한 대칭 행렬은 에르미트 행렬(Hermitian matrix)이므로, 고유치는 항상 실수가 되어야 한다.
______________________________

실수 원소만 있는 행렬은 실수 행렬(real matrix)라 한다. 원소의 범위가 더 확장되어 복소수까지 가능하면 실수 행렬의 일반화인 복소 행렬(complex matrix)이 된다. 복소 행렬에 포함되는 켤레 행렬(conjugate matrix)을 이용해 실수 행렬을 다음처럼 정의할 수 있다.

                  (1.7)

여기서 ${\bf A}^*$는 $\bf A$의 원소에 켤레 복소수를 취한 켤레 행렬이다.

[대칭 행렬과 고유 벡터의 관계]
서로 다른 고유치를 가진 대칭 행렬의 고유 벡터는 서로 직교한다.

[증명]
고유 벡터의 직교성(orthogonality)은 내적(inner product)으로 결정할 수 있다. 정방 행렬 ${\bf A}$의 두 고유 벡터를 ${\bf x}_1$, ${\bf x}_2$, 고유 벡터에 대응하는 고유치를 $\lambda_1, \lambda_2$라 하자. 그러면 다음과 같은 2차 형식(quadratic form)을 계산할 수 있다.

                  (1.8)

여기서 2차 형식은 스칼라이므로 ${\bf y}^T {\bf Ax}$ = $({\bf y}^T {\bf Ax})^T$ = ${\bf x}^T {\bf A}^T {\bf y}$가 성립한다. 따라서 식 (1.8)에 의해 ${\bf x}_1$과 ${\bf x}_2$는 서로 직교한다.
______________________________


   2. 다양한 연산(various operations)   

고유치와 고유 벡터의 유용성은 행렬의 대각화(diagonalization)에서 분명히 확인된다. 원소가 빽빽하게 채워진 행렬은 계산이 매우 어렵지만, 대각화를 해서 대각 행렬로 만들면 효율적인 행렬 처리가 가능하다.

[행렬의 대각화]
정방 행렬 $\bf A$가 서로 다른 고유치를 가지면, 행렬을 대각화할 수 있다.

                  (2.1)
 
여기서 $\bf S$는 고유 벡터를 열 벡터로 구성한 정방 행렬인 고유 벡터 행렬(eigenvector matrix), $\bf \Lambda$는 고유치로 구성한 대각 행렬인 고유치 행렬(eigenvalue matrix)이다.

[증명]
식 (3)을 보면 $n \times n$ 행렬은 $n$개의 고유치를 가진다. 가정에 의해 고유치가 모두 다르기 때문에, 고유 벡터는 모두 선형 독립이다. 그러면 식 (1)에 따라 다음처럼 행렬의 대각화를 할 수 있다.

                  (2.2)

정방 행렬 $\bf S$는 열 벡터가 모두 선형 독립이므로, 역행렬이 존재해서 식 (2.1)처럼 표현할 수 있다.
______________________________

식 (2.1)과 같은 행렬의 분해는 고유치와 고유 벡터를 사용하기 때문에 고유 분해(eigendecomposition) 혹은 스펙트럼 분해(spectral decomposition)라 부른다. 행렬에서 스펙트럼(spectrum)이란 용어가 나와서 어색할 수 있지만, 주파수(frequency) 분석에 쓰는 푸리에 급수의 직교성처럼 고유 벡터의 직교성을 사용한 분해이기 때문에 스펙트럼[원래 뜻: 분광기로 분해한 빛의 성분]이란 말을 쓴다. 행렬의 고유 분해에서 고유치 행렬 $\bf \Lambda$의 알파벳은 고유치 $\lambda$의 대문자인 $\Lambda$를 사용한다. 고유 벡터 행렬 $\bf S$는 스펙트럼 분해에 사용되므로, 알파벳은 S를 선택한다.
대칭 행렬인 경우는 고유 벡터가 서로 직교하므로 $\bf S$의 열 벡터의 크기를 $1$로 만들면, $\bf S$는 직교 행렬(orthogonal matrix) $\bf Q$로 쓸 수 있다. 그래서 대각 행렬 $\bf A$에 대한 대각화는 다음처럼 공식화한다.

                  (2.3)

여기서 $\bf Q$의 역행렬은 전치 행렬이다.

[대각화와 행렬의 곱]

                  (2.4)

[증명]
식 (2.1)을 $k$번 곱하면 ${\bf S}^{-1}$와 ${\bf S}$의 곱이 항등 행렬을 만들기 때문에, 식 (2.4)를 증명할 수 있다.
______________________________

행렬의 대각화가 가능하기 때문에 행렬의 곱도 식 (2.4)처럼 매우 간략화된다. 즉, 행렬 곱의 핵심은 내부에 있는 대각 행렬의 곱이므로, 대각선 원소를 $k$번 곱하면 ${\bf \Lambda}^k$를 쉽게 계산해서 원래 행렬의 곱 ${\bf A}^k$를 효과적으로 얻을 수 있다.

[대각화와 역행렬]

                  (2.5)

[증명]
식 (2.5)에 있는 $\bf A$와 ${\bf A}^{-1}$을 서로 곱하면 다음 결과를 얻는다.

                  (2.6)
______________________________

식 (2.1)처럼 행렬의 대각화를 한 후 대각 행렬 $\bf \Lambda$의 역행렬을 구하면, 더 쉽게 원래 행렬의 역행렬을 구할 수 있다.

[고유 벡터의 선형 결합]
임의의 행렬 $\bf AX$를 $0$이 아닌 고유치와 고유 벡터의 선형 결합으로 표현할 수 있다.

                  (2.7)

여기서 $\bf X$는 임의의 열 벡터, 고유치가 $0$인 고유 벡터는 ${\bf x}_\text{null}$, $r$ = $\operatorname{rank}({\bf A})$, 고유치 $\lambda_i$는 서로 다르다.

[증명]
열 벡터 $\bf X$를 고유 벡터의 선형 결합으로 표현할 때, 고유치가 $0$인 기저 ${\bf x}_\text{null}$까지 사용해야 한다. 하지만 식 (2.7)의 마지막식에 의해, 이 기저는 행렬 합에 기여하지 않으므로 최종 선형 결합에서는 제외한다.
______________________________

식 (2.7)을 이용하면 행렬 $\bf AX$의 결과는 고유치가 $0$이 아닌 고유 벡터의 선형 결합으로 완전하게 표현할 수 있다. 고유 벡터 ${\bf x}_i$의 크기가 $1$인 경우는 단위 고유 벡터(unit eigenvector) $\hat {\bf x}_i$라고 한다. 단위 고유 벡터를 기저(basis)로 해서 선형 결합을 표현하면, 다양한 수치 계산에 유용하다.

[역행렬의 고유치]
역행렬의 고유치는 원래 행렬에 대한 고유치의 역수이며, 역행렬의 고유 벡터는 원래 행렬의 고유 벡터와 같다.

                  (2.8)

여기서 $\lambda$는 행렬 $\bf A$의 고유치이다.

[증명]
식 (1)을 다음처럼 변형하면 증명할 수 있다.

                  (2.9)
______________________________

고유 분해의 직접적인 응용 중 하나는 행렬의 제곱근(square root of a matrix)이다.

[행렬의 제곱근]
행렬 $\bf A$를 고유 분해(eigendecomposition)하여 $\bf A$의 제곱근을 다음처럼 정의한다.

                  (2.10)

여기서 ${\bf \Lambda}^{1/2}$는 대각 행렬(diagonal matrix) $\bf \Lambda$의 제곱근[${\bf \Lambda}^{1/2}{\bf \Lambda}^{1/2}$ = $\bf \Lambda$]이며 ${\bf \Lambda}^{1/2}$ = ${\rm diag}(\sqrt{\lambda_1}, \sqrt{\lambda_2}, \cdots, \sqrt{\lambda_n})$처럼 구할 수 있다.
 
[증명]
식 (2.10)에 정의한 제곱근 행렬을 서로 곱해본다.

                  (2.11)
______________________________

서로 다른 고유치를 가진 행렬을 고유 분해하면, 식 (2.10)과 비슷하게 실수 지수를 가진 행렬의 거듭제곱(power of a matrix)을 만들 수 있다.

                  (2.12)

여기서 $r$은 실수, ${\bf \Lambda}^r$ = ${\rm diag}(\lambda_1^r, \lambda_2^r, \cdots, \lambda_n^r)$이다.

[행렬의 제곱근과 대칭 행렬]
행렬 ${\bf A}$에 대해 ${\bf A} = {\bf A}^T$  $\Leftrightarrow$  ${\bf A}^{1/2} = ({\bf A}^{1/2})^T$을 만족한다.

[증명]
행렬 $\bf A$가 대각 행렬이라면, 식 (2.3)에 의해 고유 분해가 되어서 다음 관계식을 얻는다.

                  (2.13)

행렬 $\bf A$의 제곱근이 대칭 행렬인 경우는 대칭 행렬의 성질에 의해 ${\bf A}^{1/2}$의 제곱도 대칭 행렬이 된다.
______________________________

[행렬의 제곱근과 교환 법칙]
(a) 역행렬이 존재하는 행렬 ${\bf B}$에 대해 ${\bf AB} = {\bf BA}$  $\Leftrightarrow$  ${\bf A}^{1/2} {\bf B} = {\bf B} {\bf A}^{1/2}$이 성립한다.
(b) 역행렬을 가진 ${\bf A}, {\bf B}$에 대해 ${\bf AB} = {\bf BA}$  $\Leftrightarrow$  ${\bf A}^{1/2} {\bf B}^{1/2} = {\bf B}^{1/2} {\bf A}^{1/2}$이다.

[명제 (a)의 증명]
교환 법칙 ${\bf AB} = {\bf BA}$를 만족해서 $\bf A$ = ${\bf BAB}^{-1}$이 된다. 만약 $\bf C$ = ${\bf BA}^{1/2} {\bf B}^{-1}$로 둔 경우는 ${\bf C}^2$ = $\bf A$가 되어서 $\bf C$는 $\bf A$의 제곱근이다. 따라서 ${\bf C B}$ = ${\bf BA}^{1/2} {\bf B}^{-1} {\bf B}$ = ${\bf BA}^{1/2}$이 얻어진다. 명제의 오른쪽 식이 선택되면, $\bf AB$ = ${\bf A}^{1/2} {\bf A}^{1/2} {\bf B}$ = ${\bf A}^{1/2} {\bf B}{\bf A}^{1/2} $ = ${\bf BA}$가 유도된다. 

[명제 (b)의 증명]
관계 ${\bf AB} = {\bf BA}$를 두고 명제 (a)의 오른쪽 식에 의해 ${\bf B}$ = ${\bf A}^{1/2} {\bf B} {\bf A}^{-1/2}$을 만든다. 명제 (a)의 증명처럼 $\bf C$ = ${\bf A}^{1/2} {\bf B}^{1/2} {\bf A}^{-1/2}$이라 정의하면, ${\bf C}^2$ = $\bf B$가 되어서 $\bf C$는 분명 $\bf B$의 제곱근이다. 따라서 ${\bf C}{\bf A}^{1/2}$ = ${\bf A}^{1/2} {\bf B}^{1/2}$에 따라 오른쪽 식이 증명된다. 조건 ${\bf A}^{1/2} {\bf B}^{1/2}$ = ${\bf B}^{1/2} {\bf A}^{1/2}$이 주어지면, $\bf AB$ = $({\bf A}^{1/2})^2 ({\bf B}^{1/2})^2$ = $({\bf A}^{1/2} {\bf B}^{1/2})^2$ = $\bf BA$에 의해 왼쪽 식이 만족된다.
______________________________

명제 (a), (b)에 나오는 역행렬의 존재성은 아래에 증명하는 교환 법칙과 대칭 행렬의 고유 벡터 동일성에 의해 대각화 혹은 고유 분해 가능성으로 일반화될 수도 있다. 즉, 역행렬이 존재하지 않더라도 대칭 행렬이 고유 분해만 된다면, 제곱근과의 교환 법칙도 필연적으로 성립한다. 

[교환 법칙과 대칭 행렬의 고유 벡터]
대칭 행렬 ${\bf A}, {\bf B}$가 고유 분해되어서 ${\bf A} = {\bf S \Lambda S}^T$, ${\bf B} = {\bf T M T}^T$이면, ${\bf AB} = {\bf BA}$  $\Leftrightarrow$  ${\bf S} = {\bf T}$가 성립한다. 여기서 고유 벡터 행렬 ${\bf S} = [{\bf x}_i]$, ${\bf T} = [{\bf y}_i]$를 구성하는 고유 벡터의 내적은 ${\bf x}_i^T {\bf y}_i \ne 0$이라 가정한다.

[증명]
대칭 행렬의 곱은 다음과 같이 고유 분해와 연결된다.

                  (2.14)

교환 법칙에 따라 식 (2.14)에 나온 행렬의 곱이 서로 같다고 놓는다.

                  (2.15)

교환 법칙과 대각 행렬의 성질에 의해 식 (2.15)에서 정의한 행렬 $\bf D$는 대각 행렬이 되어야 한다. 그러면 행렬 $\bf Q$와 원소 $q_{ij}$는 다음 관계식을 만족한다.

                  (2.16)

여기서 $m_j$와 $d_i$는 각각 $\bf M$과 $\bf D$의 대각선 원소이다. 식 (2.16)에서 $i$ = $j$라 두면, $d_i$ = $m_i$가 된다. 왜냐하면 조건 ${\bf x}_i^T {\bf y}_i \ne 0$은 $q_{ii} \ne 0$을 의미하기 때문이다. 또한 대각선에서 $d_i$ = $m_i$이므로, 비대각선인 $i \ne j$ 경우는 $m_i \ne m_j$가 되어서 $q_{ij}$ = $0$이 유도된다. 마지막으로 $\bf Q$ = ${\bf S}^T {\bf T}$ = $\bf I$인 결과를 이용해 $\bf S$ = $\bf T$를 증명한다. 명제의 오른쪽 식이 조건으로 주어지면, 식 (2.14)에 따라 왼쪽 식이 매우 쉽게 얻어진다.
______________________________

교환 법칙을 만족하는 두 대칭 행렬의 고유 벡터가 같다는 성질을 이용해서 임의의 지수(exponent)를 가진 행렬간의 교환 법칙도 쉽게 유도할 수 있다.


   3. 다양한 응용(various applications)   

[그림 3.1] 원뿔 곡선의 종류: 1. , 2. 타원, 3. 포물선, 4. 쌍곡선(출처: wikipedia.org)

[원뿔 곡선의 판별식(discriminant of conic section)]
아래 2차 곡선이 표현하는 원뿔 곡선(conic section)의 형태는 판별식(discriminant) $D$ = $ac - b^2$으로 결정한다.
  • $D > 0$: 타원
  • $D$ = $0$: 포물선 혹은 직선
  • $D < 0$: 쌍곡선

                  (3.1)

[증명]
2차 곡선을 나타내는 식 (3.1)을 2차 형식(quadratic form)으로 바꾸어 쓴다.

                  (3.2)

대칭 행렬 $\bf A$를 식 (2.3)과 같이 고유 분해해서 새로운 변수 $x', y'$을 도입한다.

                  (3.3)

여기서 ${\bf x}'$ = $[x'~y']^T$, $\bf \Lambda$ = $\operatorname{diag}(\lambda_1, \lambda_2)$이다. 식 (3.3)을 식 (3.1)에 대입해서 2차 곡선의 변수를 $x', y'$로 바꾼다.

                  (3.4)

여기서 $\bf x$ = ${\bf Qx}'$, $x$ = $q_{11}x' + q_{12}y'$, $y$ = $q_{21}x' + q_{22}y'$, $q_{ij}$는 직교 행렬(orthogonal matrix) $\bf Q$의 원소이다. 식 (3.4)는 $x', y'$가 서로 분리되어 구성된 2차 곡선이며, 고유치 $\lambda_1, \lambda_2$의 부호에 따라 원뿔 곡선의 종류가 정해진다. 또한 고유치의 부호는 $\bf A$의 행렬식 $|{\bf A}|$ = $\lambda_1 \lambda_2$ = $ac - b^2$이 결정한다. 따라서 원뿔 곡선의 판별식은 $D$ = $ac - b^2$이 된다. 만약 $D > 0$이면, 모든 고유치의 부호가 같아서 2차 곡선은 타원으로 그려진다. 반대로 $D < 0$인 경우는 고유치의 부호가 달라서 쌍곡선으로 도출된다. 이외에 $D$ = $0$이면, 고유치 중 하나가 0이라서 식 (3.4)로 표현되는 포물선이 된다. 모든 고유치가 0이면, 식 (3.4)에서 제곱 항이 사라져서 2차 곡선인 포물선이 아닌 1차 함수인 직선으로 바뀐다.
______________________________

[그림 3.2] 좌표축 $\bf x$를 ${\bf x}'$으로 $\theta$만큼 회전(출처: wikipedia.org)

고유 벡터로 만든 직교 행렬 $\bf Q$에서 $q_{11}, q_{22}$는 임의로 택할 수 있어서 두 값을 $q_1$로 둔다. 또한 두 열 벡터는 직교하므로, $q_{21}$ = $-q_{12}$ = $q_{2}$를 얻는다. 다음 단계로 $\bf Q$를 2차원 회전 행렬로 두고 식 (3.4)를 간략화한다.

                  (3.5a)

                  (3.5b)

여기서 $q_1^2 + q_2^2$ = $1$; $\bf Q$는 [그림 3.2]와 같이 좌표축 ${\bf x}$를 $\theta$만큼 회전시켜 새로운 좌표축 ${\bf x}'$을 만든다. 따라서 식 (3.1)은 좌표축 ${\bf x}'$에 맞게 그려진 표준 2차 곡선을 좌표축 ${\bf x}$에서 각도 $\theta$만큼 돌린 기울어진 2차 곡선이다.
상이한 수학 분야가 합쳐지는 경이를 볼 수 있는 좋은 예가 원뿔 곡선의 판별식이다. 예로부터 잘 알려진 원뿔 곡선을 분류하는 기준은 [그림 3.1]과 같은 절단이다. 다른 측면으로 원뿔 곡선의 판별식 $D$를 도입함으로써 대수적으로 2차 곡선 혹은 원뿔 곡선의 종류를 판정할 수 있다. 이 판별식은 행렬식과 고유치의 성질을 지능적으로 연결한 공식이다. 또한 원뿔 곡선의 판별식[= $ac - b^2$]은 2차 방정식의 판별식[= $b^2 - ac$]과 거의 같지만 부호가 다르다. 왜냐하면 원뿔 곡선의 판별식은 2차 방정식이 아닌 2차 곡선의 2차 항으로 만든 행렬의 행렬식이기 때문이다.


   4. 특성 다항식(characteristic polynomial)   

정방 행렬(square matrix)과 다항식을 연결시키는 중요한 개념은 특성 다항식(characteristic polynomial)이다. 특성 다항식 $p(x)$은 식 (1)을 따라 행렬식(determinant)을 이용해 정의한다.

                  (4.1)

여기서 $\bf I$는 항등 행렬(identity matrix)이다.

[고유치]

                  (4.2)

[증명]
특성 다항식의 근은 고유치 $\lambda_i$이므로, $n$차 다항식을 고유치 관점에서 인수 분해해 표현할 수 있다.
______________________________

[닮음 변환(similarity transformation)]

                  (4.3)

여기서 $\bf B$ = ${\bf P}^{-1} {\bf AP}$는 $\bf A$의 닮은 행렬(similar matrix)이다.

[증명]
행렬식에 대한 행렬 곱의 성질로 식 (4.3)의 우변을 좌변으로 바꾼다.

                          (4.4)
______________________________

식 (4.3)을 이용하면 행렬 곱 $\bf AB$와 $\bf BA$의 특성 다항식은 서로 같다. 왜냐하면 $\bf BA$ = ${\bf A}^{-1} {\bf ABA}$에 따라 $\bf AB$와 $\bf BA$는 닮아있기 때문이다. 또한 특성 다항식이 같아서 닮은 행렬 $\bf A$, $\bf B$의 행렬식과 대각합도 동일하다.[∵ 행렬식과 대각합이 각각 나오는 상수와 $x^{n-1}$ 항의 계수들이 서로 동등하기 때문이다.]


[참고문헌]
[1] G. Strang, Linear Algebra and its Applications, 4th ed., Brooks/Cole, 2006.

[다음 읽을거리]