1. 正射影ベクトルの定義
以下の第2章の記事では2次元のベクトルについて正射影ベクトルを定義した。
本節では一般の次元における正射影ベクトルを与える。
(1) 正射影ベクトルの定義
「距離が最小」という条件は、$x-y$ が部分空間 $\mathbb{R}^m$ に垂直であることを意味する。
(2) 射影に関する定理(1):正射影ベクトルの公式
$x\in\mathbb{R}^n$ の $\mathbb{R}^m$ への射影を $n$ 次元ベクトルで $p\in\mathbb{R}^n$ とする。
$p$ は基底に沿って $p=A\mathbf{c}$ と書ける($\mathbf{c}=(c_1,\dots,c_m)^{\mathsf T}$ は係数)。
※ $\mathbf{c}$は射影される側の$m$次元空間の座標軸における表現。一方$\mathbf{p}$は$\mathbf{c}$を元の空間の座標軸で表したベクトル。
このとき、$A^{\mathsf T}A$ が正則(列が一次独立)なら $$ \mathbf{c}=(A^{\mathsf T}A)^{-1}A^{\mathsf T}x $$
証明をみる
「垂直条件」より $\mathbf{a}_i^{\mathsf T}(x-p)=0\ (i=1,\dots,m)$、すなわち $A^{\mathsf T}(x-p)=\mathbf{0}$。$p=A\mathbf{c}$ を代入して $A^{\mathsf T}(x-A\mathbf{c})=\mathbf{0}$、したがって $$ A^{\mathsf T}A\,\mathbf{c}=A^{\mathsf T}x $$
$A^{\mathsf T}A$ が正則(列が一次独立)なら $$ \mathbf{c}=(A^{\mathsf T}A)^{-1}A^{\mathsf T}x $$
具体例をみる
$x\in\mathbb{R}^2$ をベクトル $\mathbf{a}\in\mathbb{R}^2$ の張る直線へ正射影する。$A=[\mathbf{a}]\in\mathbb{R}^{2\times1}$ とすれば $$ \mathbf{c}=(\mathbf{a}^{\mathsf T}\mathbf{a})^{-1}\mathbf{a}^{\mathsf T}x=\frac{\mathbf{a}^{\mathsf T}x}{|\mathbf{a}|^2} $$正射影ベクトルは
$$ p=A\mathbf{c}=\frac{\mathbf{a}^{\mathsf T}x}{|\mathbf{a}|^2}\,\mathbf{a} $$
2. 射影行列の定義
(1) 射影行列の定義
具体例をみる
$P=\begin{pmatrix}1&1\\0&0\end{pmatrix}$ とすると $$ P^2=P $$ より $P$ は射影行列である。$P(x,y)^{\mathsf T}=(x+y,0)^{\mathsf T}$。$x$ 軸への直交射影ではない(正射影ではない)点に注意。
実際、元のベクトルから射影ベクトルの差をとった$(x, y)^T – (x+y, 0)^T = (-y, y)^T$について、射影ベクトルと内積をとっても$(x, y)(-y, y)^T = -xy + y^2 \neq 0$となって直交しないことが分かる。
(2) 射影に関する定理(2):射影行列は像空間で恒等
証明をみる
射影行列$P$について、$\mathbf{v} \in \mathrm{Im}P$とすると、$P\mathbf{x}=\mathbf{v}$となる$\mathbf{x}$が存在する。$P^2 = P$なので、$$ P\mathbf{v} = P(P\mathbf{x}) = P^2\mathbf{x} = P\mathbf{x} = \mathbf{v} $$ よって題意成立。
$\mathrm{Im}P$は射影後の空間であり、その要素に対して$P$で射影をとっても不変と解釈できる。
(3) 射影に関する定理(3):射影行列の対角化
証明をみる
セットアップ
- $\mathrm{Im}\,P$ の基底を $e_1,\dots,e_r$($r=\operatorname{rank}P$)、$\ker P$ の基底を $f_1,\dots,f_{n-r}$ とる。
- 列を並べた行列を
$$ S=[\,e_1\ \cdots\ e_r\ f_1\ \cdots\ f_{n-r}\,] =:[\,E\ \ F\,],\quad E\in\mathbb{F}^{n\times r},\ F\in\mathbb{F}^{n\times(n-r)} $$
とおく。基底なので $S$ は可逆。
射影の作用
- $e_j\in\mathrm{Im}\,P$ だから 定理11.4より$P e_j=e_j$(射影の性質 $P^2=P$ より)。
- $f_k\in\ker P$ だから $P f_k=0$。
これを行列でまとめると
$$ P E=E,\qquad P F=0. $$
ブロック計算
上の等式を列結合に適用して
$$ P S=P[\,E\ \ F\,]=[\,P E\ \ P F\,]=[\,E\ \ 0\,]. $$
一方で
$$ S\begin{pmatrix}I_r&0\\[2pt]0&0\end{pmatrix} =[\,E\ \ F\,]\begin{pmatrix}I_r&0\\[2pt]0&0\end{pmatrix} =[\,E\cdot I_r\ \ E\cdot 0+F\cdot 0\,]=[\,E\ \ 0\,]. $$
よって
$$ P S=S\begin{pmatrix}I_r&0\\[2pt]0&0\end{pmatrix}. $$
両辺に左から $S^{-1}$ を掛ければ
$$ S^{-1} P S=\begin{pmatrix}I_r&0\\[2pt]0&0\end{pmatrix}. $$
(4) 射影に関する定理(4):射影行列の直和分解
線形空間 $V$ 上の線形写像 $P:V\to V$ が 射影(冪等)すなわち $P^2=P$ を満たすとき $$V=\operatorname{Im}P\ \oplus\ \ker P$$ (像と核への直和分解)が成り立つ。
証明をみる
1) 和として全体を張る($V=\operatorname{Im}P+\ker P$)
任意の $x\in V$ に対して $$x = Px + (x-Px)$$ と分解できます。ここで
- $Px\in\operatorname{Im}P$ は定義から明らか、
- $x-Px\in\ker P$ は $$P(x-Px)=Px-P^2x=Px-Px=0$$ より従います。
したがって $x$ は $\operatorname{Im}P$ の元と $\ker P$ の元の和として書け、ゆえに $$V=\operatorname{Im}P+\ker P.$$
2) 交わりが自明($\operatorname{Im}P\cap\ker P=\{0\}$)
$v\in\operatorname{Im}P\cap\ker P$ とする。$\mathbf{v} \in \mathrm{Im}P$だから、ある $u\in V$ が存在して $v=Pu$。また、$\mathbf{v} \in \mathrm{Ker}P$だから、$Pv=0$。ところが
$$v = Pu \ \Longrightarrow\ Pv=P(Pu)=P^2u=Pu=v.$$
一方で $Pv=0$ なので $v=0$。ゆえに交わりは $\{0\}$ です。
結論(直和)
1) で和が全体を張り、2) で交わりが自明なので、 $$V=\operatorname{Im}P\ \oplus\ \ker P$$ が成立します。■
補足(逆も成り立つ)
逆に、部分空間 $U,W\subset V$ が $V=U\oplus W$ を満たすとき、「$U$ への射影($W$ に沿う)」を
$$P(u+w)=u\qquad(u\in U,\ w\in W)$$
で定めると、これは線形で $P^2=P$、しかも $$\operatorname{Im}P=U,\qquad \ker P=W.$$ したがって「$P$ が冪等 $\Leftrightarrow$ $V$ が像と核に直和分解」という対応が得られます。
(5) 射影に関する定理(5):射影行列の核と像の関係
線形写像 $P:V\to V$ が 射影(冪等)すなわち $P^2=P$ を満たすとします。このとき
$$\operatorname{Im}P=\ker(P-I)$$
証明をみる
包含1:$\operatorname{Im}P\subset\ker(P-I)$
$y\in\operatorname{Im}P$ とすると、ある $x\in V$ が存在して $y=Px$。したがって
$$ (P-I)y=P(Px)-Px=P^2x-Px=0, $$
ゆえに $y\in\ker(P-I)$。
包含2:$\ker(P-I)\subset\operatorname{Im}P$
$y\in\ker(P-I)$ ならば $(P-I)y=0$、すなわち $Py=y$。このとき
$$ y=Py\in\operatorname{Im}P. $$
結論
以上の二包含より $$\operatorname{Im}P=\ker(P-I)$$ が従います(解釈:射影の像は固有値 $1$ の固有空間に等しい)。
(6) 射影に関する定理(6):射影行列の像の次元
証明をみる
定理11.5より射影行列は対角化可能で、ある可逆行列 $S$ と整数 $r$($0\le r\le n$)が存在して
$$S^{-1}PS \;=\; D \;:=\; \operatorname{diag}(I_r,\;0_{n-r})$$
と書けます。ここで $D$ の対角には固有値 $1$ が $r$ 回、固有値 $0$ が $n-r$ 回現れます。よって $r$ は固有値 $1$ の代数的重複度です。
ステップ1:$\ker(P-I)$ と $\ker(D-I)$ の対応
任意の $v\in\mathbb{F}^n$ について
$$(P-I)v=0 \;\Longleftrightarrow\; (SDS^{-1}-I)v=0 \;\Longleftrightarrow\; S(D-I)S^{-1}v=0.$$
左から $S^{-1}$ を掛けて $w:=S^{-1}v$ とおくと
$$(D-I)w=0 \;\Longleftrightarrow\; w\in\ker(D-I).$$
これは可逆写像 $v\mapsto w=S^{-1}v$ による対応なので
$$\ker(P-I)=S\bigl(\ker(D-I)\bigr), \qquad \dim\ker(P-I)=\dim\ker(D-I).$$
ステップ2:$\ker(D-I)$ を直接計算
$D=\operatorname{diag}(I_r,0_{n-r})$ だから
$$D-I=\operatorname{diag}(0_r,\,-I_{\,n-r}).$$
ベクトルをブロック分割して $\begin{pmatrix}x\\ y\end{pmatrix}$($x\in\mathbb{F}^r,\ y\in\mathbb{F}^{n-r}$)と書くと
$$ (D-I)\begin{pmatrix}x\\ y\end{pmatrix} = \begin{pmatrix} 0_r\,x\\[2pt] -I_{\,n-r}\,y \end{pmatrix} = \begin{pmatrix} 0\\[2pt] -y \end{pmatrix}. $$
したがってゼロになる条件は $y=0$ のみであり、
$$\ker(D-I)=\{(x,0)\;:\;x\in\mathbb{F}^r\}, \qquad \dim\ker(D-I)=r.$$
ステップ3:結論と解釈
以上より
$$\dim\ker(P-I)=\dim\ker(D-I)=r.$$
ここで $r$ は $D$ の対角に現れる固有値 $1$ の個数、すなわち $P$ の固有値 $1$ の代数的重複度に等しい。ゆえに
$$\boxed{\ \dim\ker(P-I)=\text{固有値 }1\text{ の個数(代数的重複度)}\ }.$$
(7) 射影に関する定理(7):射影行列のトレース
証明をみる
① $\mathrm{rank}(P)$は$P$の固有値の数と等しい
定理11.7と11.8より
$$\mathrm{Im}(P)=\ker(P-I)=m$$
定理9.11より
$$\operatorname{rank}(P)=\dim\mathrm{Im}(P)=m$$
② トレースは固有値の和
定理11.5より$P$は対角化可能なので
$$\operatorname{tr}(P)=\text{(固有値の和)}= \underbrace{1+\cdots+1}_{m\ \text{個}}+\underbrace{0+\cdots+0}_{n-m\ \text{個}}=m.$$
一方で ①② より
$$\operatorname{tr}(P)=\operatorname{rank}(P).$$
補足メモ
- これは直交射影に限らず、一般の(斜交)射影 $P^2=P$ でも成立。
- 体は $0\neq 1$ を満たす任意の体でよい。
3. 直交射影行列の定義
(1) 直交射影行列の定義
具体例をみる
$P=\dfrac{1}{2}\begin{pmatrix}1&1\\1&1\end{pmatrix}$ とすれば $$ P^2=P,\quad P^{\mathsf T}=P $$ で直交射影行列。$P(x,y)^{\mathsf T}=\dfrac{1}{2}(x+y,x+y)^{\mathsf T}$ は直線 $\mathrm{span}{(1,1)^{\mathsf T}}$ への正射影を与える。実際、元のベクトルと正射影ベクトルの差$(x,y)^T-(1/2)(x+y,x+y) = ((x/2)-(y/2),(-x/2)+(y/2))^T$であり、これと正射影ベクトルの内積$((x/2)-(y/2),(-x/2)+(y/2))^T(1/2)(x+y,x+y)= -(1/4)(x^2-y^2)+(1/4)(x^2-y^2)=0$となって直行することが分かる。
(3) 射影に関する定理(8):直行射影行列の公式
証明をみる
定理11.2の正射影ベクトルの公式より、$\mathbf{x} \in \mathbb{R}^n$の$A \in \mathbb{R}^{n \times m}$の列ベクトルを基底とした$m$次元の空間への正射影ベクトルを$\mathbf{x}$が属する$n$次元の空間で表した場合を$\mathbf{p} \in \mathbb{R}^n$、$A$の列ベクトルで定義される$m$次元空間で表した場合を$\mathbf{c} \in \mathbb{R}^m$とする。$\mathbf{c}$と$\mathbf{p}$の関係は $\mathbf{p}=A\mathbf{c}$。従って$\mathbf{p} = A(A^{\mathsf T}A)^{-1}A^{\mathsf T}\mathbf{x}$。
今、直行射影行列を$P$とすると、その定義より$P$は$\mathbf{x} \in \mathbb{n}$から$\mathbf{p} \in \mathbb{R}^{n}$を与える行列なので、$P\mathbf{x}=\mathbf{p}$。従って、 $$ P\mathbf{x}=\mathbf{p} = A\mathbf{c} = A(A^{\mathsf T}A)^{-1}A^{\mathsf T}\mathbf{x} $$ $\mathbf{x}$は任意だから、 $$ P = A(A^{\mathsf T}A)^{-1}A^{\mathsf T} $$ が直交射影行列。実際 $P^2=P,\ P^{\mathsf T}=P$ が成り立つ。
4. 射影作用素の定義
(1) 固有空間の定義
(2) 射影作用素の定義
(3) ケーリー・ハミルトンの定理
証明をみる
任意の正方行列 $B$ について、余因子行列$\mathrm{adj}(B)$ を用いると定理6.15の逆行列の表現式より $$ \mathrm{adj}(B)\,B=B\,\mathrm{adj}(B)=\det(B)\,E $$ が成り立つ。ここで $B=tE-A$ とおく。すると $\mathrm{adj}(tE-A)$ の各成分は $t$ の多項式、右辺は $\det(tE-A)E=p_A(t)E$。よって $$ \mathrm{adj}(tE-A)\,(tE-A)=p_A(t)\,E $$ が行列の係数が多項式の恒等式として成り立つ。
左辺を展開すると $t$ のべきの多項式係数で成り立つ恒等式なので、形式的に「$t$ を $A$ に置換」できる($t$ をスカラーの位置から行列に置くと、$tE$ は $A$ になると解釈)。すると $$ \mathrm{adj}(A-A)\,(A-A)=\mathrm{adj}(\mathbf{0})\,\mathbf{0}=p_A(A)\,E $$ となり、左辺は $\mathbf{0}$。したがって $p_A(A)=\mathbf{0}$。
より厳密には、$\mathrm{adj}(tE-A)$ を $Q_0+Q_1 t+\cdots+Q_{n-1}t^{n-1}$ と書いて $$ (Q_0+Q_1 t+\cdots+Q_{n-1}t^{n-1})(tE-A)=p_A(t)E $$ の両辺の $t$ の係数比較を行い、得られる行列恒等式に $t$ を $A$ へ代入する($A$ は $E$ と可換なので置換が合法)。すると $p_A(A)=\mathbf{0}$ が従う。$\square$
(4) ラグランジュの補間多項式の定義
(5) 基底多項式の定義
(6) ラグランジュの補間多項式の公式
証明をみる
$t=\lambda_m$ を代入すると $\ell_i(\lambda_m)=\delta_{im}$ だから $L(\lambda_m)=\mu_m$。よって題意成立。具体例をみる
$\lambda_1=1,\lambda_2=3$、値 $\mu_1=5,\mu_2=2$ のとき $$ \ell_1(t)=\frac{t-3}{1-3}=\frac{3-t}{2},\quad \ell_2(t)=\frac{t-1}{3-1}=\frac{t-1}{2}, $$ $$ L(t)=5\,\frac{3-t}{2}+2\,\frac{t-1}{2}=\frac{15-5t+2t-2}{2}=\frac{13-3t}{2}. $$ 確かに $L(1)=5,\ L(3)=2$。(7) 射影に関する定理(9):射影作用素の公式
証明をみる (固有値分解を利用)
定理11.17のラグランジュの補間多項式の公式より、 $$ \ell_i(t)=\prod_{j\ne i}\frac{t-\lambda_j}{\lambda_i-\lambda_j} $$ は、$\ell_i(\lambda_i)=1$、$\ell_i(\lambda_j)=0\ (j\ne i)$ を満たす。$A$ が対角化可能なら $A=PDP^{-1}$($D=\mathrm{diag}(\lambda_1,\dots,\lambda_n)$)。多項式 $q$ に対し $q(A)=P\,q(D)\,P^{-1}$ と定義でき、$q(D)$ は各対角成分に $q(\cdot)$ を作用させた対角行列になる。
これは以下より明らかである。
多項式 $p(t)=\sum_{k=0}^m c_k t^k$ に対し
$$ p(A)\;=\;\sum_{k=0}^m c_k A^k $$
と定義。$A=PDP^{-1}$ なので帰納法で $(PDP^{-1})^k=PD^kP^{-1}$ が成り立ち、
$$ p(A)\;=\;\sum_{k} c_k (PDP^{-1})^k \;=\;P\Bigl(\sum_{k} c_k D^k\Bigr)P^{-1} \;=\;P\,p(D)\,P^{-1}. $$
したがって任意の多項式 $p$ について
$$ p(A)=P\,p(D)\,P^{-1} $$
が成立。特に $p=l$ と置けば
$$ l(A)=P\,l(D)\,P^{-1}. \tag{★} $$
そこで $P_i$ を $$ P_i:=\ell_i(A) $$ と定める(上の主張の式そのもの)。対角化表示で見ると $$ P_i=P\,\ell_i(D)\,P^{-1}, $$ ここで $\ell_i(D)=\mathrm{diag}(\ell_i(\lambda_1),\dots,\ell_i(\lambda_n))$ は、$\ell_i(\lambda_i)=1$、それ以外は $0$ の対角行列。
よって $P_i$ は基底(固有ベクトル基底)で見れば、$i$ 番目の座標だけを 1 に残し他は 0 にする座標選択行列になっている。したがって
- $P_i^2=P_i$(同じ座標を 2 回選んでも 1 回と同じ)
- $P_iP_j=\mathbf{0}\ (i\ne j)$(異なる座標は同時に選べない)
- $\sum_i P_i=E$(すべての座標を合計すると元のベクトルに戻る)
任意の固有ベクトル $\mathbf{v}\in V(\lambda_m)$ に対しては $$ P_i\mathbf{v}=\ell_i(A)\mathbf{v}=\ell_i(\lambda_m)\mathbf{v}=\begin{cases} \mathbf{v}&(m=i),\\ \mathbf{0}&(m\ne i), \end{cases} $$ となり、$P_i$ が「$V(\lambda_i)$ 成分だけを取り出す射影」であることが直接わかる。
よって $P_i=\displaystyle\prod_{j\ne i}\dfrac{A-\lambda_j E}{\lambda_i-\lambda_j}$ は $V(\lambda_i)$ への射影作用素である。$\square$
証明をみる (ケーリー・ハミルトンの定理を利用)
(8) 射影に関する定理(10):射影作用素の積
証明をみる (像と核の性質から)
- 射影 $P_i$ は $\operatorname{Im}(P_i)=\ker(A-\lambda_i I)$ に射影し,核は $$\ker(P_i)=\bigoplus_{\mu\ne \lambda_i}\ker(A-\mu I)$$ を満たす(固有空間分解に沿う射影)。
- 任意の $v$ に対し,まず $P_j v \in \operatorname{Im}(P_j)=\ker(A-\lambda_j I)$。
- $\lambda_i\ne\lambda_j$ より,$\ker(A-\lambda_j I)\subset \ker(P_i)$。
ゆえに任意の $v$ について $$P_iP_j v = P_i\bigl(P_j v\bigr)=0,$$ すなわち $P_iP_j=0$ が従う。
証明をみる (対角化・ラグランジュ多項式から)
- $A$ が対角化可能で $A=PDP^{-1}$($D=\mathrm{diag}(\lambda_1,\dots,\lambda_n)$)とする。
- 定理11.18から$\lambda_i$ に対応する射影は $$P_i=Pl_i(D)P^{-1}$$ で与えられる($l_i$ はラグランジュ基底多項式で $l_i(\lambda_i)=1,\ l_i(\lambda_k)=0\ (k\ne i)$)。
- $l_i(D)=E_i$ は対角行列で,$\lambda_i$ に対応する成分のみ 1,他は 0。異なる $i\ne j$ では $$E_iE_j=0.$$
したがって $$P_iP_j = P E_i P^{-1}\, P E_j P^{-1} = P\,(E_iE_j)\,P^{-1} = 0.$$
(9) 射影に関する定理(11):射影作用素の和
行列 $A$ の相異なる固有値を $\{\lambda_1,\dots,\lambda_r\}$ とし,それぞれに対応する射影行列(スペクトル射影)を $P_i$ とする。このとき
$$\sum_{i=1}^r P_i \;=\; I.$$
証明をみる
相異なる節点 $\{\lambda_i\}$ に対するラグランジュ基底多項式 $\ell_i(t)$ を
$$\ell_i(\lambda_j)=\delta_{ij},\qquad \deg \ell_i\le r-1$$
として定める。定理11.18から射影は
$$P_i \;=\; \ell_i(A)$$
で与えられる(機能的計算/補間多項式)。このとき
$$\sum_{i=1}^r P_i =\sum_{i=1}^r \ell_i(A) =\Bigl(\sum_{i=1}^r \ell_i\Bigr)(A).$$
ところが $\sum_{i=1}^r \ell_i(t)\equiv 1$(ラグランジュ多項式の“分割の一”)。実際,
$$q(t):=\sum_{i=1}^r \ell_i(t)-1$$
は次数 $\le r-1$ の多項式で,すべての $\lambda_j$ で $q(\lambda_j)=0$(零が $r$ 個)ゆえに恒等的に 0。したがって
$$\sum_{i=1}^r P_i =\bigl(\sum_{i=1}^r \ell_i\bigr)(A) =1(A)=I.$$
具体例をみる
$A=\begin{pmatrix}2&0\\0&3\end{pmatrix}$。$V(2)=\mathrm{span}{(1,0)^{\mathsf T}}$。
$V(3)=\mathrm{span}{(0,1)^{\mathsf T}}$。
$P_1=\begin{pmatrix}1&0\\0&0\end{pmatrix}$
$P_2=\begin{pmatrix}0&0\\0&1\end{pmatrix}$。
確かに $P_1+P_2=E$。
コメント