线性代数与矩阵之特征值与特征向量

线性代数与矩阵之特征值与特征向量

特征值与特征向量是线性代数与矩阵中非常重要且深刻的两个概念,然而我当年在学习的时候基本上只学会了如何计算特征值和特征向量,对他们的意义、由来、用法不求甚解,很长一段时间都不知为什么会引入这两个奇怪的东西。当再次看到这二者时,我觉得还是记录下一些想法,必备后用。

注意,我们默认只在方阵中讨论特征值和特征向量。

传统的特征值与特征向量介绍方法

国内一些典型的大学线代教科书,例如用的非常广泛但也被称为教科书中的耻辱柱的《线性代数》(同济版)。对特征值与特征向量的介绍很直接,上来就会给你下个定义:

\(A\)\(n\)阶方阵,如果数\(\lambda\)\(n\)维非零列向量\(x\)使关系是 \[Ax=\lambda x\tag{1}\] 成立,那么,这样的数\(\lambda\)称为矩阵\(A\)特征值,非零向量\(x\)称为\(A\)的对应与特征值\(\lambda\)特征向量

(1)式也可写成 \[(A-\lambda I)x=0\]

以上是同济版线性代数教材对特征值和特征向量的第一印象介绍。

接下来,大多数教科书就会介绍如何根据行列式\(\det(A-\lambda I)=0\)求出特征值,再将求出的各个特征值代入式(1)求出特征向量,接下来就开始举例子做题了。

最后,大家经过艰苦的刷题和复习,线性代数考了高分,过了段时间,就将这个有些奇怪的特征值和特征向量抛掷脑后。反正,当时我是这么过来的,^_^。

特征向量特殊在哪里

很多人并没想过,这个特征向量,为什么特殊,它又是怎么被称为“特征”的。刚接触这个定义会觉得有些微妙,似乎是个很巧妙的东西,又说不出个因为所以,有点懵,怎么就是“特征”值,“特征”向量了呢?我们从特征向量入手。

我们知道,矩阵是线性变化的一种表示方法。空间中的向量与矩阵的乘积本质上是对该向量长度和方向的变换。大多数向量在经过矩阵的变换后,长度和方向都会发生变化。如下图:

矩阵乘法线性变换.gif

矩阵乘法线性变换.gif

图中向量\(v\)原来所在的方向的直线可以称之为向量\(v\)张成的空间,对这个概念有疑惑的话,可以参考笔记线性代数与矩阵之理解向量、线性变换与矩阵乘法,线性变换之后,向量\(v\)大概率会离开原来所在的一维子空间到。这种离开原来子空间的向量并没有什么特殊的。基本上随便找一个空间中的向量,都会发生这种改变。那么,有没有一些特殊的向量,经过矩阵\(A\)的变换之后不会离开原来的一维子空间呢?

特征向量.gif

特征向量.gif

还真有。如上所示,对于矩阵\(\begin{bmatrix}3&1\\0&2\end{bmatrix}\)而言,向量\((1,-1)^T\)在经过矩阵变换之后变成了\((2,-2)^T\),仍旧位于原来的子空间中,只是长度变长了。同时,不难发现所有在向量\((1,-1)^T\)同一条直线上的向量都满足这种方向不变性。那么这些方向不变的向量相对于大多数方向会改变的向量是特殊的存在,此时我们再回看传统特征向量的定义: \[ Ax=\lambda x\tag{1} \] 不正是说的是向量\(x\)在经过矩阵\(A\)的变换后,方向没有变化,和原向量是共线的\(\lambda x\),只是长度发生了改变。对于特征向量而言,矩阵变化只是长度的伸缩,而长度伸缩的大小,正是特征值\(\lambda\)

我们再看特征这个词的解释:特别的征象、标志;特点。我们说一个事物的特征,比如昆虫的特征是一对触角,两对翅(忽略极少数特例),三对足。特征体现了一种不变性,不管其他方面怎么变,比如颜色、大小、生活地点,只要它的三个特性“一对触角,两对翅(忽略极少数特例),三对足”没变,那么它就是昆虫。如果它的特征,如足数目变了,比如蜘蛛、蜈蚣,那么它就不是昆虫(是不是很多人不知道蜘蛛不是昆虫,哈哈)。而特征向量也是不变性的体现,它的方向在矩阵变换中总是不变的

现在,我们可以承认,特征向量(以及附带的特征值)确实具有特殊性,那么这种特殊性有什么好处呢?我们需要回到向量在空间中表示的角度来考虑。

特征基

正常情况下,向量都是用标准正交基表示的,用矩阵表示就是单位向量\(I\)。例如,向量\(v=(3,2)^T\)就是说在基\(e_1=(1,0)^T,e_2=(0,1)^T\)两个单位向量下,由3份\(e_1\)和2份\(e_2\)合成的向量,即\(v=3e_1+2e_2\)。在经过某个矩阵\(A\)的线性变换后,比如还是上面的例子\(\begin{bmatrix}3&1\\0&2\end{bmatrix}\),其结果\((11,4)^T\)很难和原向量\((3,2)^T\)看出直接的联系。

如果我们换一种思路,用另一组基去表示向量\(v\),能不能让矩阵代表的线性变换看起来更直观,更容易呢?比方说,借助特征向量的方向不变性?

我们可以尝试下。以\(v=(3,2)^T,A=\begin{bmatrix}3&1\\0&2\end{bmatrix}\)为例。我们根据特征向量的求法,可得两个特征向量分别为\(t_1=(1,0)^T,t_2=(1,-1)^T\),对应特征值分别为\(\lambda_1=3,\lambda_2=2\)

那么\(v\)\(t_1,t_2\)可表示为\(v=5t_1-2t_2\),即在基\(t_1=(1,0)^T,t_2=(1,-1)^T\)表示下应为\((5,-2)^T\),那么 \[Av=A(5t_1-2t_2)=5At_1-2At_2=5\lambda_1t_1-2\lambda_2t_2=15t_1-4t_2\] 在基\(t_1,t_2\)下,结果为\((15,-4)\)正好分别将第一、二个分量扩大了\(\lambda_1,\lambda_2\)倍!过程非常直观,计算非常方便!那些原来没有规律的变换,在特征向量组成的基表示下,只是在各个分量方向不变是的伸缩变化。而其在标准正交基\(e_1,e_2\)下的结果正是\(15t_1-4t_2=(11,4)^T\)。结果没有任何区别!

因此,为了线性变换的便利,我们引入该线性变换(矩阵)对应特征基来表示一个向量:

线性变换的特征基:空间的一组基,使得某线性变换在这组基下只是坐标轴方向上的伸缩变换(乘以一个标量\(\lambda\)),不同轴上的伸缩比例不同。若\(T=(t_1,t_2,\dotsb,t_n)\)是矩阵\(A\)的一组特征基,向量\(x\)在特征基\(T\)的表示下为\(x=(x_1,x_2,\dotsb,x_n)\),那么\(Ax\)的结果在\(T\)的表示下是: \[Ax=(\lambda_1x_1,\lambda_2x_2,\dotsb,\lambda_nx_n)\] 其中,\(\lambda_1,\lambda_2,\dotsb,\lambda_n\)分别是特征向量\(t_1,t_2,\dotsb,t_n\)对应的特征值。

注意,这里的\(x=(x_1,x_2,\dotsb,x_n)\)是在特征基下的表示结果,即\(x=x_1t_1+x_2t_2+\dotsb+x_nt_n\),而不是标准正交基下的表示结果。

矩阵\(A=\begin{bmatrix}3&1\\0&2\end{bmatrix}\)的特征基的变换过程如下

特征基

特征基

所以使用特征向量组成的特征基来应对相应的线性变换,可以大大降低计算复杂度,这在求矩阵的幕、图像压缩、解微分方程等领域得到了大量应用,后面我们会举几个例子。

现在有一个问题,既然特征基那么好用,那么特征基总是存在嘛?换句话说,我们总是能够找到足够多的线性无关的特征向量组成特征基嘛?

特征基的存在性与特征(子)空间

一般我们求特征向量的步骤是先根据\(\det(A-\lambda I)=0\)解特征值的一元高次方程,然后在代入\(Ax=\lambda x\)求特征向量。那么 \[\det(A-\lambda I)=0\tag{2}\] 这个式子的解,就决定了特征向量的存在性。我们知道,在复数域下,n次方程必然有n个根,而有没有重根,将是决定特征基是否存在的关键

特征值都不相同

对于方程组 \[(A-\lambda I)x=0\] 由于式(2)\(\det(A-\lambda I)=0\),即\(A-\lambda I\)并不是满秩的(奇异矩阵),由此其必存在至少一维零空间,此时\(x\)是属于零空间的任意向量。

对于存在\(n\)个不同特征值的场景,\(A-\lambda I\)的维数为\(n-1\),由于\(rank(Col(A-\lambda I))+rank(N(A-\lambda I))=n\),则我们可以得到\(n\)个特征向量\((x_1,x_2\dotsb,x_n)\)处在\(n\)个一维的零空间中。现在需要证明的是,这\(n\)个特征向量是线性无关的。

我们使用反证法来证明。先假设这\(n\)个特征向量线性相关,则存在\(n\)个不全为零的常数\((c^{(1)}_i)\)使得如下式子成立: \[c^{(1)}_1 x_1+c^{(1)}_2 x_2+\dotsb+c^{(1)}_n x_n=0\tag{3}\] 用矩阵\(A\)左乘式(3),根据\(Ax_i =\lambda_ix_i\)有: \[c^{(1)}_1\lambda_1 x_1+c^{(1)}_2\lambda_2 x_2+\dotsb+c^{(1)}_n\lambda_n x_n=0\tag{4}\] 现使用\(式(4)-\lambda_n×式(3)\)有: \[c^{(1)}_1(\lambda_1-\lambda_n) x_1+c^{(1)}_2(\lambda_2-\lambda_n) x_2+\dotsb+c^{(1)}_{n-1}(\lambda_{n-1}-\lambda_n) x_{n-1}=0\tag{5}\] 由于所有的\(\lambda_i\)都不相等,所以\(\lambda_i-\lambda_n\neq 0(i\neq n)\)。 我们令\(c^{(2)}_i=c^{(1)}_i(\lambda_i-\lambda_n)\) \[c^{(2)}_1 x_1+c^{(2)}_2 x_2+\dotsb+c^{(2)}_{n-1} x_{n-1}=0\tag{6}\] 式(6)与式(3)形式一样,但是少一个\(x_n\),我们仿照之前的步骤,同样对\(A×式(6)-\lambda_{n-1}×式(6)\)得到: \[c^{(2)}_1(\lambda_1-\lambda_{n-1}) x_1+c^{(2)}_2(\lambda_2-\lambda_{n-1}) x_2+\dotsb+c^{(2)}_{n-2}(\lambda_{n-2}-\lambda_{n-1}) x_{n-2}=0\tag{7}\] 这次我们把\(x_{n-1}\)消掉了。 按照前面的乘以矩阵\(A\)再减去\(\lambda\)的步骤重复进行\(n−2\)次(每次都用一个不同的单个字符代替\(x_i\)前面的系数)后,可得: \[c^{n-2}_1 (\lambda_1-\lambda_3)x_1+c^{n-2}_2(\lambda_2-\lambda_3)x_2=0\tag{8}\] 同样的,令\(c^{n-2}_1 (\lambda_1-\lambda_3)=c^{n-1}_1,c^{n-2}_2(\lambda_2-\lambda_3)=c^{(n-1)}_2\)即可得到: \[c^{(n-1)}_1x_1 +c^{(n-1)}_2x_2=0\tag{9}\] 最后,我们使用\(式(9)-\lambda_2×式(9)\)有: \[c^{(n-1)}_1Ax_1 +c^{(n-1)}_2Ax_2-c^{(n-1)}_1\lambda_2x_1-c^{(n-1)}_2\lambda_2x_2\\=c^{(n-1)}_1(\lambda_1-\lambda_2)x_1=0\tag{10}\] 我们最后令\(c^{(n)}_1=c^{(n-1)}_1(\lambda_1-\lambda_2)\)。由于特征向量不为零,所以只能是\(c^{(n)}_1\)

\(c^{(n)}_1=c^{(n-1)}_1(\lambda_1-\lambda_2)=c^{(n-2)}_1(\lambda_1-\lambda_3)(\lambda_1-\lambda_2)=\dotsb=c^{1}_1(\lambda_1-\lambda_2)(\lambda_1-\lambda_3)\dotsb(\lambda_1-\lambda_n)\),又因为各特征值都不相等,所以只能是\(c^{(1)}_1=0\)。将其代回式(9)可得:\(c_2^{(n-1)}=0\)

\(c_2^{(n-1)}=c^{(1)}_2(\lambda_2-\lambda_3)(\lambda_2-\lambda_4)\dotsb(\lambda_2-\lambda_n)\),而各特征值都不相等,所以只能是\(c^{(1)}_2=0\)。我们逐步从后往前反推,即可得到 \[c^{(1)}_i=0,\forall i=\{1,2,\dotsb,n\}\] 则说明前面的假设:存在\(n\)个不全为零的常数\((c^{(1)}_i)\)使式(3)为0不成立,因此矩阵不同特征值对应的特征向量线性无关得证。

需要指出,我们所说的\(n\)个不同特征值,不一定非要都是实数,也可以是复数。复数特征值和特征向量同样满足\(Ax=\lambda x\)的一系列特性。我们以逆时针旋转\(\frac{\pi}{2}\)的旋转矩阵\(R=\begin{bmatrix}0&-1\\1&0\end{bmatrix}\)为例: 旋转矩阵.gif

显然,经过逆时针90°旋转,空间中所有的非零向量方向都发生了改变。我们计算特征值:\(\det(R-\lambda I)=\lambda^2+1=0\Rightarrow \lambda_1=i,\lambda_2=-i\)。代入算出对应的特征向量分别为\(x_1=(1,-i)^T,x_2=(-i,1)^T\)。可见,在此场景下的特征向量无法用实数域向量表示,但是用\(x_1,x_2\)组成特征基,其矩阵计算与实数域结果依然一致。

特征值重根与特征向量个数

前一节已经说明不同的特征值必然带来线性不相关的特征向量,那么当特征值有\(r\)重根时,线性无关特征向量是不是也会有\(r\)个呢?

答案是不一定。而且\(r\)重根的特征向量可能从1~r个不等。

典型的\(r\)重特征值有\(r\)个线性无关特征向量的矩阵是单位阵\(I_{n×n}\),特征值\(\det(I-\lambda I)=0\),所有的特征值都是1,同时空间中所有的向量都可以作为特征向量(\(Ix=1×x\)),所以可以从空间中取出\(n\)个线性无关特征向量。

典型的线性无关特征向量个数小于特征根重数的矩阵是主对角元素有相等时的三角矩阵。具体例子如 \[ \begin{bmatrix} 1&2\\0&1 \end{bmatrix}, \begin{bmatrix} 1&2&3\\0&1&1\\0&0&1 \end{bmatrix} \] 这两个矩阵都只有一个线性无关的特征向量。

特征(子)空间

我们将所有有着相同特征值的特征向量组成的空间,还包括零向量(但要注意零向量本身不是特征向量),叫做一个特征(子)空间。也可以说是相同特征值所对应的特征向量张成的(子)空间。矩阵\(A\)有多少个不同特征值,就有多少个特征子空间。

由于特征子空间具有几何特性,我们将特征子空间的维度成为几何重数,而特征值的重数是方程解出来的,具有代数特征,我们称特征值的重数为代数重数

我们知道行列式\(\det(A-\lambda I)=0\),特征子空间作为\((A-\lambda I)x=0\)的零空间必然有解,因此特征空间的维度必然是大于等于1。如果特征值重数是1,那么特征空间的维度必然等于1。而对于特征值根的重数大于1(即代数重数大于1),特征空间的维度取决于\((A-\lambda I)x=0\)的零空间的维度,此维度小于代数重数,即有\(1\leq 几何充数 \leq 代数重数\)

如果矩阵\(A\)各特征子空间的直和等于原完整空间\(V^n\),那么\(A\)就有了\(n\)个线性无关的特征向量,此时这些特征向量可以构成一组特征基。

特征值的一些性质

说了那么久的特征向量,我们再来看看特征值。特征值算是特征向量的副产品,虽然说我们在求解的时候通常是先求特征值,再求特征向量。

特征值几个常见的性质如下:

性质1:矩阵\(A\)的特征值和等于矩阵的迹:\(\sum\limits_i \lambda_i=tr(A)\)

性质2:矩阵\(A\)的特征值积等于其行列式:\(\prod\limits_i \lambda_i=\det(A)\)

这两个性质的证明可借助矩阵的特征多项式。我们可以将\(\det(A-\lambda I)\)写成零点式形式: \[ f(\lambda)=(\lambda_1-\lambda)(\lambda_2-\lambda)\dotsb(\lambda_n-\lambda) \] 其中,\(\lambda_i\)都是特征值,且有可能相等也有可能是复数。显然,根据展开式系数有\(\lambda^0=\prod\limits_i \lambda_i,\lambda^1=(-1)^{n-1}\sum\limits_i \lambda_i\)。我们再根据行列式\(\det(A-\lambda I)\)的展开项对应可得\(\lambda^0=\det(A),\lambda^1=(-1)^{n-1}\sum\limits_i a_{ii}\)

性质3:若\(λ\)是可逆阵\(A\)的一个特征根,\(x\)为对应的特征向量,则\(1/λ\)\(A\)的逆的一个特征根,\(x\)仍为对应的特征向量。

证明:若\(x\)\(A\)对应的一个特征向量,\(Ax=\lambda x\Rightarrow A^{-1}Ax=A^{-1}\lambda x\Rightarrow Ix=\lambda A^{-1}x\Rightarrow 1/\lambda x=A^{-1}x\)。得证。

另外,如果某个特征值为0,说明矩阵\(A\)是奇异矩阵,特征向量\(x\)为了满足\(Ax=0\)必须位于\(A\)的零空间内。在不可逆矩阵中,特征值就不能套用上面的性质。

性质4:若\(λ\)是方阵A的一个特征根,\(x\)为对应的特征向量,则\(λ\)\(m\)次方是\(A\)\(m\)次方的一个特征根,\(x\)仍为对应的特征向量。

证明:若\(x\)\(A\)对应的一个特征向量,\(A^mx=A^{m-1}(Ax)=A^{m-1}\lambda x=\lambda A^{m-2}(Ax)=\dotsb=\lambda^m x\),即\(A^mx=\lambda^m x\)。得证。

性质5:矩阵\(A\)\(A^T\)拥有相同的特征值。

证明:我们通过行列式\(\det(A-\lambda I)\)计算得到矩阵\(A\)的特征值,根据行列式转置不变的性质,我们有\(\det(A-\lambda I)=\det(A-\lambda I)^T=\det(A^T-\lambda I^T)=\det(A^T-\lambda I)\),即为\(A^T\)计算特征值的行列式。因此,矩阵\(A\)\(A^T\)拥有相同的特征值。

性质6:对于任何实数矩阵,如果其特征值为实数,那么特征向量是实向量。

证明:我们从矩阵的空间来理解比较容易。对于\(n\)阶实数矩阵而言,它是代表\(\R^n\)空间中的线性变换,这意味着任意\(\R^n\)中的向量,经过矩阵变换之后必然仍然在\(\R^n\)空间中。对于矩阵\(A\),其求特征值所用的行列式所代表的矩阵\(A-\lambda I\),如果也是实数矩阵,那么也是\(\R^n\)空间中的线性变换,同样也要满足\(\R^n\)线性空间中的变换的封闭性。而当特征值\(\lambda\)为实数时,\(A-\lambda I\)显然也是实数矩阵,那么特征向量\(x\)使得\((A-\lambda I)x=0\)就位于\(A-\lambda I\)的零空间中。矩阵的零空间\(N(A)\)和矩阵的行空间\(Raw(A)\)\(\R^n\)中互补的两个子空间,因此\(N(A),Raw(A)\)都是实数向量的空间,因此位于零空间\(N(A)\)中的特征向量必然也是实数向量。

特征值分解与矩阵的幂

如果我们有了\(n\)个线性无关的特征向量,那么我们能够做一些新的改变,我们将矩阵\(A\)的具有\(n\)个线性无关的特征向量\(q_i\)作为列向量,组成一个可逆方阵\(Q\)\[ Q=[q_1,q_2,\dotsb,q_n] \] 将其与原矩阵\(A\)相乘可得: \[ AQ=A[q_1,q_2,\dotsb,q_n]=[\lambda_1 q_1,\lambda_2 q_2,\dotsb,\lambda_n q_n]\\ =Q\begin{bmatrix} \lambda_1&0&\dotsb&0\\ 0&\lambda_2&\dotsb&0\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\dotsb&\lambda_1\\ \end{bmatrix}=Q\Lambda \] 这里的矩阵\(\Lambda\)为对角阵,它的非零元素就是矩阵\(A\)的特征值。因为矩阵\(Q\)中的列向量线性无关,因此逆矩阵\(Q^{-1}\)存在。在等式两侧左乘逆矩阵\(Q^{-1}\),得到\(\Lambda=Q^{-1}AQ\)。相应地,\(A=Q\Lambda Q^{-1}\)。我们称之为矩阵的特征分解,特征分解的过程也称为相似对角化

特征分解(Eigendecomposition),又称谱分解(Spectral decomposition)是将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法。 \(A\)可以被分解为\(A=Q\Lambda {Q}^{-1}\),其中\(Q\)\(N×N\)方阵,且其第\(i\)列为\(A\)的特征向量\(q_i\)\(Λ\)是对角矩阵,其对角线上的元素为对应的特征值,也即\(\Lambda_{ii}=\lambda_i\)

由于\(Q\)是由特征向量组成的矩阵,并且可逆,因此\(Q\)的必然是非奇异矩阵,它的列向量组必然是线性无关的。这也推出了矩阵可特征值分解的一个充要条件:

定理:矩阵\(A\)\(n\)个线性无关的特征向量\(\Leftrightarrow\)矩阵\(A\)可特征值分解。

在联合之前特征基、特征子空间、代数重数、几何重数的概念,我们将上述定理做出推广:

推论:矩阵\(A\)\(n\)个线性无关的特征向量\(\Leftrightarrow\)矩阵\(A\)存在一组特征基\(\Leftrightarrow\)矩阵\(A\)所有的特征值的几何重数等于代数重数\(\Leftrightarrow\)矩阵\(A\)所以特征子空间的直和为完整空间\(\Leftrightarrow\)矩阵\(A\)可特征值分解

需要注意的是,可特征值分解和矩阵\(A\)本身是不是非奇异无关,只和\(A\)的特征值数量有关,奇异矩阵也可能有特征值分解,如下例: \[ A=\begin{bmatrix} 1&1\\0&0 \end{bmatrix}=\begin{bmatrix} 1&-1\\0&1 \end{bmatrix}\begin{bmatrix} 1&0\\0&0 \end{bmatrix}\begin{bmatrix} 1&1\\0&1 \end{bmatrix} \] 而非奇异矩阵也有可能没有特征值分解,例如\(\begin{bmatrix}1&2\\0&1\end{bmatrix}\)

矩阵幂的快捷计算

特征值分解的一个重要应用是计算矩阵的幂。根据特征分解公式\(\mathbf{A}=\mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^{-1}\),有 \[ A^m=(Q\Lambda Q^{-1})^m=Q\Lambda Q^{-1}Q\Lambda Q^{-1}\dotsb Q\Lambda Q^{-1}=Q\Lambda^m Q^{-1} \] 这大大方便了矩阵的幂计算。

同时,我们观察\(A^m\)分解后的结果\(Q\Lambda^m Q^{-1}\),如果当\(m\rightarrow ∞\)时,\(A^m\rightarrow 0\),我们称矩阵\(A\)稳定的。那么根据\(A^m=Q\Lambda^m Q^{-1}\),只有当\(\Lambda^m\rightarrow 0\)时,\(A\)才是稳定的。这就要求\(A\)的最大特征值的模要小于1,即\(|\max \lambda_i|<1\)

此外,当\(m\)很大时,我们也发现最大的特征值\(\max \lambda_i\)对矩阵的幂产生的作用最大,因此我们也可用矩阵的最大特征值估计一些结果。

投影矩阵的特征值与特征向量

假设投影矩阵\(P\)是一个\(n×n\)维矩阵。由于\(P\)是幂等的,即\(P^2=P\),因此对于特征向量\(x\)\[ \left . \begin{aligned} P^2x=\lambda^2 x\\ Px=\lambda x\\ P^2=P \end{aligned} \right \}\Rightarrow \lambda^2 x = \lambda x \] 由于特征向量不为0,因此有 \[ \lambda^2=\lambda\Rightarrow \lambda=0,1 \] 即投影矩阵的特征值只能是0或1。

若该投影矩阵的列空间\(Col(P)\)的秩为\(r\),那么任意列空间的元素都是特征向量,因为满足\(Px=1×x\),所以我们可以从列空间中挑选出\(r\)个线性无关的特征向量。同时,对于投影矩阵的零空间\(N(P)\),其是\(n-r\)维的,其中所有的向量皆满足\(Px=0=0×x\),因此所有零空间中的向量也是\(P\)的特征向量,从而我们也能从零空间中找出\(n-r\)个线性无关的特征向量。

我们还知道投影矩阵是对称矩阵,即\(P^T=P\),因此其列空间和行空间是一样的。根据矩阵四类空间的性质(参考笔记线性代数与矩阵之四类空间),零矩阵和行矩阵垂直,因此零矩阵中元素皆垂直于行空间元素,列空间等于行空间的\(r\)个特征向量必然也垂直与零空间中的\(n-r\)个特征向量。这样我们就找到了\(n\)个线性无关的特征向量,即投影矩阵\(P\)必然可特征分解。(所有的对称矩阵都满足这个条件,因此所有的对称矩阵都是可特征分解的。)

总结:投影矩阵必然可特征分解,且其特征值只有0和1。