矩阵的特征值和特征向量

假设我们想要计算给定矩阵的特征值和特征向量。若矩阵很小,我们可以用特征多项式进行符号演算。但是,对于大型矩阵这通常是不可行的,在那种情况我们必须采用数值方法。

计算矩阵的特征值和特征向量

形式计算

描述正方形矩阵的特征值的重要工具是特征多项式:就如之前的例子一样,说λ是A的特征值等价于说线性系统(A – λI)v = 0(其中I是单位矩阵)有非零解v(一个特征向量),因此等价于说行列式:

\det(A – \lambda I) = 0
函数:p_A(\lambda) = \det(A – \lambda I)是一个关于λ的多项式,称为A的特征多项式。矩阵的特征值也就是其特征多项式的零点。求一个矩阵A的特征值可以通过求解方程p_A(\lambda) = 0 来得到。

若A是一个n×n矩阵,则p_A为n次多项式,因而A最多有n个特征值。反过来,如果A的系数是在一个代数闭域里面(比如说复数域),那么代数基本定理说明这个方程刚好有n个根(如果重根也计算在内的话)。所有奇数次的多项式必有一个实数根,因此当n为奇数的时候,每个n维实系数矩阵至少有一个实数特征值。当矩阵系数是实数的时候,非实数的特征值会成共轭对出现。

一旦找到特征值λ,相应的特征向量就可以通过求解如下方程得到:

{\displaystyle (A-\lambda I)v=0 }
实系数的矩阵不一定有实数特征值。比如对于以下的矩阵(表示二维平面上的顺时针90°的一个旋转变换):

\begin{bmatrix}0&1\\ -1&0\end{bmatrix}
其特征多项式是\lambda^2+1,因此其特征值成复共轭对出现,分别是i和-i,而没有实数特征值。相应的特征向量也是非实数的。

数值计算

在实践中,大型矩阵的特征值无法通过特征多项式计算。计算该多项式本身相当费资源,而根的精确表达式对于高次的多项式来说很难计算和表达:阿贝尔-鲁菲尼定理显示五次或更高次的多项式的根无法用n次方根来简单表达。对于估算多项式的根的有效算法是有的,但特征值中的微小误差可以导致特征向量的巨大误差。因此,寻找特征多项式和特征值的一般算法,是迭代法。最简单的方法是幂法:取一个随机向量v,然后计算如下的一系列单位向量

\frac{Av}{||Av||}, \frac{A^2v}{||A^2v||}, \frac{A^3v}{||A^3v||}, …
这个序列几乎总是收敛于最大绝对值的特征值所对应的特征向量。这个算法很简单,但是本身不是很有用。但是,象QR算法这样的算法正是以此为基础的。

性质

代数重次

A的一个特征值λ的代数重数是λ作为A的特征多项式的根的次数;换句话说,若r是该多项式的一个根,它是一次多项式因子(λ – r)在特征多项式中在因式分解后中出现的次数。如果将代数重次计算在内的话,一个n×n矩阵有n个特征值,因为其特征多项式次数为n。

一个代数重次1的特征值为“单特征值”。

在关于矩阵理论的条目中,可能会遇到如下的表示方法:

“一个矩阵A的特征值为4,4,3,3,3,2,2,1,”
表示4的代数重次为二,3的是三,2的是二,而1的是1。这样写是因为代数重次对于矩阵理论中的很多数学证明很重要而被大量使用。

和代数重数相对的是特征值的几何重数:特征值相对应的特征空间(也就是λI − A的零空间)的维数。代数重次也可以视为一种维数:它是相应广义特征空间的维数,也就是当自然数k足够大的时候矩阵(λI − A)k的零空间。也就是说,它是所有“广义特征向量”组成的空间,其中一个广义特征向量是任何一个如果λI − A作用连续作用足够多次就“最终”会变0的向量。任何特征向量都是一个广义特征向量,以此任一个特征空间都被包含于相应的广义特征空间。这给了一个几何重次总是小于或等于代数重次的简单证明。

例如:

{\displaystyle A={\begin{bmatrix}1&1\\0&1\end{bmatrix}}}
它只有一个特征值,也就是λ = 1。其特征多项式是(\lambda-1)^2,所以这个特征值代数重次为2。但是,相应特征空间是通常称为x轴的数轴,由向量\begin{bmatrix} 1 \\ 0 \end{bmatrix} 线性生成,所以几何重次只是1。

广义特征向量可以用于计算一个矩阵的若尔当标准型(参看下面的讨论)。若尔当块通常不是对角化而是幂零的这个事实与特征向量和广义特征向量之间的区别直接相关。

一般矩阵分解定理

如上所述,谱定理表明正方形矩阵可以对角化当且仅当它是正规的。对于更一般的未必正规的矩阵,我们有类似的结果。当然在一般的情况,有些要求必须放松,例如酉等价性或者最终的矩阵的对角性。所有这些结果在一定程度上利用了特征值和特征向量。下面列出了一些这样的结果:

  • 舒尔三角形式表明任何矩阵酉等价于一个上三角矩阵
  • 奇异值分解, A=U \Sigma V^*其中\Sigma 为对角阵,而U,V为酉矩阵。A=U \Sigma V^*的对角线上的元素非负,而正的项称为A的奇异值。这对非正方形矩阵也成立;
  • 若尔当标准型,其中A=U \Lambda U^{-1}其中\Lambda 不是对角阵,但是分块对角阵,而U 是酉矩阵。若尔当块的大小和个数由特征值的几何和代数重次决定。若尔当分解是一个基本的结果。从它可以立即得到一个正方形矩阵可以完全用它的特征值包括重次来表述,最多只会相差一个酉等价。这表示数学上特征值在矩阵的研究中有着极端重要的作用。
  • 作为若尔当分解的直接结果,一个矩阵A可以“唯一”地写作A = S + N其中S可以对角化,N是幂零的(也即,对于某个q,Nq=0),而S和N可交换(SN=NS)。
  • 任何可逆矩阵A可以唯一地写作A = SJ,其中S可对角化而J是么幂矩阵(也即,使得特征多项式是(λ-1)的幂,而S和J可交换)。

特征值的一些另外的属性

谱在相似变换下不变:矩阵A和P-1AP有相同的特征值,这对任何矩阵A和任何可逆矩阵P都成立。谱在转置之下也不变:矩阵A和AT有相同的特征值。

因为有限维空间上的线性变换是双射当且仅当它是单射,一个矩阵可逆当且仅当所有特征值都不是0。

若尔当分解的一些更多的结果如下:

  • 一个矩阵是对角矩阵当且仅当代数和几何重次对于所有特征值都相等。特别的有,一个n×n矩阵如果有n不同特征值,则总是可以对角化的。
  • 矩阵作用的向量空间可以视为其广义特征向量所撑成的不变子空间的直和。对角线上的每个块对应于该直和的一个子空间。若一个块是对角化的,其不变子空间是一个特征空间。否则它是一个广义特征空间,如上面所定义;
  • 因为迹,也就是矩阵主对角线元素之和,在酉等价下不变,若尔当标准型说明它等于所有特征值之和;
  • 类似的有,因为三角矩阵的特征值就是主对角线上的项,其行列式等于等于特征值的乘积(按代数重次计算出现次数)。

正规矩阵的一些子类的谱的位置是:

  • 一个埃尔米特矩阵(A = A^*)的所有特征值是实数。进一步的有,所有正定矩阵(v*Av > 0 for all vectors v)的所有特征值是正数;
  • 所有斜埃尔米特矩阵(A = −A^*)的特征值是纯虚数;
  • 所有酉矩阵(A^{-1} = A^*)的特征值绝对值为1;

假设A是一个m×n矩阵,其中m ≤ n,而B是一个n×m矩阵。则BA有和AB相同的特征值加上n − m个等于0的特征值。

每个矩阵可以被赋予一个算子范数。算子范数是其特征值的模的上确界,因而也是它的谱半径。该范数直接和计算最大模的特征值的幂法直接相关。当一个矩阵是正规的,其算子范数是其特征值的最大模,并且独立于其定义域的范数。

共轭特征向量

一个共轭特征向量或者说共特征向量是一个在变换下成为其共轭乘以一个标量的向量,其中那个标量称为该线性变换的共轭特征值或者说共特征值。共轭特征变量和共轭特征值代表了和常规特征向量和特征值相同的信息和含义,但是在交替坐标系统被使用的时候出现。对应的方程是:

Av = \lambda v^*.
例如,在相干电磁散射理论中,线性变换A代表散射物体施行的作用,而特征向量表示电磁波的极化状态。在光学中,坐标系统按照波的观点定义,称为前向散射对齐(FSA),从而导致了常规的特征值方程,而在雷达中,坐标系统按照雷达的观点定义,称为后向散射对齐(BSA),从而给出了共轭特征值方程。

广义特征值

一个广义特征值(第二种意义)有如下形式

Av = \lambda B v \quad \quad
其中A和B为矩阵。其广义特征值(第二种意义)λ 可以通过求解如下方程得到

\det(A – \lambda B)=0.
形如A – \lambda B的矩阵的集合,其中\lambda 是一个复数,称为一个“束(pencil)”。若B可逆,则最初的问题可以写作如下形式

B^{-1}Av = \lambda v \quad \quad
也即标准的特征值问题。但是,在很多情况下施行逆操作是不可取的,而广义特征值问题应该如同其原始表述来求解。

如果A和B是实系数的对称矩阵,则特征值为实数。这在上面的第二种等价表述中并不明显,因为矩阵B^{-1}A未必是对称的。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程