可对角化矩阵-是线性代数和矩阵论中重要的一类矩阵。如果一个方块矩阵 A 相似于对角矩阵,也就是说,如果存在一个可逆矩阵 P 使得 P^{−1}AP 是对角矩阵,则它就被称为可对角化的。如果 V 是有限维度的向量空间,则线性映射 T : V → V 被称为可对角化的,如果存在 V 的一个基,T 关于它可被表示为对角矩阵。对角化是找到可对角化矩阵或映射的相应对角矩阵的过程。
可对角化矩阵和映射在线性代数中有重要价值,因为对角矩阵特别容易处理: 它们的特征值和特征向量是已知的,且其次方可通过计算对角元素同样的次方来获得。
可对角化矩阵特征化
关于可对角化映射和矩阵的基本事实可表达为如下:
- 在域 F 上的 n × n 矩阵 A 是可对角化的,当且仅当它的特征空间的维度等于 n,它为真当且仅当存在由 A 的特征向量组成的 Fn 的基。如果找到了这样的基,可以形成有基向量作为纵列的矩阵 P,而 P^{-1}AP 将是对角矩阵。这个矩阵的对角元素是 A 的特征值。
-
线性映射 T : V → V 是可对角化的,当且仅当它的特征空间的维度等于 dim(V),它为真当且仅当存在由 T 的特征向量组成的 V 的基。T 关于这个基将表示为对角矩阵。这个矩阵的对角元素是 T 的特征值。
另一个特征化: 矩阵或线性映射在域 F 上可对角化的,当且仅当它的极小多项式在 F 上有不同的线性因子。
下列充分(但非必要)条件经常是有用的。
- n × n 矩阵 A 只在域 F 上可对角化的,如果它在 F 中有 n 个不同的特征值,就是说,如果它的特征多项式在 F 中有 n 个不同的根。
-
线性映射 T : V → V 带有 n=dim(V) 是可对角化的,如果它有 n 个不同的特征值,就是说它的特征多项式在 F 中有 n 个不同的根。
作为经验规则,在复数域 C 上几乎所有矩阵都是可对角化的。更精确地说: 在 C 上不可对角化的复数 n × n 矩阵的集合被当作 C^{n×n} 的子集,它是关于勒贝格测度的零集。也可以说可对角化矩阵形成了关于 扎里斯基拓扑的稠密子集 : 补位于特征多项式的判别式变为零的集合内,后者是超平面。从中得出的还有在平常的(强拓扑)中密度由范数给出。
对于 R 域就不是这样了。随着 n 增长,随机选择的实数矩阵是在 R 上可对角化的可能性越来越小。
例子
可对角化矩阵
- 对合在实数上(甚至特征不是 2 的任何域)是可对角化的,带有 1 和 -1 在对角线上。
- 有限阶自同态(包括对合)是在复数,或域的特征不整除自同态的阶的任何代数闭合域(因为单位一的根是不同的)是可对角化的,带有单位根在对角线上。这是循环群的表示理论的一部分。
- 投影是可对角化的,带有 0 和 1 在对角线上。
非可对角化的矩阵
某些矩阵在任何域上都是不可对角化的,最著名的是幂零矩阵。如果特征值的几何重次和代数重次不一致,这会更一般的出现。例如考虑
C=
\begin{bmatrix}
0&1 \\
0&0
\end{bmatrix}.
这个矩阵是不可对角化的: 没有矩阵 U 使得 U^{{-1}}CU 是对角矩阵。实际上,C 有一个特征值(就是零)而这个特征值有代数重次 2 和几何重次 1。
某些实数矩阵在实数上是不可对角化的。例如考虑
B=
\begin{bmatrix}
0&1 \\
-1&0
\end{bmatrix}.
矩阵 B 没有任何实数特征值,所以没有实数矩阵 Q 使得 Q^{{-1}}BQ 是对角矩阵。但是B仍可以对角化 ,如果允许复数的话。实际上,如果我们取
Q=
\begin{bmatrix}
1&i \\
i&-1
\end{bmatrix},
则 Q^{-1}BQ是对角的。
矩阵对角化的方法
考虑矩阵
\begin{bmatrix}
1&2&0 \\
0&3&0 \\
2&-4&2
\end{bmatrix}.
这个矩阵有特征值
\lambda _{1}=3,\quad \lambda _{2}=2,\quad \lambda _{3}=1.
所以 A 是有三个不同特征值的 3 × 3 矩阵,所以它是可对角化的。
如果我们要对角化 A,我们需要计算对应的特征向量。它们是
v_{1}=
\begin{bmatrix}
-1\\
-1\\
2
\end{bmatrix},
v_{2}=
\begin{bmatrix}
0\\
0\\
1
\end{bmatrix}, v_{3}=\begin{bmatrix}-1\\0\\2\end{bmatrix}.
我们可以轻易的验证 Av_k=\lambda_kv_k。
现在,设 P 是由这些特征向量作为纵列的矩阵:
P=\begin{bmatrix}
-1&0&-1 \\
-1&0&0 \\
2&1&2
\end{bmatrix}.
则 P 对角化了 A,简单的计算可验证:
P^{-1}AP=
\begin{bmatrix}
0&-1&0\\
2&0&1\\
-1&1&0
\end{bmatrix}
\begin{bmatrix}
1&2&0\\
0&3&0\\
2&-4&2
\end{bmatrix}
\begin{bmatrix}
-1&0&-1\\
-1&0&0\\
2&1&2
\end{bmatrix}
=\begin{bmatrix}
3&0&0 \\
0&2&0\\
0&0&1
\end{bmatrix}.
注意特征值 \lambda _{k}出现在对角矩阵中。
可对角化矩阵的应用
对角化可被用来有效的计算矩阵 A 的幂,假如矩阵是可对角化的。比如我们找到了
P^{-1}AP=D,
是对角矩阵,因为矩阵的积是结合的,
\begin{aligned}A^{k}&=(PDP^{-1})^{k}=\end{aligned}
\begin{aligned}(PDP^{-1})\cdot (PDP^{-1})\cdots (PDP^{-1})\ \end{aligned}
\begin{aligned}=PD(P^{-1}P)D(P^{-1}P)\cdots (P^{-1}P)DP^{-1}=PD^{k}P^{-1}\end{aligned}
而后者容易计算,因为它只涉及对角矩阵的幂。
在找到线性递归序列比如斐波那契数列的项的闭合形式的表达中这是非常有用的。
可对角化矩阵的特定应用
例如,考虑下列矩阵:
M=\begin{bmatrix}
a&{b-a} \\
0&b
\end{bmatrix}.
计算 M 个各次幂揭示了一个惊人的模式:
M^2 = \begin{bmatrix}
a^2&b^2-a^2 \\
0 &b^2
\end{bmatrix},
M^3 = \begin{bmatrix}
a^3&b^3-a^3 \\
0 &b^3
\end{bmatrix},
M^4 = \begin{bmatrix}
a^4&b^4-a^4 \\
0 &b^4
\end{bmatrix},\quad \ldots
上面的现象可以通过对角化 M 来解释。要如此我们需要由 M 的特征向量组成的 R2 的基。一个这样的特征向量基给出自
u=\begin{bmatrix}
1 \\
0
\end{bmatrix}={e}_1,
v=\begin{bmatrix}
1 \\
1
\end{bmatrix}
= e_1+e_2,
这里的 e_i 指示 R_n 的标准基。 逆的基变更给出自
u=\begin{bmatrix}
1 \\
0
\end{bmatrix}
=e_1,
v=\begin{bmatrix}
1\\
1
\end{bmatrix}
=e_1+e_2.
直接计算证实
M\mathbf {u} =a\mathbf {u} ,\qquad M\mathbf {v} =b\mathbf {v} .
所以,a 和 b 是分别是对应于 u 和 v 的特征值。 根据矩阵乘法的线性,我们有
M^{n}\mathbf {u} =a^{n}\mathbf {u} \qquad M^{n}\mathbf {v} =b^{n}\mathbf {v}.
切换回标准基,我们有
M^{n}e_1=
M^{n}{u} =
a^{n}e_1,
M^{n}e_1=
M^{n}{\mathbf {u}}=a^{n}{\mathbf {e}}_{1},
M^{n}\mathbf {e} _{2}=M^{n}(\mathbf {v} -\mathbf {u} )=b^{n}\mathbf {v} -a^{n}\mathbf {u} =(b^{n}-a^{n})\mathbf {e} _{1}+b^{n}\mathbf {e} _{2}.
前面的关系用矩阵形式表达为
M^n=
\begin{bmatrix}
a^n&b^n-a^n \\
0&b^n
\end{bmatrix},
因此解释了上述现象。