一、线性空间与线性变换
1. 线性空间
线性空间 :设V 是一个非空的集合,F 是一个数域,在集合V 中定义加法(+)和数乘(⋅ )两种运算,如果这两种运算满足加法交换律、加法结合律、数乘结合律、两个分配律,0元存在,1元存在,负元存在 这八条运算律,则称V 为线性空间。线性空间满足对加法和乘法的封闭性。
(1)加法交换律:α + β = β + α .
(2)加法结合律:( α + β ) + γ = α + ( β + γ ) .
(3)数乘结合律:k ( l α ) = ( k l ) α .
(4)分配律1:( k + l ) α = k α + l α .
(5)分配律2:k ( α + β ) = k α + k β .
(6)零元素:α + 0 = α .
(7)1元素:1 ⋅ α = α .
(8)负元素:α + β = 0 .
例如:
函数空间:全体实函数集合构成 实数域R 上的线性空间。
矩阵空间:复数域C 上的全体m × n 矩阵构成的集合C m × n 为C 上的线性空间。
多项式空间:实数域R 上全体次数小于或等于n 的多项式集合R [ x ] n + 1 构成实数域R 上的线性空间。
2. 基、维数
基、坐标、维数
若设线性空间V 中存在n 个线性无关的向量α 1 , α 2 , ⋯ , α n ,使得V 中任意一个向量α 都可以由α 1 , α 2 , ⋯ , α n 线性表示,即α = k 1 α 1 + k 2 α 2 + ⋯ + k n α n ,则称α 1 , α 2 , ⋯ , α n 为V 的一个基 ,称k 1 , k 2 , ⋯ , k n 为向量α 在基α 1 , α 2 , ⋯ , α n 下的坐标 ,称V 为一个n 维 线性空间,记作dim V = n .
维数是矩阵中自由量的个数,比如2 × 2 的矩阵,它的维数一般是4;但是如果加了约束条件,比如2 × 2 的对称矩阵,那么它的维数是3.
线性空间的基并不唯一,证明一组向量是线性空间的基,两步走:
证明这组向量线性无关.
证明线性空间任意向量可由这组向量表示.
基变换
设( α 1 , α 2 , ⋯ , α n ) 和( β 1 , β 2 , ⋯ , β n ) 是n 维线性空间V n ( F ) 中的两组基,它们的关系为β i = c 1 i α 1 + c 2 i α 2 + ⋯ + c ni a i = [ α 1 , α 2 , ⋯ , α n ] c 1 i c 2 i ⋮ c ni ,i = 1 , 2 , ⋯ , n
写成矩阵的形式为[ β 1 β 2 ⋯ β n ] = [ α 1 α 2 ⋯ α n ] c 11 c 21 ⋯ c n 1 c 12 c 22 ⋯ c n 2 ⋯ ⋯ ⋯ ⋯ c 1 n c 2 n ⋯ c nn = [ α 1 α 2 ⋯ α n ] C
称矩阵C 是由( α 1 , α 2 , ⋯ , α n ) 到( β 1 , β 2 , ⋯ , β n ) 的过渡矩阵 。
过渡矩阵是可逆的,若B = A C ,则A = B C − 1 .
坐标变换
任取ξ ∈ V ,若ξ 在基( α 1 , α 2 , ⋯ , α n ) 上的坐标为[ a 1 a 2 ⋯ a n ] T ,在基( β 1 , β 2 , ⋯ , β n ) 上的坐标为[ b 1 b 2 ⋯ b n ] T ,则
b 1 b 2 ⋮ b n = C − 1 a 1 a 2 ⋮ a n
与基变换B = A C 对应,坐标变换可以写成b = C − 1 a .
例:在4维线性空间R 2 × 2 中,有两组基ε 1 = [ 0 1 1 1 ] 、ε 2 = [ 1 1 0 1 ] 、ε 3 = [ 1 0 1 1 ] 、ε 4 = [ 1 1 1 0 ] 和μ 1 = [ 1 0 0 0 ] 、μ 2 = [ 1 0 1 0 ] 、μ 3 = [ 1 1 1 0 ] 、μ 4 = [ 1 1 1 1 ] ,求从基ε 到基μ 的过渡矩阵,并求向量A = [ 1 3 2 4 ] 在这两组基下的坐标。
解:4维空间的过渡矩阵是4 × 4 的,利用性质得μ 1 = c 11 ε 1 + c 21 ε 2 + c 31 ε 3 + c 41 ε 4 、μ 2 = ⋯
算出[ μ 1 μ 2 μ 3 μ 4 ] = [ ε 1 ε 2 ε 3 ε 4 ] − 3 2 3 1 3 1 3 1 − 3 1 − 3 1 3 2 3 2 0 0 0 1 3 1 3 1 3 1 3 1
设向量A 在第一组基下的坐标为( x 1 x 2 x 3 x 4 ) T ,则[ 1 3 2 4 ] = x 1 [ 0 1 1 1 ] + x 2 [ 1 1 0 1 ] + x 3 [ 1 0 1 1 ] + x 4 [ 1 1 1 0 ]
算出x 1 = 3 7 、x 2 = 3 4 、x 3 = 3 1 、x 4 = − 3 2
向量A 在第二组基下的坐标为 y 1 y 2 y 3 y 4 = − 3 2 3 1 3 1 3 1 − 3 1 − 3 1 3 2 3 2 0 0 0 1 3 1 3 1 3 1 3 1 − 1 x 1 x 2 x 3 x 4 = − 1 − 1 − 1 4 .
3. 线性子空间、维数公式
设V 是数域F 上的一个n 维线性空间,W 为V 的一个非空子集,如果对任意的α , β ∈ W ,都有k α + lβ ∈ W ,则称W 是V 上的i一个子空间。(也就是说,要验证子空间,只需验证对加法和乘法封闭 即可)
比如
列空间R(A) :由矩阵的列组成的列向量的生成空间;列向量的线性组合可以表示为A x ,因此R ( A ) = { A x ∣ x 属于 n 维空间 } 。
核空间N(A) :核空间为解空间,比如N ( A ) = { x ∣ A x = 0 } ,解空间的基是A x = 0 的基础解系,维数是基础解系所含向量的个数,dim N ( A ) 称为A 的零度。
子空间的交、和 :设V 1 、V 2 是线性空间V 的两个子空间,则
V 1 ⋂ V 2 = { α ∣ α ∈ V 1 且 α ∈ V 2 } ,此时V 1 ⋂ V 2 构成了V 的线性子空间,称为交空间。
V 1 + V 2 = { α = α 1 + α 2 ∣ α 1 ∈ V 1 且 α 2 ∈ V 2 } ,此时V 1 + V 2 构成了V 的子空间,称为和空间。
直和子空间 :如果W = V 1 + V 2 ,且V 1 ⋂ V 2 = { 0 } ,则称W 是V 1 与V 2 的直和子空间,记作W = V 1 ⊕ V 2 。
直和补子空间 :对于V 的任意子空间V 1 ,都存在V 中的子空间V 2 ,使得V = V 1 ⊕ V 2 成立,此时称V 2 是V 1 的直和补子空间。
维数公式 :
dim ( V 1 + V 2 ) = dim V 1 + dim V 2 − dim ( V 1 ⋂ V 2 ) .
dim ( W 1 ∩ W 2 ) ⩽ dim W i ⩽ dim ( W 1 + W 2 ) ⩽ dim V .
4. 线性映射
线性映射 :若存在映射ϕ : V 1 → V 2 ,对于线性空间V 1 上的任意两个向量α 1 , α 2 ,都有(1)ϕ ( α 1 + α 2 ) = ϕ ( α 1 ) + ϕ ( α 2 ) (2)ϕ ( λ α 1 ) = λ ϕ ( α 1 ) ,则称ϕ 是从V 1 到V 2 的线性映射 ,称α 1 是ϕ ( α 1 ) 的原像 ,ϕ ( α 1 ) 是α 1 的像 。
若α 1 , α 2 , ⋯ , α s 线性相关,则ϕ ( α 1 ) , ϕ ( α 2 ) , ⋯ , ϕ ( α s ) 也线性相关。(因为ϕ ( ∑ k i α i ) = ∑ k i ϕ ( α i ) )
核空间可以用映射来定义:
设ϕ 是V 1 到V 2 的线性映射(ϕ ( V 1 ) = { β = ϕ ( α ) ∈ V 2 , ∀ α ∈ V 1 } ),则ϕ ( V 1 ) 是V 2 的线性子空间,称为线性映射ϕ 的值域 ,记作R ( ϕ ) ,若令N ( ϕ ) = ϕ − 1 ( 0 ) = { α ∈ V 1 ∣ ϕ ( α ) = 0 } ,则N ( ϕ ) 是V 1 的线性子空间,称为线性映射ϕ 的核子空间 ,dim N ( ϕ ) 称为ϕ 的零度 。
秩与零度定理 :设ϕ 是n 维线性空间V 1 到m 维线性空间V 2 的线性映射,则dim R ( ϕ ) + dim N ( ϕ ) = n .
线性变换 :设ϕ 是从V 到V 的一个线性映射,则称ϕ 是线性空间V 的线性变换。
线性变换的矩阵表示 :设ϕ 是V 的线性变换,α 1 , α 2 , ⋯ , α n 是V 的一组基,于是ϕ ( V ) 可以用这组基线性表示:ϕ ( α j ) = ∑ i = 1 m c ij α i ,j = 1 , 2 , ⋯ , n ;写成矩阵的形式:ϕ ( α 1 , α 2 , ⋯ , α n ) = ( α 1 , α 2 , ⋯ , α n ) c 11 c 21 ⋮ c n 1 c 12 c 22 ⋮ c n 2 ⋯ ⋯ ⋮ ⋯ c 1 n c 2 n ⋮ c nn = ( α 1 , α 2 , ⋯ , α n ) C ,n 阶方阵C 称为ϕ 在α 1 , α 2 , ⋯ , α n 下的矩阵表示 。(简称为在某基下的矩阵)
例:在R [ x ] 4 中,基选取p 1 = x 3 、p 2 = x 2 、p 3 = x 、p 4 = 1 ,求微分运算D 的矩阵表示
解:微分运算是一种线性变换,这里线性映射是微分运算D ,先算出基的微分,再用原来的基表示出来,就可以写出矩阵表示
⎩ ⎨ ⎧ D ( p 1 ) = 3 x 2 = 0 p 1 + 3 p 2 + 0 p 3 + 0 p 4 D ( p 2 ) = 2 x = 0 p 1 + 0 p 2 + 2 p 3 + 0 p 4 D ( p 3 ) = 1 = 0 p 1 + 0 p 2 + 0 p 3 + 1 p 4 D ( p 4 ) = 0 = 0 p 1 + 0 p 2 + 0 p 3 + 0 p 4 ,于是矩阵为 0 3 0 0 0 0 2 0 0 0 0 1 0 0 0 0 .
同一线性变换在不同基下的矩阵之间的关系 :设ϕ 是V 的线性变换,α 1 , α 2 , ⋯ , α n 与β 1 , β 2 , ⋯ , β n 是V 的两组基,由{ α i } 到{ β i } 的过渡矩阵为P ,ϕ 在基α 1 , α 2 , ⋯ , α n 下的矩阵为A ,则在β 1 , β 2 , ⋯ , β n 下的矩阵B = P − 1 A P .
证明:∵ ( β 1 , β 2 , ⋯ , β n ) = ( α 1 , α 2 , ⋯ , α n ) P ,ϕ ( α 1 , α 2 , ⋯ , α n ) = ( α 1 , α 2 , ⋯ , α n ) A ,ϕ ( β 1 , β 2 , ⋯ , β n ) = ( β 1 , β 2 , ⋯ , β n ) B
∴ ( β 1 , β 2 , ⋯ , β n ) B = ϕ ( β 1 , β 2 , ⋯ , β n ) = ϕ [( α 1 , α 2 , ⋯ , α n ) P ] = ϕ ( α 1 , α 2 , ⋯ , α n ) P = ( α 1 , α 2 , ⋯ , α n ) A P = ( β 1 , β 2 , ⋯ , β n ) P − 1 A P
由于β 1 , β 2 , ⋯ , β n 线性无关,所以B = P − 1 A P .
5. 特征值、特征向量
设A 是n 阶方阵,若存在数λ 及n 元非零列向量η ,使得A η = λ η ,则称λ 是A 的特征值,称η 是A 属于λ 的特征向量。
相关定义:
λ E − A 称为A 的特征矩阵 .
行列式∣ λ E − A ∣ 称为A 的特征多项式.
n 次代数方程∣ λ E − A ∣ = 0 称为A 的特征方程,他们的根称为A 的特征值 (或特征根).
矩阵A 的所有特征根的全体称为A 的谱 ,记作σ ( A ) .
( λ E − A ) X = 0 称为A 的特征方程组 .
性质1:
∣ A ∣ = λ 1 λ 2 ⋯ λ n .(即A 可逆的充要条件是特征值都不为零)
∑ i = 1 n a ij = ∑ i = 1 n λ i = t r ( A ) .
性质2:
k A 的特征值是kλ .
A m 的特征值是λ m .(m 是正整数)
若A 可逆,则A − 1 的特征值是λ − 1 .
更一般地,f ( A ) 的特征值是f ( λ ) .(f ( x ) 为x 的多项式)
(此时η 仍是A 分别对应于kλ 、λ m 、λ − 1 、f ( λ ) 的特征向量)
特征子空间 :n 阶矩阵A 的属于λ 0 的全部特征向量再添上零向量,可以组成R n 的一个子空间,称之为矩阵A 的属于特征值λ 0 的特征子空间,记作V λ 0 。(不难看出,V λ 0 是特征方程组( λ 0 E − A ) X = 0 的解空间)
代数重复度 :设λ 1 , λ 2 , ⋯ , λ r 是A 的r 个互不相同的特征值,对应的重数分别为p 1 , p 2 , ⋯ , p r ,则称p i 为λ i 的代数重复度。(因此可以把特征多项式写成∣ λ E − A ∣ = ( λ − λ 1 ) p 1 ( λ − λ 2 ) p 2 ⋯ ( λ − λ r ) p r )
几何重复度 :特征子空间V λ 0 的维数q i 称为λ i 的几何重复度,q i = n − rank ( λ i E − A ) 。
性质3:
属于不同特征值的特征向量是线性无关的.
设λ 1 , λ 2 , ⋯ , λ r 是A 的r 个互不相同的特征值,q i 是λ i 的几何重复度,η i 1 , η i 2 , ⋯ , η i q i 是对应λ i 的q i 个线性无关的特征向量,则A 的所有这些特征向量η 11 , η 12 , ⋯ , η 1 q 1 ; η 21 , η 22 , ⋯ , η 2 q 2 ; ⋯ ; η r 1 , η r 2 , ⋯ , η r q r 线性无关.
一个特征向量不能属于不同的特征值.
矩阵A 的任一特征值λ i 的几何重复度q i 不大于它的代数重复度p i .
6. 相似、对角化
相似对角化的条件 :A 与对角阵相似,则称可对角化,也可以称A 为单纯矩阵 。n 阶矩阵A 可相似对角化的充要条件是有n 个线性无关的特征向量(或每一个特征值的几何重复度等于代数重复度 )(推论:无重根则一定可以相似对角化)。
引理:对于分块矩阵C = [ A 0 0 B ] ,C 可对角化的条件是A 、B 都可以对角化。
两个相似的矩阵它们的行列式的值相同、秩相同、特征值相同且对应的特征向量也相同。
同时对角化的条件 :若存在可逆矩阵P ,使得P − 1 A P 与P − 1 BP 都是对角阵,则称A 、B 可同时对角化。可同时对角化的充要条件是A B = B A 。(也就是说,当A B = B A 时,A 、B 有相同的特征向量)
例:判断A = 3 2 1 − 1 0 − 1 1 1 2 是否可以相似对角化
解:∣ λ E − A ∣ = ( λ − 1 ) ( λ − 2 ) 2 ,即λ 1 = 1 , λ 2 = 2 (二重),其中λ 1 一定对应一个线性无关的特征向量,只需考虑λ 2
λ 2 E − A = − 1 − 2 − 1 1 2 1 − 1 − 1 0 → 行 1 0 0 − 1 0 0 1 1 0 ,rank ( λ 2 E − A ) = 2 ,故q 2 = n − rank ( λ 2 E − A ) = 1
几何重复度不等于代数重复度,故A 不能相似对角化。
二、Jordan标准形
1. λ -矩阵
λ -矩阵 :设a ij ( λ ) (i = 1 , 2 , ⋯ , m ;j = 1 , 2 , ⋯ , n )为数域F 上的多项式,则称A ( λ ) = a 11 ( λ ) a 21 ( λ ) ⋯ a m 1 ( λ ) a 12 ( λ ) a 22 ( λ ) ⋯ a m 2 ( λ ) ⋯ ⋯ ⋯ ⋯ a 1 n ( λ ) a 2 n ( λ ) ⋯ a mn ( λ ) 为多项式矩阵 ,或λ -矩阵 。其中a ij ( λ ) 中最高次数为A ( λ ) 的次数 。
比如特征矩阵λ E − A 就是一个λ -矩阵。
λ -矩阵的初等变换 :
矩阵的任意两行(列)互换位置.
非零常数c 乘以矩阵的某一行(列).
矩阵的某一行(列)的φ ( λ ) 倍加到另一行(列)上.(其中φ ( λ ) 是λ 的一个多项式)
(和数字矩阵类似,每种初等变换都有对应的可逆的初等矩阵,且一个矩阵左乘初等矩阵相当于作初等行变换,右乘相当于作初等列变换)
λ -矩阵的等价 :如果A ( λ ) 经过有限次初等变换之后变成B ( λ ) ,则称A ( λ ) 与B ( λ ) 等价,记作A ( λ ) ⋍ B ( λ ) 。
(和数字矩阵类似,等价具有自反性A ( λ ) ⋍ A ( λ ) 、对称性A ( λ ) ⋍ B ( λ ) 则 B ( λ ) ⋍ A ( λ ) 、传递性A ( λ ) ⋍ B ( λ ) 且 B ( λ ) ⋍ C ( λ ) 则 A ( λ ) ⋍ C ( λ ) )
2.
不变因子、行列式因子、初等因子
λ -矩阵的Smith标准型 :任意一个非零的m × n 型λ -矩阵都等价于一个“对角矩阵”,即A ( λ ) = d 1 ( λ ) ⋱ d r ( λ ) 0 ⋱ 0 ,其中d i ( λ ) 是首项系数为1的多项式,且d i ( λ ) ∣ d i + 1 ( λ ) (该记号表示d i + 1 ( λ ) 能被d i ( λ ) 整除),这种形式的矩阵称为Simth标准型 ,d 1 ( λ ) , d 2 ( λ ) , ⋯ , d r ( λ ) 称为A ( λ ) 的不变因子 。
比如[ λ 0 0 λ + 1 ] 就不是Simth标准型(因为λ + 1 不能被λ 整除),作初等变换后变成[ 1 0 0 λ ( λ + 1 ) ] 后才是Simth标准型。
行列式因子 :设rank ( A ( λ )) = r ,A ( λ ) 的全部k 阶子式(1 ≤ k ≤ r )的最大公因式D k ( λ ) 称为A ( λ ) 的k 阶行列式因子(要求D k ( λ ) 首项系数为1)。显然,秩为r 的λ 矩阵行列式因子一共有r 个。
例:求A ( λ ) = 1 − λ λ 1 + λ 2 λ 2 λ λ 2 λ − λ − λ 2 的各阶行列式因子
解:每个位置上的元素都构成一个一阶行列式因子,比如1 − λ 和λ 是互素的,所以它们的最大公因式D 1 = 1 .
3 × 3 行列式总共有9个二阶子式,大部分子式至少都有λ ,考虑两个特殊的, 1 − λ λ λ 2 λ = λ ( − λ 2 − λ + 1 ) , 1 − λ λ 2 + 1 λ 2 λ 2 = λ 3 ( − λ − 1 ) ,它们的最大公因式是λ ,所以D 2 = λ .
三阶子式就是这个矩阵的行列式,∣ A ( λ ) ∣ = − λ 3 − λ 2 ,所以D 3 = λ 3 + λ 2 .
观察可知,D 1 ( λ ) 是D 2 ( λ ) 的因式,D 2 ( λ ) 是D 3 ( λ ) 的因式,⋯ ,该结论对任意λ -矩阵都适用。
初等因子 :对于λ -矩阵的不变因子d 1 ( λ ) , d 2 ( λ ) , ⋯ , d r ( λ ) ,在复数域内将它们分解成一次因式的幂的乘积:d 1 ( λ ) = ( λ − λ 1 ) e 11 ( λ − λ 2 ) e 12 ⋯ ( λ − λ s ) e 1 s ,⋯ ,d r ( λ ) = ( λ − λ 1 ) e r 1 ( λ − λ 2 ) e r 2 ⋯ ( λ − λ s ) e rs ,其中λ 1 , ⋯ , λ s 是互异的复数,e ij 是非负整数,所有指数大于零的因子( λ − λ j ) e ij 称为λ -矩阵的初等因子。
由于d i ( λ ) ∣ d i + 1 ( λ ) ,所以d i ( λ ) 一定可以写成上面的形式,而且0 ≤ e 11 ≤ e 21 ≤ ⋯ ≤ e r 1 ,⋯ ,0 ≤ e 1 s ≤ e 2 s ≤ ⋯ ≤ e rs .
例:若λ -矩阵的不变因子为,⎩ ⎨ ⎧ d 1 ( λ ) = 1 d 2 ( λ ) = λ ( λ − 1 ) d 3 ( λ ) = λ ( λ − 1 ) 2 ( λ + 1 ) 2 d 4 ( λ ) = λ 2 ( λ − 1 ) 3 ( λ + 1 ) 3 ( λ − 2 ) ,则它的初等因子为λ 、λ 、λ 2 、λ − 1 、( λ − 1 ) 2 、( λ − 1 ) 3 、( λ + 1 ) 2 、( λ + 1 ) 3 、( λ − 2 ) .
例:若已知5 × 6 的λ 矩阵的秩为4,其初等因子为λ 、λ 、λ 2 、( λ − 1 ) 、( λ − 1 ) 2 、( λ − 1 ) 2 、( λ + i ) 3 ,求它的Simth标准型
解:d 4 ( λ ) = λ 2 ( λ − 1 ) 2 ( λ + i ) 3 ,d 3 ( λ ) = λ ( λ − 1 ) 2 ,d 2 ( λ ) = λ ( λ − 1 ) ,d 1 ( λ ) = 1 。
故其Simth标准型为: 1 0 0 0 0 0 λ ( λ − 1 ) 0 0 0 0 0 λ ( λ − 1 ) 2 0 0 0 0 0 λ 2 ( λ − 1 ) 2 ( λ + i ) 3 0 0 0 0 0 0 0 0 0 0 0 .
特别地,对于分块对角λ -矩阵A ( λ ) = A 1 ( λ ) ⋱ A t ( λ ) ,A 1 ( λ ) , ⋯ , A t ( λ ) 各个初等因子的全体,就是A ( λ ) 的全部初等因子。
对角型矩阵可以很快地写成Simth标准型,例如[ λ 0 0 λ + 1 ] ,可以看作是分块大小为1的分块对角λ -矩阵,分块的全体初等因子为λ 、λ + 1 ,故其Simth标准型为[ 1 0 0 λ ( λ + 1 ) ] .
定理:等价的λ -矩阵有相同的各阶行列式因子,从而有相同的秩。(证明思路:证各种初等变换都不改变行列式因子)
根据Simth标准型的性质d i ( λ ) ∣ d i + 1 ( λ ) ,于是λ -矩阵的d 1 ( λ ) = D 1 ( λ ) ,d 2 ( λ ) = D 1 ( λ ) D 2 ( λ ) ,⋯ ,d r ( λ ) = D r − 1 ( λ ) D r ( λ ) .
或者写成D 1 ( λ ) = d 1 ( λ ) ,D 2 ( λ ) = d 1 ( λ ) d 2 ( λ ) ,D 3 ( λ ) = d 1 ( λ ) d 2 ( λ ) d 3 ( λ ) ,⋯ ,D r ( λ ) = d 1 ( λ ) d 2 ( λ ) ⋯ d r ( λ ) .
定理:λ -矩阵的Simth标准型是唯一的。
定理:A ( λ ) 与B ( λ ) 等价的充要条件 是它们有相同的各阶行列式因子 。
定理:A ( λ ) 与B ( λ ) 等价的充要条件 是它们有相同的不变因子 。
定理:A ( λ ) 与B ( λ ) 等价的充要条件 是它们有相同的秩 和相同的初等因子 。
有时利用行列式因子可以方便地求出Simth标准型,而不需要作复杂的初等变换
例:求 λ − a c 1 λ − a c 2 ⋱ ⋱ λ − a c n − 1 λ − a 的Simth标准型,其中c 1 , c 2 , ⋯ , c n − 1 = 0
解:它是一个对角阵,D n ( λ ) = ( λ − a ) n
观察矩阵,有一个特殊的n − 1 阶子式,去掉第一列和最后一行的子式,它是一个对角阵,行列式的值为c 1 c 2 ⋯ c n − 1 = 0 ,故D n − 1 = 1 ,于是根据性质知,D n − 2 = ⋯ = D 1 = 1 ,因此d 1 ( λ ) = d 2 ( λ ) = ⋯ = d n − 1 ( λ ) = 1 ,d n ( λ ) = ( λ − a ) n .
数字矩阵的相似与λ -矩阵的关系 :设A 、B 是两个n 阶数字矩阵,那么A 、B 相似的充要条件是它们的特征矩阵λ E − A 与λ E − B 等价。
数字矩阵的不变因子、初等因子 :对于数字矩阵A ,称λ E − A 的不变因子为A 的不变因子,称λ E − A 的初等因子为A 的初等因子。
定理:两个同阶方阵A 、B 相似的充要条件 是它们有相同的各阶行列式因子 。
定理:两个同阶方阵A 、B 相似的充要条件 是是它们有相同的不变因子 。
定理:两个同阶方阵A 、B 相似的充要条件 是它们有相同的初等因子 。(由于特征矩阵行列式的值不为0,故rank ( λ E − A ) = rank ( λ E − B ) = n ,因此不需要秩相同的条件)
3. 方阵的Jordan标准型
如果一个方阵A 可以相似对角化Λ = P − 1 A P ,则可以通过Λ 的一些性质间接得到A 的一些性质,从而简化计算。同理,如果A 可以写成J A = P − 1 A P ,就可以用Jordan标准型J A 的一些性质简化计算。
Jordan标准型 :准对角矩阵J = J 1 J 2 ⋱ J s 称为Jordan标准型,其中n i 阶矩阵J i = a i 1 a i 1 ⋱ ⋱ ⋱ 1 a i 为Jordan块,( λ E − J i ) 的行列式因子为D n i ( λ ) = ( λ − a i ) n i ,D n − 1 ( λ ) = ⋯ = D 1 ( λ ) = 1 ,故J i 的初等因子为( λ − a i ) n i ,J 的初等因子为( λ − a 1 ) n 1 、( λ − a 2 ) n 2 、⋯ 、( λ − a s ) n s 。
矩阵相似于Jordan标准型的条件 :若A ∈ C n × n ,且A 的初等因子为( λ − a 1 ) n 1 、( λ − a 2 ) n 2 、⋯ 、( λ − a s ) n s ,则A ∼ J = diag ( J 1 , J 2 , ⋯ , J s ) ,其中J i 是Jordan块。
若不考虑Jordan块的排列顺序,则Jordan标准型是唯一的。
推论:n 阶矩阵A 可以对角化的充要条件是A 的初等因子都是一次因式 。
Jordan标准型的求法 :
(1)求出初等因子,然后根据初等因子与Jordan标准型的关系直接写出Jordan标准型.
(2)Jordan标准型对角线上的元素是矩阵的特征值,先算出特征值,然后讨论如何分块.
例:求A = − 1 − 4 1 1 3 0 0 0 2 的Jordan标准型
解:先求出A 的初等因子,λ E − A = λ + 1 − 4 1 − 1 λ − 3 0 0 0 λ − 2 ⋍ 1 1 ( λ − 1 ) 2 ( λ − 2 ) ,得出A 的初等因子为( λ − 1 ) 2 、( λ − 2 ) ,故A 的Jordan标准型为 1 0 0 1 1 0 0 0 2 ,或 2 0 0 0 1 0 0 1 1 .
例:求A = 2 1 − 2 3 8 − 14 2 2 − 3 的Jordan标准型
解:先求出A 的特征多项式及其特征值,f ( λ ) = ∣ λ E − A ∣ = λ − 2 − 1 2 − 3 λ − 8 14 − 2 − 2 λ + 3 = ( λ − 1 ) ( λ − 3 ) 2 ,得出A 的特征值为λ 1 = 1 、λ 2 = 3 (二重)
对于λ 1 = 1 ,它是f ( λ ) 的1重根,对应一个1阶的Jordan块;
对于λ 2 = 3 ,要讨论两个3是在一个Jordan块内还是两个Jordan块内,进而转为讨论A 能否对角化,先求出rank ( 3 E − A ) = 2 ,几何重数q 2 = n − rank ( λ 2 E − A ) = 1 ,代数重数p 2 = 2 ,几何重数不等于代数重数,故A 不能相似对角化,因此这两个3一定在一个Jordan块内。
故Jordan标准型为 1 0 0 0 3 0 0 1 3 或 3 0 0 1 3 0 0 0 1 .
Jordan标准型的相似变换矩阵 :若n 阶方阵A 的Jordan标准型为J ,存在可逆矩阵P 使得P − 1 A P = J ,则称P 为相似变换矩阵。下面通过例题说明求解P 的方法
例:求A = 3 3 − 2 0 − 1 0 8 6 − 5 的Jordan标准型及其相似变换矩阵P
解:λ E − A = λ − 3 3 2 0 λ + 1 0 8 − 6 λ + 5 ⋍ 1 0 0 0 λ + 1 0 0 0 ( λ + 1 ) 2 ,初等因子为( λ + 1 ) 、( λ + 1 ) 2 ,故Jordan标准型为 − 1 0 0 0 − 1 0 0 1 − 1 .
设相似变换矩阵按列分块写成P = [ X 1 X 2 X 3 ] ,根据P − 1 A P = J 得到A P = P J ,A P = [ A X 1 A X 2 A X 3 ] ,P J = [ − X 1 − X 2 X 2 − X 3 ] ,从而得到A X 1 = − X 1 、A X 2 = − X 2 、A X 3 = X 2 − X 3 ,整理后可得方程组⎩ ⎨ ⎧ ( E + A ) X 1 = 0 ( E + A ) X 2 = 0 ( E + A ) X 3 = X 2 ,前两条为同解方程,可算出它们的基础解系为α 1 = 0 1 0 ,α 2 = − 2 0 1 ,因此可以选取X 1 = α 1 ,但是不能简单地取X 2 = α 2 ,因为如果X 2 选取不当,会使第三条方程无解,因为X 2 可以由基础解系线性表示,令X 2 = k 1 α 1 + k 2 α 2 ,要使第三条方程有解,要满足rank ( E + A ) = rank ( E + A ∣ X 2 ) ,[ E + A ∣ X 2 ] = 4 3 − 2 0 0 0 8 6 − 4 − 2 k 2 k 1 k 2 ,由于rank ( E + A ) = 1 ,可取k 1 = 3 、k 2 = − 2 ,此时rank ( E + A ∣ X 2 ) = 1 ,X 2 = 4 3 − 2 ,代入方程组最后解出特解X 3 = 1 0 0 ,故相似变换矩阵P 为 0 1 0 4 3 − 2 1 0 0 .
先了解Jordan标准型的几个性质 :
比如P − 1 A P = J ⟶ A [ P 1 P 2 P 3 P 4 P 4 P 5 ] = [ P 1 P 2 P 3 P 4 P 5 ] 2 1 2 1 2 3 1 3 ,则A P 1 = 2 P 1 、A P 4 = 3 P 4 、A P 2 = P 1 + 2 P 2 、A P 3 = P 2 + 2 P 3 、A P 5 = P 4 + 3 P 5 。
对于给定的λ i ,其对应的Jordan块的个数等于λ i 的几何重复度。
证明:设A 的特征根λ i 对应的Jordan块有s 个,则rank ( λ i E − J ) = n − s (因为对角线上的λ i 变成零),λ i 的几何重复度为q i = n − rank ( λ i E − A ) ,∵ rank ( λ i E − A ) = rank ( P − 1 ( λ i E − A ) P ) = rank ( λ i E − J ) ,∴ rank ( λ i E − J ) = n − q i ,即s = q i .
特征值λ i 所对应的全体Jordan块的阶数之和等于λ i 的代数重复度。
设n 阶方阵A 相似于Jordan标准型J ,即P − 1 A P = J ,则rank ( λ i E − A ) l = rank ( P − 1 ( λ i E − A ) l P ) = rank [ p − 1 ( λ i E − A ) P ] l = rank ( λ i E − J ) ,l = 1 , 2 , ⋯ .
对应n i 阶Jordan块J i ,( J i − λ i E ) l 的秩变化如下:J i = λ i 1 λ i 1 ⋱ ⋱ ⋱ 1 λ i n i × n i ,⎩ ⎨ ⎧ rank ( J i − λ i E ) = n i − 1 rank ( J i − λ i E ) 2 = n i − 2 ⋮ rank ( J i − λ i E ) n i − 1 = 1 rank ( J i − λ i E ) h = 0 , h ≥ n i ,但是如果j = i ,则rank ( J j − λ i E ) l = n j .
根据以上性质,可以得出求解Jordan标准型的另一种方法 :
(1)计算rank ( A − λ i E ) l ,得出rank ( J − λ i E ) l = rank ( A − λ i E ) l ,l = 1 , 2 , ⋯ .
(2)通过分析rank ( J − λ i E ) l 得出对应于特征值λ i 的Jordan块的个数、阶数.
例:已知10阶矩阵A 的特征多项式∣ λ E − A ∣ = ( λ − 2 ) 7 ( λ − 3 ) 3 ,求Jordan标准型
解:只知道特征多项式是无法得知初等因子的,因此无法得知如何分块,要作以下讨论
当λ = 2 时,①rank ( 2 E − A ) = 7 ;②rank ( 2 E − A ) 2 = 4 ;③rank ( 2 E − A ) 3 = 3 ;④rank ( 2 E − A ) 4 = 3 。因此对于λ = 2 的Jordan块共有10 − 7 = 3 块,由②知λ =2的Jordan块阶数≥ 2 的有7 − 4 = 3 块,由③知λ = 2 的Jordan块阶数≥ 3 的有4 − 3 = 1 块,由④知λ = 2 的Jordan块最高阶数为3阶,因此λ = 2 的Jordan块分别为3阶1块,2阶2块,共3块。
当λ = 3 时,⑤rank ( 3 E − A ) = 8 ;⑥rank ( 3 E − A ) 2 = 7 ;⑦rank ( 3 E − A ) 3 = 7 。由⑤知λ = 3 的Jordan块共有10 − 8 − 2 块,由⑥知λ = 3 的Jordan块阶数≥ 2 的有8 − 7 = 1 块,由⑦知λ = 3 的最高阶数为2阶,因此λ = 3 的Jordan块分别为2阶1块,1阶1块,共2块。
4. Jordan标准型的应用
解微分方程组
若有微分方程组⎩ ⎨ ⎧ d t d x 1 = a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n d t d x 2 = a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n ⋮ d t d x n = a n 1 x 1 + a n 2 x 2 + ⋯ + a nn x n ,把它写成矩阵的形式d t d X = A X ,其中X = x 1 ( t ) x 2 ( t ) ⋮ x n ( t ) ,d t d X = d t x 1 d t x 2 ⋮ d t x n ,设J 是A 的Jordan标准型,即P − 1 A P = J ,令X = P Y ,其中Y = y 1 ( t ) y 2 ( t ) ⋮ y n ( t ) ,代入微分方程的矩阵得P d t d Y = A P Y ,从而d t d Y = P − 1 A P Y = J Y 。算出Y 后,代入X = P Y 即可解出X 。
例:求下面微分方程组的解⎩ ⎨ ⎧ d t d x 1 = − x 1 − 2 x 2 + 6 x 3 d t d x 2 = − x 1 + 3 x 3 d t d x 3 = − x 1 − x 2 + 4 x 3
解:写成d t d X = A X 的形式,其中X = x 1 ( t ) x 2 ( t ) x 3 ( t ) ,A = − 1 − 1 − 1 − 2 0 − 1 6 3 4 ,算出A 的Jordan标准型P − 1 A P = J = 1 0 0 0 1 0 0 1 1 ,P = − 1 1 0 2 1 1 2 0 1 ,P − 1 = − 1 1 − 1 0 1 − 1 2 − 2 3
令X = P Y ,由d t d Y = J Y 得⎩ ⎨ ⎧ d t d y 1 = y 1 d t d y 2 = y 2 + y 3 d t d y 3 = y 3 ,求得⎩ ⎨ ⎧ y 1 = k 1 e t y 2 = ( k 3 t + k 2 ) e t y 3 = k 3 e t ,代入X = P Y 得⎩ ⎨ ⎧ x 1 = − k 1 e t + 2 k 3 e t + 2 ( k 3 t + k 2 ) e t x 2 = k 1 e t + ( k 3 t + k 2 ) e t x 3 = k 3 e t + ( k 3 t + k 2 ) e t
A m = E 的Jordan标准型
设A 是F 上的n 阶方阵,且存在正整数m 使得A m = E ,则A 与对角阵相似,且对角线上元素均为m 次单根。
证明:若存在可逆矩阵P ,使得P − 1 A P = J ,根据A m = E ,得J m = ( P − 1 A P ) m = P − 1 A m P = E ,由于J i m = λ i m m λ i m − 1 λ i m ⋯ ⋱ ⋱ ∗ ⋮ m λ i m − 1 λ i m ,要使J i m = E ,则J i 只能为一阶,故A 与对角阵相似,λ i 均为m 次单根。
例:若n 阶方阵A 满足A 2 = A ,则J = 1 ⋱ 1 0 ⋱ 0
证:由于J 2 = J ,故J i 只能为1阶,而且可以得到λ i 2 = λ ,即J 是一个对角矩阵且主对角线上的λ i 只能是0或1,适当调换主对角线上的元素可以得到J = diag ( 1 , ⋯ , 1 , 0 ⋯ , 0 ) ∼ A .
三、内积空间、正规矩阵、Hermite矩阵
1. 内积空间
内积(欧氏空间) :设V 是实数域R 上的n 维线性空间,对于V 中任意两个向量α 、β ,按某一确定的法则对应着一个实数,这个实数称为α 与β 的内积,记为( α , β ) ,要求该法则满足下列运算条件:
( α , β ) = ( β , α ) .
( k α , β ) = k ( α , β ) .
( α + β , γ ) = ( α , γ ) + ( β , γ ) .
( α , α ) ≥ 0 ,当且仅当α = 0 时( α , α ) = 0 .
这里α 、β 、γ 是V 中任意向量,k 为任意实数,我们称带有这样内积的n 维线性空间V 为欧氏空间 。
欧氏空间不是唯一的,只要满足上面的运算条件的映射都是欧氏空间,比如
(1)设α = ( x 1 , x 2 , ⋯ , x n ) T ,β = ( y 1 , y 2 , ⋯ , y n ) T ,若规定( α , β ) = α T β ,容易验证( ⋅ , ⋅ ) 是R n 上的内积,从而R n 是一个欧氏空间。
(2)若规定( α , β ) = x 1 y 1 + 2 x 2 y 2 + ⋯ + n x n y n ,则( ⋅ , ⋅ ) 也是R n 上的内积,这样的R n 又成为另一个欧氏空间。
(3)容易验证,( A , B ) := tr ( A B T ) 也可以构成欧氏空间。
(4)类似的,( f , g ) := ∫ a b f ( x ) g ( x ) d x 也可以构成欧氏空间。
其中符号“:= ”表示定义为。
内积(酉空间) :设V 是复数域C 上的n 维线性空间,对于V 中任意两个向量α 、β ,按某一确定的法则对应着一个复数,这个复数称为α 与β 的内积,记为( α , β ) ,要求该法则满足下列运算条件:
( α , β ) = ( β , α ) .
( k α , β ) = k ( α , β ) ,( α , k β ) = k ( α , β ) .
( α + β , γ ) = ( α , γ ) + ( β , γ ) .
( α , α ) ≥ 0 ,当且仅当α = 0 时( α , α ) = 0 .
这里α 、β 、γ 是V 中任意向量,k 为任意实数,我们称带有这样内积的n 维线性空间V 为酉空间 。
酉空间也不是唯一的,比如
(1)设α = ( a 1 , a 2 , ⋯ , a n ) T ,β = ( b 1 , b 2 , ⋯ , b n ) T ,若规定( α , β ) := ( β ) T α = a 1 b 1 + a 2 b 2 + ⋯ + a n b n ,容易验证( ⋅ , ⋅ ) 是C n 上的内积,从而C n 是一个酉空间。
(2)在n 2 维线性空间C n × n 中,规定( A , B ) := tr ( A B H ) ,其中B H 表示矩阵B 中的元素取共轭后再转置,这样的C n × n 也可以构成酉空间。
(3)设C [ a , b ] 表示闭区间上的所有连续复值函数组成的线性空间,若规定( f , g ) := ∫ a b f ( x ) g ( x ) d x ,则C [ a , b ] 也可以构成酉空间。
其中B H 表示矩阵中元素取共轭后再转置 ,这个符号在后面会用到。
一般地,我们这样定义内积 :设V 是n 维酉空间,{ α i } 是其一组基,对于V 中任意两个向量α = ∑ i = 1 n x i α i 、β = ∑ j = 1 n y i α i ,那么α 与β 的内积为( α , β ) = ( ∑ i = 1 n x i α i , ∑ j = 1 n y i α i ) = ∑ i , j = 1 n x i y j ( α i , α j ) ,令g ij = ( α i , α j ) ,把g ij 写成矩阵的形式G = g 11 g 21 ⋯ g n 1 g 12 g 22 ⋯ g n 2 ⋯ ⋯ ⋯ ⋯ g 1 n g 2 n ⋯ g nn ,我们称G 为基{ α i } 的度量矩阵 ,根据定义可知,g ij = g ji ,( G ) T = G ,( α , β ) = X T G Y .
2. Hermite矩阵
复共轭转置矩阵 :设A ∈ C n × n ,用A 表示以A 中元素的共轭复数为元素组成的矩阵,记A H = ( A ) T ,则称A H 为A 的复共轭转置矩阵,A H 有如下性质:
A H = ( A T ) .
( A + B ) H = A H + B H .
( k A ) H = k A H .
( A B ) H = B H A H .
( A H ) H = A .
∣ A ∣ = ∣ A ∣ .
( A k ) H = ( A H ) k .
( A H ) − 1 = ( A − 1 ) H .
Hermite矩阵 :设A ∈ C n × n ,若A H = A ,则称A 为Hermite矩阵 (简称H-阵);若A H = − A ,则称A 为反Hermite矩阵 (简称反H-阵)。
这个定义和实对称矩阵和反实对称矩阵是对应的。若不考虑对角线上的元素,H-阵a ij 与a ji 互为共轭(实部相同,虚部互为相反数),反H-阵a ij 与a ji 反共轭(实部互为相反数,虚部相同)。
实对称矩阵可以看作是特殊的H-阵,欧式空间和酉空间的度量矩阵也是H-阵。
任意矩阵都可以表示为A = 2 A + A T + 2 A − A T ,A = 2 A + A H + 2 A − A H 。
3. 向量的长度、Schmidt正交化
向量的长度 :设V 为酉空间(或欧氏空间),向量α ∈ V 的长度为非负实数∣∣ α ∣∣ = ( α , α ) ,向量的长度有如下性质:
∣∣ α ∣∣ ≥ 0 ,当且仅当α = 0 时,∣∣ α ∣∣ = 0 .
∣∣ k α ∣∣ = ∣ k ∣ ∣∣ α ∣∣ ,k ∈ C .
三角不等式:∣∣ α + β ∣∣ ≤ ∣∣ α ∣∣ + ∣∣ β ∣∣ .
柯西-施瓦茨(Cauchy-Schwarz)不等式:∣∣ ( α , β ) ∣∣ ≤ ∣∣ α ∣∣ ∣∣ β ∣∣ .
一般地,我们将向量α = ( a 1 , a 2 , ⋯ , a n ) 的长度定义为∣∣ α ∣∣ = ∑ i = 1 n ∣ a i ∣ 2 ,这里∣ a i ∣ 表示复数a i 的模长.
向量的夹角 :设V 为欧式空间,向量非零向量α 、β 的夹角定义为< α , β >= arccos ∣∣ α ∣∣ ∣∣ β ∣∣ ( α , β ) ,根据柯西-施瓦茨不等式可知,0 ≤< α , β >≤ π .
向量的正交 :在酉空间V 中,如果( α , β ) = 0 ,则称α 与β 正交,记作α ⊥ β .
单位化 :长度为1的向量称为单位向量,对于任意一个非零的向量α ,向量∣∣ α ∣∣ α 总是单位向量,这个过程叫单位化。
正交向量组:设{ α i } 为一组不含有零向量的向量组,如果{ α i } 内的任意两个向量彼此正交,则称其为正交向量组。
正交向量组是一个线性无关的向量组。
标准正交向量组:如果一个正交向量组中任何一个向量都是单位向量,则称此向量组为标准正交向量组。
标准正交基:在n 维空间中,由n 个正交向量组成的基称为正交基;由n 个标准的正交向量组成的基称为标准正交基。
Schmidt正交化与单位化 :设{ α 1 , α 2 , ⋯ , α r } 为n 维内积空间V 中的r 个线性无关的向量,利用这r 个向量可以构造与之等价的一个标准正交向量组,而且它是s p an { α 1 , α 2 , ⋯ , α r } 的一个标准正交基。构造的过程如下
第一步:正交化
β 1 = α 1 ;
β 2 = α 2 − ( β 1 , β 1 ) ( α 2 , β 1 ) β 1 ;
⋮
β r = α r − ( β 1 , β 1 ) ( α 2 , β 1 ) β 1 − ⋯ − ( β r − 1 , β r − 1 ) ( α r , β r − 1 ) β r − 1 .
得到的{ β i } 是一个正交向量组。
第二步:单位化
η 1 = ∣∣ β 1 ∣∣ β 1 ,η 2 = ∣∣ β 2 ∣∣ β 2 ,⋯ ,η r = β r β r .
得到的{ η i } 是一个标准正交向量组。
4. 酉矩阵
酉矩阵 :酉矩阵是复数域上的正交矩阵,设A 是一个n 阶复矩阵,如果满足A H A = A A H = E ,则称A 是酉矩阵(又叫U-阵),一般记为A ∈ U n × n .
酉矩阵的充要条件 :设A ∈ C n × n ,A 是一个酉矩阵(正交矩阵)的充要条件是A 的n 个列(或行)向量组是标准正交向量组。
酉矩阵的性质(设A , B ∈ U n × n ):
A − 1 = A H ∈ U n × n .
酉矩阵的特征值都是模长为1的复数.(即都分布在复平面的单位圆上)
∣ det ( A ) ∣ = 1 .(这里的∣ ⋅ ∣ 指模长)
A B , B A ∈ U n × n .
Householder矩阵 :设α ∈ C n × n ,且α H α = 1 ,如果G = E − 2 α α H ,则G 是一个酉矩阵,通常称这样的酉矩阵为Householder矩阵。
对比正交矩阵:设A 是一个n 阶实矩阵,若A T A = A A T = E ,则称A 是正交矩阵,一般记为A ∈ E n × n .
正交矩阵的行、列向量组都是标准正交向量组。
正交矩阵的性质(设A , B ∈ E n × n ):
A − 1 = A T ∈ E n × n .
正交矩阵的实特征值一定为1或-1.
det ( A ) = ± 1 .
A B , B A ∈ E n × n .
(2)的证明:A η = λ η ,同时转置得η T A T = λ η T ,两边同时右乘A η ,得η T A T A η = λ η T A η ,由于A T A = E 、A η = λ η ,代入得η T η = λ 2 η T η ,即( λ 2 − 1 ) η T η = 0 ,由于η T η 是列向量各元素的平方和,且特征向量η = 0 ,,故λ 2 − 1 = 0 ,λ = ± 1 .
正交矩阵分为两类:设A ∈ E 2 × 2 ,则(1)∣ A ∣ = 1 ⇒ Q − 1 A Q = [ cos θ sin θ − sin θ cos θ ] .(2)∣ A ∣ = − 1 ⇒ P − 1 A P = [ − 1 0 0 1 ] .这里P 、Q 均为正交矩阵。同样,即使A ∈ E 3 × 3 ,也可以分为两类T − 1 A T = a 0 0 0 cos θ sin θ 0 − sin θ cos θ ,(1)∣ A ∣ = 1 时,a = 1 .(2)∣ A ∣ = − 1 时,a = − 1 .
酉矩阵(正交矩阵)的几何意义:保持向量内积、长度、夹角不变。
比如,设A ∈ U n × n ,α , β ∈ C n 是列向量,若令( α , β ) = α H β ,则( A α , A β ) = ( A α ) H ( A β ) = α H A H A β = α H β = ( α , β ) .
5. 幂等矩阵、投影变换
幂等矩阵 :设A ∈ C n × n ,如果A 2 = A ,则称A 是一个幂等矩阵。(由它的jordan标准型可知,它的特征值都是1或0)
幂等矩阵的性质:
A T 、A H 、E − A 、E − A T 、E − A H 都是幂等矩阵.
A ( E − A ) = ( E − A ) A = 0 .
N ( A ) = R ( E − A ) .
N ( E − A ) = R ( A ) ,也就是说A x = x 的充要条件是x ∈ R ( A ) .
C n = R ( A ) ⊕ N ( A ) ,也就是说R ( A ) ⋂ N ( A ) = 0 .
性质(3)的证明:设x ∈ N ( A ) ,则根据核子空间的性质知,A x = 0 ,于是x − A x = x − 0 = x ⇒ ( E − A ) x = x ,因此x ∈ R ( E − A ) ,故N ( A ) ⊆ R ( E − A ) ;设y ∈ R ( E − A ) ,则存在x ∈ C n 使得y = ( E − A ) x ,于是A y = A ( E − A ) x = ( A − A 2 ) x = ( A − A ) x = 0 ,故y ∈ N ( A ) ,R ( E − a ) ⊆ N ( A ) ;整理得N ( A ) = R ( E − A ) .
性质(5)的证明:设z ∈ R ( A ) ⋂ N ( A ) ,则∃ x ∈ C n ,z = A x ,A z = 0 ,代入得A z = A 2 x = A x = z = 0 ,故z ∈ R ( A ) ⋂ N ( A ) = { 0 } 。该性质还可以写成,设x ∈ C n ,则x = A x + ( x − A x ) ,其中A x ∈ R ( A ) ,根据性质3可知( x − A x ) ∈ R ( E − A ) = N ( A ) .
幂等矩阵的结构定理 :设A 是一个秩为r 的n 阶矩阵,那么A 为一个幂等矩阵的充要条件是存在P ∈ C n n × n ,使得P − 1 A P = [ E r 0 0 0 ] .
推论:设A 是一个n 阶幂等矩阵,则tr ( A ) = rank ( A ) .
投影变换 :设S 、T 是n 维酉空间V 上的两个子空间,且V = S ⊕ T ,则对于V 中任一向量α 均可唯一表示为α = x + y ,x ∈ S 、y ∈ T ,称x 是α 沿T 到S 的投影,y 是α 沿S 到T 的投影 。由上式确定的投影变换τ : V → S ⊆ V ,τ ( α ) = x 称为V 沿T 到S 的投影变换 。
幂等矩阵与投影变换的关系 :设A 是一个n 阶幂等矩阵,则线性变换τ ( α ) = A α ,∀ α ∈ C n 是C n 沿着N ( A ) 到R ( A ) 的投影变换。
证明:C n = R ( A ) ⊕ N ( A ) ,α = A α + ( α − A α ) ,其中A α ∈ R ( A ) ,( α − A α ) ∈ R ( E − A ) = N ( A ) .
定理:则下列命题等价(设τ 是n 维酉空间V 上的线性变换)
τ 是V 上的投影变换.
τ 2 = τ .
τ 的矩阵表示A 满足A 2 = A .
从1到2的证明:设τ 是v 沿T 到S 的投影变换,∀ α ∈ V ,α = x + y ,x ∈ S , y ∈ T ,则τ ( α ) = x ,∵ τ 2 ( α ) = τ ( τ ( α )) = τ ( x ) = x = τ ( α ) 。
从2到1的证明:反过来证,∀ α ∈ V ,α = τ ( α ) + α − τ ( α ) ,∵ τ 2 = τ ,∴ τ ( α − τ ( α )) = τ ( α ) − τ 2 ( α ) = 0 ,从而α − τ ( α ) ∈ N ( τ ) ,并且V = R ( τ ) + N ( τ ) ;然后再证明是直和,设∀ z ∈ R ( τ ) ⋂ N ( τ ) ,则∃ x ∈ V 使得z = τ ( x ) ,那么τ ( z ) = τ 2 ( x ) = τ ( x ) = z ,由于z ∈ N ( τ ) ,z = τ ( z ) = 0 ,故R ( τ ) ⋂ N ( τ ) = { 0 } ,所以是直和。
从2到3的证明:设α 1 , ⋯ , α n 是V 上的一组基,A 是τ 在该基下的矩阵表示,于是τ ( α 1 , ⋯ , α n ) = ( α 1 , ⋯ , α n ) A ,τ 2 ( α 1 , ⋯ , α n ) = τ [( α 1 , ⋯ , α n ) A ] = τ ( α 1 , ⋯ , α n ) A = ( α 1 , ⋯ , α n ) A 2 ,又∵ τ 2 = τ ,τ 2 ( α 1 , ⋯ , α n ) = ( α 1 , ⋯ , α n ) A ,且( α 1 , ⋯ , α n ) 线性无关,所以A 2 = A .(从3到2反过来即可)
空间的正交 :设S 、T 是n 维酉空间V 的两个子空间,若对任意的x ∈ S 、y ∈ T ,都有( x , y ) = 0 ,则称S 与T 是正交的。
正交和 :设S 、T 是n 维酉空间V 的两个子空间,若S 与T 是正交的,则S + T 称为S 与T 的正交和。(显然S + T 是直和)
正交投影 :设n 维酉空间V 是子空间S 与T 的正交和,对任意α ∈ V ,有α = x + y ,x ∈ S 、y ∈ T ,则线性(投影)变换σ : V → S ⊆ V ,σ ( α ) = x 称为由V 到S 的正交投影。(由于正交补是唯一的,所以不需要说明V 沿T 到S )
幂等矩阵与正交投影变换的关系 :设A 是一个n 阶幂等的H-矩阵,则线性变换σ ( α ) = A α ,∀ α = C n 是C n 到R ( A ) 的正交投影变换。
证明:前面已经证明过A 幂等则是投影变换了,这里只需证明R ( A ) 与N ( A ) 正交,∀ x ∈ R ( A ) ,y ∈ N ( A ) = R ( E − A ) ,设z 1 , z 2 ∈ C n 使得x = A z 1 ,y = ( E − A ) z 2 ,则( x , y ) = ( A z 1 , ( E − A ) z 2 ) = z 2 H ( E − A ) H A z 1 = z 2 H ( E − A ) A z 1 = z 2 H ( A − A 2 ) z 1 = 0 .
6. Schur引理与不等式
正交相似 :设A , B ∈ R n × n ,若存在U ∈ E n × n 使得U T A U = U − 1 A U = B ,则称A 正交相似于B .
酉相似 :设A , B ∈ C n × n ,若存在U ∈ U n × n ,使得U H A U = U − 1 A U = B ,则称A 酉相似于B .
Schur引理 :任何一个n 阶复矩阵A 酉相似于一个上(下)三角矩阵。
Schur不等式 :设A ∈ C n × n ,λ 1 , λ 2 , ⋯ , λ n 为矩阵A 的特征值,那么∑ i = 1 n ∣ λ i ∣ 2 ≤ ∑ i , j ∣ a ij ∣ 2 .(当且仅当A 酉相似于对角矩阵时等号成立,且为充要条件)
7. 正规矩阵
正规矩阵 :设A ∈ C n × n ,如果A A H = A H A ,那么称矩阵A 为正规矩阵。
实正规矩阵 :设A ∈ R n × n ,如果A A T = A T A ,那么称矩阵A 为实正规矩阵。
关于正规矩阵的一些结论:
H-阵、反H-阵、正交矩阵、酉矩阵、对角矩阵都是正规矩阵。
设A 是一个正规矩阵,则与A 酉相似的矩阵一定是正规矩阵。
设A 是一个正规矩阵且又是三角矩阵,则A 必为对角矩阵。
正规矩阵的结构定理 :设A ∈ C n × n ,则A 是正规矩阵的充要条件是,存在一个酉矩阵U ,使得U H A U = λ 1 λ 2 ⋱ λ n ,其中λ 1 , λ 2 , ⋯ , λ n 是A 的特征值。
证明:根据Schur引理,A 一定酉相似于一个三角矩阵,A 是正规矩阵,根据前面结论知,和它酉相似的这个三角矩阵也是正规矩阵,再由于如果正规矩阵是三角矩阵,那它就一定是对角矩阵。
推论1:n 阶正规矩阵有n 个线性无关的特征向量(必要不充分)。
推论2:正规矩阵属于不同特征值的特征向量彼此正交 。
定理:设A 是正规矩阵,则
A 是H-阵的充要条件是A 的特征值为实数。
A 是反H-阵的充要条件是A 的特征值的实部为零。
A 是U-阵的充要条件是A 的特征值的模长为1。
(如果A 不是正规矩阵,则上面充分性不满足,但是必要性是成立的)
证明:
可知A = U diag ( λ 1 , λ 2 , ⋯ , λ n ) U H
(1)对于H-阵,A H = U diag ( λ 1 , λ 2 , ⋯ , λ n ) H U H = U diag ( λ 1 , λ 2 , ⋯ , λ n ) U H = A = U diag ( λ 1 , λ 2 , ⋯ , λ n ) U H ,λ i = λ i ,也就是说λ i 为实数。(反-H阵的证明同理)
8.
Hermite矩阵的结构定理、次酉矩阵
性质:设A ∈ C n × n ,则
A + A H 、A A H 、A H A 都是H-阵。
A − A H 是反H-阵。
如果A 是H-阵,那么A k 也是H-阵,其中k 为任意正整数。
如果A 是可逆的H-阵,那么A − 1 也是可逆的H-阵。
如果A 是H-阵,那么i A 是反H-阵,其中i 为虚数单位。(如果A 是反H-阵,那么i A 是H-阵)
如果A 、B 都是H-阵,那么k A + lB 也是H-阵,k 、l 均为实数。
如果A 、B 都是H-阵,那么A B 、B A 都是H-阵的充要条件是A B = B A 。
定理:
设A ∈ C n × n ,则A 是H-阵的充要条件是对任意的X ∈ C n ,X H A X 是实数。
设A ∈ C n × n ,则A 是H-阵的充要条件是对任意的n 阶方阵B ,B H A B 为H-阵。(A 是反H-阵则B H A B 也是反H-阵)
H-阵的结构定理 :设A ∈ C n × n ,则A 是H-阵的充要条件是存在一个酉矩阵U ∈ U n × n ,使得U H A U = λ 1 λ 2 ⋱ λ n ,其中λ 1 , λ 2 , ⋯ , λ n ∈ R 且为A 的特征值。(即H-阵酉相似于一个实对角矩阵)
推论:实对称矩阵正交相似于实对角矩阵。
次酉矩阵 :设{ α 1 , α 2 , ⋯ , α r } 为一个n 元标准正交列向量组,那么称n × r 型矩阵U 1 = [ α 1 α 2 ⋯ α r ] 为一个次酉矩阵,一般记作U 1 ∈ U n × r .
次酉矩阵的充要条件 :U 1 ∈ U n × r 的充要条件是U 1 H U 1 = E r × r .
证明:U 1 H U 1 = α 1 H α 2 ⋮ α r H [ α 1 α 2 ⋯ α r ] = α 1 H α 1 α 2 H α 1 ⋯ α r H α 1 α 1 H α 2 α 2 H α 2 ⋯ α r H α 2 ⋯ ⋯ ⋯ ⋯ α 1 H α r α 2 H α r ⋯ α r H α r ,由于当i = j 时α i α j = 0 ,i = j 时α i α j = 1 ,该矩阵为r × r 的单位阵.
同时是H-矩阵和幂等矩阵的充要条件 :设A 是一个n 阶矩阵,则A = A H = A 2 的充要条件是存在一个n × r 型次酉矩阵U 1 ∈ U n × r ,使得A = U 1 U 1 H ,其中rank ( A ) = r .
证明:根据幂等矩阵的性质知,幂等矩阵一定酉相似于一个分块对角阵,U H A U = [ E r 0 0 0 ] ,变形得A = U [ E r 0 ] [ E r 0 ] U H = U 1 U 1 H .
9. Hermite二次型
定义:有n 个复变量x 1 , x 2 , ⋯ , x n 、系数为复数的二次齐次多项式f ( x 1 , x 2 , ⋯ , x n ) = ∑ i = 1 n ∑ j = 1 n a ij x i x j ,称为Hermite二次型 ,其中规定a ij = a ji 。如果记X = x 1 x 2 ⋮ x n ∈ C n ,A = a 11 a 21 ⋯ a n 1 a 12 a 22 ⋯ a n 2 ⋯ ⋯ ⋯ ⋯ a 1 n a 2 n ⋯ a nn ,那么这个Hermite二次型可以记作f ( x 1 , x 2 , ⋯ , x n ) = X H A X ,这时称A 为Hermite二次型对应的矩阵 ,并称A 的秩为Hermite二次型的秩 。
写矩阵表示,比如:f ( x 1 , x 2 , x 3 ) = i x 1 x 2 + x 1 x 3 − i x 1 x 2 + x 1 x 3 = [ x 1 x 2 x 3 ] 0 − i 1 i 0 0 1 0 0 x 1 x 2 x 3 .
对应Hermite二次型,可作可逆的线性替换X = C Y ,则f ( x 1 , x 2 , ⋯ , x n ) = X H A X = Y H ( C H A C ) Y = Y H B Y ,这里B = C H A C ,且B H = B ,此时称B 与A 复合同 (复相合)。
标准型 :Hermite二次型中只含有纯平方项无交叉项的二次型f ( y 1 , y 2 , ⋯ , y n ) = λ 1 y 1 y 1 + λ 2 y 2 y 2 + ⋯ + λ n y n y n 称为Hermite二次型的标准型。
规范型 :Hermite二次型中只含有纯平方项无交叉项而且系数只有1、-1、0的二次型f ( y 1 , y 2 , ⋯ , y n ) = y 1 y 1 + ⋯ + y s y s − y s + 1 y s + 1 − ⋯ − y r y r 称为Hermite二次型的规范型。
定理1:对于任意一个Hermite二次型f ( x 1 , x 2 , ⋯ , x n ) = X H A X ,必定存在酉线性替换 X = U Y ,将Hermite二次型f ( X ) 化为标准型f ( X ) = λ 1 y 1 y 1 + λ 2 y 2 y 2 + ⋯ + λ n y n y n ,并且λ 1 , λ 2 , ⋯ , λ n 是H-阵A 的特征值。
定理2:对于任意一个Hermite二次型f ( x 1 , x 2 , ⋯ , x n ) = X H A X ,必定存在可逆的线性替换 X = P Y ,可以将Hermite二次型f ( X ) 化为规范型f ( X ) = y 1 y 1 + ⋯ + y s y s − y s + 1 y s + 1 − ⋯ − y r y r ,其中rank ( A ) = r .
正定Hermite二次型 :对于f ( x 1 , x 2 , ⋯ , x n ) = ∑ i = 1 n ∑ j = 1 n a ij x i x j = X H A X ,如果对于任意不全为零的复数x 1 , x 2 , ⋯ , x n 都有f ( X ) > 0 ,则称该Hermite二次型为正定的,并称对应的H-阵A 为正定的。(如果f ( X ) ≥ 0 ,则为半正定的Hermite二次型,A 为半正定的)
如果一个矩阵是正定的,那它一定是一个H-阵,且可逆的线性替换不改变二次型的定性 。
比如:f ( y 1 , y 2 , y 3 ) = 4 y 1 y 1 + 8 y 2 y 2 + 3 y 3 y 3 是正定的;f ( y 1 , y 2 , y 3 ) = 12 y 2 y 2 + 9 y 3 y 3 是半正定的(如果令y 1 = 1 、y 2 = y 3 = 0 ,则f ( y 1 , y 2 , y 3 ) = 0 )。
定理:下列命题等价(f ( X ) = X H A X 是Hermite二次型)
f ( X ) 是正定的。
对于任意n 阶可逆矩阵P ,都有P H A P 为正定矩阵。
A 的n 个特征值都大于零。
存在n 阶可逆矩阵P 使得P H A P = E 。
存在n 阶可逆矩阵Q 使得A = Q H Q 。
*存在正线上三角矩阵R 使得A = R H R ,且此分解是唯一的。
证明:(2)可逆的线性替换不改变二次型的定性(3)可以通过酉线性替换为标准型,由于是正定的,系数为特征值一定大于零(4)通过可逆的线性替换化为规范型,系数只能是1、-1、0,再由于正定,系数只能为1,所以是单位阵(5)由4可得
正定的充要条件 :n 阶的Hermite矩阵(或实对称矩阵)A = ( a ij ) 正定的充要条件是A 的n 个顺序主子式全大于零,即 a 11 a 21 ⋮ a k 1 a 12 a 22 ⋮ a k 2 ⋯ ⋯ ⋯ a 1 k a 2 k ⋮ a kk > 0 ,k = 1 , 2 , ⋯ , n .
例1:证明A 如果是一个正定的H-阵,且又是酉矩阵,则A = E
解:因为A 是一个的H-阵,根据H-阵的结构定理知,必存在酉矩阵U ∈ U n × n ,使得A = U λ 1 ⋱ λ n U H ,λ i 一定是实数,且由于是正定的,所以λ i > 0 ,又由于A 是酉矩阵,所以∣ λ i ∣ = 1 ,故λ i 只能为1,diag ( λ i ) = E ,由于U 是酉矩阵,所以U U H = E ,故A = E .
例2:若A 如果是一个正定的H-阵,B 是一个反H-阵,证明A B 与B A 的特征值实部全部为零
解:由于A 是正定的H-阵,所以存在可逆矩阵Q 使得A = Q H Q ,那么A B = Q H QB = Q H QB Q H ( Q H ) − 1 ∼ QB Q H ,A B 与QB Q H 相似,从而它们有相同的特征值,由于B 是一个反H-阵,所以QB Q H 也是一个反H-阵,根据正规矩阵中反H-阵的充要条件可知,反H-阵的特征值实部都是零,得证。(B A 的证明同理)
例3:设A 是一个正定的H-阵,B 是一个反H-阵,证明A + B 是可逆矩阵
解:证明可逆就是要证明矩阵的行列式的值不为零。由于A 正定,所以存在可逆矩阵Q 使得A = Q H Q ,∣ A + B ∣ = ∣ Q H Q + B ∣ = ∣ Q H ∣∣ E + ( Q H ) − 1 B Q − 1 ∣∣ Q ∣ ,由于B 是反H-阵,( Q H ) − 1 B Q − 1 = ( Q − 1 ) H B ( Q − 1 ) 也是一个反H-阵,它的特征值实部为零,它加上单位阵后特征的实部就变为1,它的行列式的值是特征值相乘,故∣ E + ( Q H ) − 1 B Q − 1 ∣ = 0 ,因此A + B 可逆。
和正定对应,半正定Hermite二次型 的性质:下面命题等价(f ( X ) = X H A X 是Hermite二次型):
f ( X ) 是半正定的。
对于任意n 阶可逆矩阵P ,都有P H A P 为半正定矩阵。
A 的n 个特征值都是非负的。
存在n 阶可逆矩阵P ,使得P H A P = [ E r 0 0 0 ] ,r = rank ( A ) 。
存在秩为r 的n 阶矩阵Q ,使得A = Q H Q 。
定理:设A 是正定(半正定)Hermite矩阵,那么存在唯一正定(半正定)Hermite矩阵G ,使得A = G 2 .
证明:存在酉矩阵U ,使得A = U diag ( λ 1 , ⋯ , λ n ) U H ,λ i > 0 (半正定则λ i ≥ 0 ),定义G = U diag ( λ 1 , ⋯ , λ n ) U H 即可。
10.
Hermite矩阵偶在复合同下的标准型
定理 :设A 、B 均为n 阶H-阵,且B 是正定的,则必存在P ∈ C n n × n ,使得P H A P = λ 1 λ 2 ⋱ λ n ,P H BP = E n × n 同时成立,其中λ 1 , λ 2 , ⋯ , λ n 是与P 无关的实数(但不是特征值,而是A 相对于B 的广义特征值)。
证明:由于B 是正定的H-阵,根据性质知,存在P 1 ∈ C n n × n 使得P 1 H B P 1 = E n × n ,由于P 1 H A P 1 是H-阵,根据结构定理知,存在P 2 ∈ U n × n 使得P 2 H P 1 H A P 1 P 2 = λ 1 ⋱ λ n ,其中λ 1 , ⋯ , λ n 是P 1 H A P 1 的n 个实特征值,此时P 2 H P 1 H B P 1 P 2 = E n × n ,记P = P 1 P 2 ,可得上面的表达式。
由于∣ λ E − P 1 H A P 1 ∣ = ∣ λ P 1 H B P 1 − P 1 H A P 1 ∣ = ∣ P 1 H ∣∣ λ B − A ∣∣ P 1 ∣ ,所以P 1 H A P 1 的特征根值λ 1 , λ 2 , ⋯ , λ n 与∣ λ B A ∣ 的根相同,完全由A 、B 决定,与P 无关。
Hermite矩阵偶在复合同下的标准型 (即用二次型的语言来描述前面的定理):对于给定的两个Hermite二次型f 1 ( X ) = X H A X = ∑ i , j = 1 n a ij x i x j 、f 2 ( X ) = X H BX = ∑ i , j = 1 n b ij x i x j ,且其中f 1 ( X ) 是正定的,则存在非退化的线性替换 X = P Y ,可以将f 1 ( X ) 、f 2 ( X ) 同时化为标准型,此时f 1 = λ 1 y 1 y 1 + λ 2 y 2 y 2 + ⋯ + λ n y n y n 、f 2 = y 1 y 1 + y 2 y 2 + ⋯ + y n y n ,其中λ 1 , λ 2 , ⋯ , λ n 是方程∣ λ B − A ∣ = 0 的根,而且全为实数。
定义:设A 、B 均为n 阶Hermite矩阵,且B 是正定的,则方程A X = λ BX 有非零解的充要条件是:λ 是n 次代数方程∣ λ B − A ∣ = 0 的根,我们称此方程为A 相对于B 的特征方程 ,它的根λ 1 , λ 2 , ⋯ , λ n 称为A 相对于B 的广义特征值 ,将λ i 代入到方程A X = λ BX 中,所得非零解向量X 称为于λ i 相对应的广义特征向量 。
广义特征值于广义特征向量的性质:
有n 个实的广义特征值.
有n 个线性无关的广义特征向量X 1 , X 2 , ⋯ , X n ,满足A X i = λ i B X i ,i = 1 , 2 , ⋯ , n .
这n 和广义特征向量可以这样选取,使其满足X i H B X j = δ ij ,X i H A X j = λ j δ ij ,δ ij = { 1 , i = j 0 , i = j .
性质(3)的理解:P 1 H A P 1 是H-阵且是正规矩阵,正规矩阵属于不同特征值的特征向量相互正交,与它酉相似的对角矩阵的主对角元就是这个矩阵的特征值,酉相似的变换矩阵中的列向量实际上就是P 1 H A P 1 的n 个标准的正交的特征向量,由这n 个标准正交的特征向量来构造成这n 个广义特征向量就可以了。
四、矩阵的分解
1. 矩阵的满秩分解
满秩分解定理 :设A ∈ C r m × n (下标表示秩,即复数域上秩为r 的m × n 阶矩阵),那么存在B ∈ C r m × r 、C ∈ C r r × n ,使得A = BC ,其中B 为列满秩 矩阵,C 为行满秩 矩阵,因此我们称此分解为矩阵的满秩分解 。
证明:假设A 的前r 个列向量是线性无关的,那么对A 只作初等行变换可以将其化为行最简型[ E r 0 D 0 ] ,由于初等行变换可以写成左乘一系列初等矩阵,那么可以写成P A = [ E r 0 D 0 ] ,于是A = P − 1 [ E r 0 ] [ E r D ] = BC .
如果A 的前r 列是线性相关的,那么先作初等列变换变成线性无关,P A Q = [ E r 0 D 0 ] ,重复上面过程即可。
例1:求A = 1 1 2 4 2 2 4 8 1 2 3 6 0 1 1 2 1 3 4 8 2 3 5 10 的满秩分解
解:作初等行变换得A → 行 1 0 0 0 2 0 0 0 0 1 0 0 − 1 1 0 0 − 1 2 0 0 1 1 0 0 = M ,由此可知rank ( A ) = 2 ,且该矩阵的第1、3列是线性无关的,选取B = 1 1 2 4 1 2 3 6 ∈ C 2 4 × 2 ,C = [ 1 0 2 0 0 1 − 1 1 − 1 2 1 1 ] ∈ C 2 2 × 6 .
实际上这种分解并不唯一,也可以把M 的第二行加到第一行上,这时就变成B = 1 1 2 4 0 1 1 2 ,C = [ 1 0 2 0 1 1 0 1 1 2 2 1 ] .
例2:求A = [ 0 0 0 0 1 2 2 4 3 6 ] 的满秩分解
解:A → 行 [ 0 0 0 0 1 0 2 0 3 0 ] ,因此B = [ 1 2 ] ,C = [ 0 0 1 2 3 ] 。或者B = [ 2 4 ] ,C = [ 0 0 2 1 1 2 3 ] …
矩阵的满秩分解并不唯一 ,一般地,我们选取简化阶梯型主元所在的列对应的列向量构成列满秩矩阵,将阶梯型矩阵全为零的行去掉后即可构成行满秩矩阵。
定理:如果A = B 1 C 1 = B 2 C 2 均为A 的满秩分解,那么
存在矩阵θ ∈ C r r × r 满足B 1 = B 2 θ 、C 1 = θ − 1 C 2 .
C 1 H ( C 1 C 1 H ) − 1 ( B 1 H B 1 ) − 1 B 1 H = C 2 H ( C 2 C 2 H ) − 1 ( B 2 H B 2 ) − 1 B 2 H .(伪逆)
2. 矩阵的正交三角分解(UR分解)
正交三角分解定理 :A ∈ C n n × n ,那么A 可唯一 地分解为A = U 1 R 1 或A = R 2 U 2 ,其中U 1 , U 2 ∈ U n × n 是酉矩阵 ,R 1 是正线上三角矩阵 ,R 2 是正线下三角矩阵 。(正线上三角矩阵:即主对角线上的元素都是正数的上三角矩阵)
证明:首先证明分解的存在性 。将矩阵A 按列分块得到A = [ α 1 α 2 ⋯ α n ] ,由于A 满秩,所以α 1 , α 2 , ⋯ , α n 线性无关,利用Schmidt正交化得到一组正交向量组β 1 , β 2 , ⋯ , β n ,再单位化得到一组标准正交向量组η 1 . η 2 , ⋯ , η n ,此时α 1 , α 2 , ⋯ , α n 可以由η 1 . η 2 , ⋯ , η n 线性表示,⎩ ⎨ ⎧ α 1 = c 11 η 1 α 2 = c 21 η 1 + c 22 η 2 ⋯ α n = c n 1 η 1 + c n 2 η 2 + ⋯ + c nn η n ,其中c 11 是β 1 的长度,c 22 是β 2 的长度,⋯ ,c nn 是β n 的长度,把它写成矩阵的形式得A = [ α 1 α 2 ⋯ α n ] = [ η 1 η 2 ⋯ η n ] c 11 c 21 c 22 ⋯ ⋯ ⋱ c n 1 c n 2 ⋮ c nn = U R .
再证明唯一性 。设A 有两种分解式,A = U R = U R ,那么U − 1 U = R R − 1 ,注意到U − 1 U 是酉矩阵,R R − 1 是正线上三角矩阵,如果一个矩阵既是酉矩阵又是正线上三角矩阵,那它必为单位阵,即U − 1 U = E 、R R − 1 = E ,因此U = U 、R = R .
对于另一种分解R 2 U 2 ,由于B T ∈ C n n × n ,所以B T = U 1 R 1 ,两边同时转置得B = R 1 T U 1 T = R 2 U 2 ,此时R 1 从正线上三角变为正线下三角。
推论1:如果A ∈ C r m × r ,即A 列满秩,则A 可以唯一地分解为A = U R ,其中U 是酉矩阵,R 是r 阶正线上三角矩阵。
推论2:如果A ∈ C r r × n ,即A 行满秩,则A 可以唯一地分解为A = R U ,其中U 是酉矩阵,R 是r 阶正线下三角矩阵。
推论3:如果A ∈ C r m × n ,则A 可以分解为A = U 1 R 1 R 2 U 2 ,其中U 1 ∈ U r m × r ,U 2 ∈ U r r × n ,R 1 是r 阶正线上三角阵,R 2 是正线下三角阵。
例:求A = 1 1 0 0 1 0 1 0 − 1 0 0 1 的正交三角分解
解:容易看出A ∈ C 3 4 × 3 是列满秩的,和定理的证明过程一样,将A = [ α 1 α 2 α 3 ] 的三个列向量正交化单位化,先正交化得⎩ ⎨ ⎧ β 1 = α 1 = [ 1 1 0 0 ] T β 2 = α 2 − ( β 1 , β 1 ) ( α 2 , β 1 ) β 1 = [ 2 1 − 2 1 1 0 ] T β 3 = α 3 − ( β 1 , β 1 ) ( α 3 , β 1 ) β 1 − ( β 2 , β 2 ) ( α 3 , β 2 ) β 2 = [ − 3 1 3 1 3 1 1 ] T ,再单位化得⎩ ⎨ ⎧ η 1 = [ 2 2 2 2 0 0 ] T η 2 = [ 6 6 − 6 6 3 6 0 ] T η 3 = [ − 6 3 6 3 6 3 2 3 ] T ,写出α i 与η i 之间的关系⎩ ⎨ ⎧ α 1 = 2 η 1 α 2 = 2 6 η 1 + 2 2 η 2 α 3 = − 2 2 η 1 − 6 6 η 2 + 3 2 3 η 3 (其实是在Schmidt正交化的方程中β i 的系数再除以β i 的长度),然后写成矩阵的形式,A = [ η 1 η 2 η 3 ] 2 0 0 2 2 2 6 0 − 2 2 − 6 6 3 2 3 .
3. 矩阵的奇异值分解
引理1:对于任意矩阵A ,都有rank ( A A H ) = rank ( A H A ) = rank ( A ) .
证明:A A H 与A H A 互为共轭转置,它们的秩一定是相同的,要证明A 与A H A 的秩相同,只需证明A x = 0 与A H A x = 0 同解即可。左边到右边的证明只需在A x = 0 两边同时左乘A H ,右边到左边的证明在A H A x = 0 两边同时左乘x H 得x H A H A x = 0 ,其中A x 是一个列向量,x H A H = ( A x ) H ,列向量自己左乘以自己的共轭转置等于它的内积,内积为零则自身一定是零向量,代入前面两条方程可知它们是同解的。(方程组同解即解空间的维数是相同的,而解空间的维数=方程组未知数的个数-系数矩阵的秩)
引理2:对于任意矩阵A ,都有A A H 、A H A 都是半正定的H-阵。(半正定则特征值非负)
证明:用A A H 构造一个二次型x H A A H x = ( A H x ) H A H x ≥ 0 ,x ∈ C m 。(因为A H x 是一个m 维的列向量,作内积肯定大于等于零,A H A 的证明同理)
定理:设A ∈ C r m × n ,λ i 是A A H 的特征值(m × m 阶矩阵),μ i 是A H A 的特征值(n × n 阶矩阵),它们都是实数,记λ 1 ≥ λ 2 ≥ ⋯ ≥ λ r > λ r + 1 = λ r + 2 = ⋯ = λ m = 0 ,μ 1 ≥ μ 2 ≥ ⋯ ≥ μ r > μ r + 1 = μ r + 2 = ⋯ = μ n = 0 ,那么λ i = μ i > 0 (i = 1 , 2 , ⋯ , r ),我们称α i = λ i = μ i > 0 (i = 1 , 2 , ⋯ , r )为矩阵A 的正奇异值 ,简称奇异值 。
上面定理简单地说就是,A A H 与A H A 的非零特征值相同,并且如果A A H 对应λ i 的特征向量是x ,那么A H A 对应λ i 的特征向量是A H x .
证明:设A ∈ C r m × n ,要证明A A H 与A H A 的非零特征值相同,并写出特征向量之间的关系
A A H x = λ i x ⟶ A H A A H x = λ i A H x ,如果A H x 是非零列向量,那么把它看作一个整体,则λ i 是A H A 的特征值,其对应的特征向量是A H x ,其中x 是A A H 的特征向量。A H x 是一定是一个非零的列向量,否则A H x = 0 ,那么A A H x = λ i x = 0 ,那么特征值λ i 或特征向量x 为零,与假设矛盾,故A H x 也不能为零。
A H A 与A A H 的非零特征值相同,且相同非零特征值的代数重数也相等。
定理:正规矩阵的奇异值 为其非零特征值的模长。
推论:
H-阵的奇异值是其非零特征值的绝对值.
正定H-阵的奇异值是其非零特征值.
酉矩阵的奇异值全部为1.
证明:根据结构定理知,正规矩阵A 一定酉相似于一个对角阵,U H A U = diag ( λ 1 , ⋯ , λ n ) ,两边同时取共轭转置得U H A H U = diag ( λ 1 , ⋯ , λ n ) ,两式相乘得U H A A H U = diag ( ∣ λ 1 ∣ 2 , ⋯ , ∣ λ n ∣ 2 ) .
例1:求A = 1 0 0 2 0 0 的奇异值
解:A A H = 5 0 0 0 0 0 0 0 0 ,显然A A H 的特征值为5、0、0,所以A 的奇异值为5 .
例2:求A = [ 0 2 − 1 0 1 0 ] 的奇异值
解:A A H = [ 2 0 0 4 ] ,特征值为2、4,奇异值为2 、2.
奇异值分解定理 :设A ∈ C r m × n ,α 1 ≥ α 2 ≥ ⋯ ≥ α r 是A 的r 个奇异值,那么存在m 阶酉矩阵 U 和n 阶酉矩阵 V ,使得U H A V = [ Δ 0 0 0 ] m × n ,其中Δ = α 1 ⋱ α r r × r ,并且满足α 1 ≥ α 2 ≥ ⋯ ≥ α r > 0 .
证明:由于rank ( A A H ) = rank ( A ) = r ,所以A A H 的特征值为α 1 2 ≥ α 2 2 ≥ ⋯ ≥ α r 2 > 0 ,α r + 1 2 = α r + 2 2 = α m 2 = 0 ,因为A A H 是H-阵,所以存在m 阶酉矩阵使得U H A A H U = [ Δ 2 0 0 0 ] ,将酉矩阵U 按列进行分块,记U = [ U 1 U 2 ] ,其中U 1 ∈ U r m × r 、U 2 ∈ U m − r m × ( m − r ) ,于是[ U 1 H U 2 H ] A A H [ U 1 U 2 ] = [ Δ 2 0 0 0 ] ,按对应元素相等可得到{ U 1 H A A H U 1 = Δ 2 U 2 H A A H U 2 = 0 ,由第一条等式知A A H 与Δ 2 酉相似,U 1 是它的相似变换矩阵(且由于Δ − 1 = ( Δ − 1 ) H ,则( Δ − 1 ) H U 1 H A A H U 1 Δ − 1 = E ),而第二条等式把A H U 2 看作一个整体,它左乘自己的共轭转置等于0,即内积为零,所以A H U 2 = 0 。
令V 1 = A H U 1 Δ − 1 ,那么容易验证V 1 ∈ U r n × r ,V 1 H V 1 = E ,选取V 2 使得V = [ V 1 V 2 ] 是酉矩阵,因为V 1 与V 2 正交,则0 = V 1 H V 2 = Δ − 1 U 1 H A V 2 ⟶ U 1 H A V 2 = 0 。
由前面得U H A V = [ U 1 H U 2 H ] A [ V 1 V 2 ] = [ U 1 H A V 1 U 2 H A V 1 U 1 H A V 2 U 2 H A V 2 ] = [ Δ 0 0 0 ] .
奇异值分解式(SVD) :把A = U [ Δ 0 0 0 ] V H 称为A 的奇异值分解式。
留意到A A H = U [ Δ 2 0 0 0 ] U H ⟶ A A H U = U [ Δ 2 0 0 0 ] m × m ,即U 的各列向量是[ Δ 2 0 0 0 ] 主对角线上特征值对应的特征向量(由于是酉矩阵,算出特征向量后还要正交化单位化);同理,A H A = V [ Δ 2 0 0 0 ] V H ⟶ A H A V = V [ Δ 2 0 0 0 ] n × n 。
由此可知U 的列向量是A A H 的标准正交特征向量,V 的列向量是A H A 的标准正交特征向量,并且满足V 1 = A H U 1 Δ − 1 。
由此可知A 的奇异值分解并不唯一 。(比如重根对应的特征向量位置可以任意)
推论 :设A ∈ C r m × n ,α 1 ≥ α 2 ≥ ⋯ ≥ α r 是A 的r 个奇异值,那么存在次酉矩阵 U r ∈ U r m × r ,V r ∈ U r n × r 使得A = U r Δ V r H .(如果A 是方阵则U 和V 都是酉矩阵)
例1:求A = 2 0 0 i 0 0 的奇异值分解
解:A A H 的特征值为5、0、0,所以A 的奇异值为α = 5 ,三个特征值对应的标准正交特征向量为u 1 = 1 0 0 ,u 2 = 0 1 0 ,u 3 = 0 0 1 ,所以U = 1 0 0 0 1 0 0 0 1 ,V 1 = A H U 1 Δ − 1 = [ 2 − i 0 0 0 0 ] 1 0 0 5 1 = [ 5 2 − 5 i ] ,取V 2 = [ − 5 i 5 2 ] 与V 1 正交,于是V = [ 5 2 − 5 i − 5 i 5 2 ] ,A = U 5 0 0 0 0 0 V H .
例2:求A = 0 − 1 0 1 1 0 2 0 的奇异值分解
解:由于A A H 是4 × 4 的矩阵,比较复杂,于是令B = A H ,计算B 的奇异值分解比较简单
B = A H = U [ 5 0 0 2 0 0 0 0 ] V H ,U = [ 0 1 1 0 ] ,V = [ V 1 V 2 ] = 5 1 0 5 2 0 0 − 2 1 0 2 1 5 2 0 − 5 1 0 0 2 1 0 2 1 ,于是A = B H = V 5 0 0 0 0 2 0 0 U H .
4. 矩阵的极分解
极分解定理 (A 满秩时):设A ∈ C n n × n ,那么必存在酉矩阵 U ∈ U n × n 与正定H-阵 H 1 、H 2 使得A = H 1 U = U H 2 ,并且这样的分解是唯一 的,同时有A A H = H 1 2 、A H A = H 2 2 ,称分解式A = H 1 U = U H 2 为矩阵的极分解表达式 。
证明:设A ∈ C n n × n ,从而A H A 为正定的H-阵(参考正定二次型中的性质),则存在唯一正定的H-阵H 2 ,使得A H A = H 2 2 ,于是( H 2 H ) − 1 A H A H 2 − 1 = E ,即( A H 2 − 1 ) H ( A H 2 − 1 ) = E ,根据酉矩阵的定义,A H 2 − 1 为酉矩阵,记A H 2 − 1 = U ,则A = U H 2 ,那么A = U H 2 = U H 2 U H U = H 1 U ,其中U H 2 U H = H 1 ,并且A A H = H 1 2 .
极分解定理 (A 不满秩时):设A ∈ C n × n ,则存在酉矩阵 U ∈ U n × n 与半正定H-阵 H 1 、H 2 使得A = H 1 U = U H 2 ,并且满足A A H = H 1 2 、A H A = H 2 2 .
证明:根据奇异值分解定理,存在酉矩阵U 1 、U 2 ,使得A = U 1 α 1 ⋱ α n U 2 ,其中α 1 ≥ ⋯ ≥ α r > α r + 1 = ⋯ α n = 0 ,α 1 , ⋯ , α r 是A 的r 个奇异值,对式子作变形,A = ( U 1 diag ( α 1 , ⋯ , α n ) U 1 H ) ( U 1 U 2 ) = ( U 1 U 2 ) ( U 2 H diag ( α 1 , ⋯ , α n ) U 2 ) ,如果令H 1 = U 1 diag ( α 1 , ⋯ , α n ) U 1 H 、H 2 = U 2 H diag ( α 1 , ⋯ , α n ) U 2 、U = U 1 U 2 ,则A = H 1 U = U H 2 .
5. 谱分解(正规矩阵)
正规矩阵的谱分解 :设A 为正规矩阵,根据正规矩阵的结构定理,存在U ∈ U n × n ,使得A = U diag ( λ 1 , λ 2 , ⋯ , λ n ) U H ,将U 按列分块得A = [ α 1 α 2 ⋯ α n ] λ 1 λ 2 ⋱ λ n α 1 H α 2 H ⋮ α n H = λ 1 α 1 α 1 H + λ 2 α 2 α 2 H + ⋯ + λ n α n α n H ,其中α i 是A 的特征值λ i 所对应的单位特征向量,我们称上式为矩阵A 的谱分解表达式 。
设正规矩阵A 有r 个互异的特征值λ 1 , ⋯ , λ r ,特征值λ i 的重数为n i ,λ i 所对应的n i 个两两正交的单位特征向量为α i 1 , ⋯ , α i n i ,则A 的谱分解不等式又可以写成A = ∑ i = 1 r λ i ∑ j = 1 n i α ij α ij H = ∑ i = 1 r λ i G i ,其中G i = ∑ j = 1 n i α ij α ij H ,并且显然有G i H = G i = G i 2 ,G i G k = 0 (i = k ).
定理 :设A 为n 阶矩阵,它有r 个互异的特征值λ 1 , ⋯ , λ r ,若λ i 的代数重数为n i ,那么A 为正规矩阵的充要条件是存在r 个n 阶矩阵G 1 , G 2 , ⋯ , G r ,同时满足:
A = ∑ i = 1 r λ i G i .
G i H = G i = G i 2 .
G i G k = 0 (i = k ).
∑ i = 1 r G i = E .
满足上述性质的矩阵G i 是唯一的.
rank ( G i ) = n i .
其中G i 为从C n 到V λ i 的正交投影矩阵。
例1:求正规矩阵A = 0 1 1 − 1 1 0 − 1 1 1 − 1 0 1 − 1 1 1 0 的谱分解
解:先求出A 的特征值和特征向量,∣ λ E − A ∣ = ( λ − 1 ) 3 ( λ + 3 ) ,故特征值为λ 1 = λ 2 = λ 3 = 1 、λ 4 = − 3 ,当λ = 1 时对应的三个线性无关的特征向量为α 1 = 1 1 0 0 、α 2 = 1 0 1 0 、α 3 = − 1 0 0 1 ,当λ = − 3 时对应的特征向量为α 4 = 1 − 1 − 1 1 ,然后将α 1 , α 2 , α 3 正交化、单位化得η 1 = 2 1 2 1 0 0 、η 2 = 6 1 − 6 1 6 2 0 、η 3 = − 12 1 12 1 12 1 12 3 ,将α 4 单位化得η 4 = 2 1 − 2 1 − 2 1 2 1 ,于是λ = 1 对应的G 1 = η 1 η 1 H + η 2 η 2 H + η 3 η 3 H = 4 3 4 1 4 1 − 4 1 4 1 4 3 − 4 1 4 1 4 1 − 4 1 4 3 4 1 − 4 1 4 1 4 1 4 3 ,λ = − 3 对应的G 2 = η 4 η 4 H = 4 1 − 4 1 − 4 1 4 1 − 4 1 4 1 4 1 − 4 1 − 4 1 4 1 4 1 − 4 1 4 1 − 4 1 − 4 1 4 1 ,于是A 的分解式为A = G 1 − 3 G 2 .
例2:求正规矩阵A = 0 1 i − 1 0 0 i 0 0 的谱分解表达式
解:∣ λ E − A ∣ = λ ( λ 2 + 2 ) ,故特征值为λ 1 = − 2 i 、λ 2 = 2 i 、λ 3 = 0 ,对应的特征向量分别为α 1 = − 2 − i 1 、α 2 = 2 − i 1 、α 3 = 0 i 1 ,因为正规矩阵属于不同特征值的特征向量彼此正交,直接单位化即可,η 1 = − 2 1 − 2 i 2 1 、η 2 = 2 1 − 2 i 2 1 、η 3 = 0 2 i 2 1 ,A = − 2 i η 1 η 1 H + 2 i η 2 η 2 H + 0 η 3 η 3 H = − 2 i 2 1 4 2 i − 4 2 − 4 2 i 4 1 4 i − 4 2 − 4 i 4 1 + 2 i 2 1 − 4 2 i 4 2 4 2 i 4 1 4 i 4 2 − 4 i 4 1 + 0 0 0 0 0 2 1 − 2 i 0 2 i 2 1 .
(注意,即使特征值是0,那一项也必须写上)
6. 谱分解(可对角化矩阵)
可对角化矩阵的谱分解 :设A 是一个n 阶可对角化矩阵,特征值为λ 1 , ⋯ , λ n ,与其相对应的特征向量分别为α 1 , ⋯ , α n ,如果记P = [ α 1 ⋯ α n ] 、P − 1 = [ β 1 T ⋯ β n T ] T ,那么A = P λ 1 ⋱ λ n P − 1 = [ α 1 ⋯ α n ] λ 1 ⋱ λ n β 1 T ⋮ β n T = λ 1 α 1 β 1 T + λ 2 α 2 β 2 T + ⋯ + λ n α n β n T 。如果λ i 对应的n i 个特征向量为α i 1 , α i 2 , ⋯ , α i n i ,令G i = α i 1 β i 1 T + α i 2 β i 2 T + ⋯ + α i n i β i n i T ,则可以写成A = λ 1 G 1 + λ 2 G 2 + ⋯ + λ r G r .
例:已知A = 4 − 3 − 3 6 − 5 − 6 0 0 0 为一个可对角化的矩阵,求其谱分解表达式
解:∣ λ E − A ∣ = ( λ − 1 ) 2 ( λ + 2 ) ,故特征值为λ 1 = λ 2 = 1 、λ 3 = − 2 ,对应的特征向量为α 1 = 2 − 1 0 、α 2 = 0 0 1 、α 3 = − 1 1 1 ,从而P = 2 − 1 0 0 0 1 − 1 1 1 ,P − 1 = 1 − 1 1 1 − 2 2 0 1 0 ,( P − 1 ) T = 1 1 0 − 1 − 2 1 1 2 0 ,取β 1 T = 1 1 0 、β 2 T = − 1 − 2 1 、β 3 T = 1 2 0 ,令G 1 = α 1 β 1 T + α 2 β 2 T = 2 − 1 − 1 2 − 1 − 2 0 0 1 ,G 2 = α 3 β 3 T = − 1 1 1 − 2 2 2 0 0 0 ,则A = G 1 − 2 G 2 .
五、范数、序列、级数
1. 向量范数
向量范数 :设V 是实数域R (或复数域C )上的n 维线性空间,对于V 中的任意一个向量α 按照某一确定的法则对应着一个实数,这个实数称为α 的范数,记作∣∣ α ∣∣ ,并且要求范数满足下列运算条件:
非负性:当α = 0 ,∣∣ α ∣∣ > 0 ,当且仅当α = 0 时∣∣ α ∣∣ = 0 .
齐次性:∣∣ k α ∣∣ = ∣ k ∣ ∣∣ α ∣∣ ,k 为任意数.
三角不等式:任取α , β ∈ V ,都有∣∣ α + β ∣∣ ≤ ∣∣ α ∣∣ + ∣∣ β ∣∣ .
只要满足上面性质的都叫范数,常用的有1-范数 (∣∣ α ∣ ∣ 1 = ∑ i = 1 n ∣ a i ∣ )、2-范数 (∣∣ α ∣ ∣ 2 = ( ∑ i = 1 n ∣ a i ∣ 2 ) 2 1 = α H α ,又称为欧氏范数)、∞ -范数 (∣∣ α ∣ ∣ ∞ = 1 ≤ i ≤ n max ∣ a i ∣ ),其中α = ( a 1 , ⋯ , a n ) T ∈ C n ,并且它们满足:
∣∣ α ∣ ∣ ∞ ≤ ∣∣ α ∣ ∣ 1 ≤ n ∣∣ α ∣ ∣ ∞ .
∣∣ α ∣ ∣ 2 ≤ ∣∣ α ∣ ∣ 1 ≤ n ∣∣ α ∣ ∣ 2 .
∣∣ α ∣ ∣ ∞ ≤ ∣∣ α ∣ ∣ 2 ≤ n ∣∣ α ∣ ∣ ∞ .
引理(Holder不等式 ):设α = [ a 1 , ⋯ , a n ] T , β = [ b 1 , ⋯ , b n ] T ∈ C n ,则∑ i = 1 n ∣ a i b i ∣ ≤ ( ∑ i = 1 n ∣ a i ∣ p ) p 1 ( ∑ i = 1 n ∣ b i ∣ q ) q 1 ,其中p > 1 、q > 1 ,并且p 1 + q 1 = 1 .
引理(Minkowski不等式 ):设α = [ a 1 , ⋯ , a n ] T , β = [ b 1 , ⋯ , b n ] T ∈ C n ,则( ∑ i = 1 n ∣ a i + b i ∣ p ) p 1 ≤ ( ∑ i = 1 n ∣ a i ∣ p ) p 1 + ( ∑ i = 1 n ∣ b i ∣ p ) p 1 ,其中实数p ≥ 1 .
以上引理最常用的都是p = 2 的时候。
p-范数 :一般地,设向量α = [ a 1 , ⋯ , a n ] T ,对任意的数p ≥ 1 ,称∣∣ α ∣ ∣ p = ( ∑ i = 1 n ∣ a i ∣ p ) p 1 为向量α 的p-范数。
p-范数三角不等式性质的证明用到了Minkowski不等式。
关于∞ -范数形式的证明:设α = [ a 1 , ⋯ , a n ] T ,令x = 1 ≤ i ≤ n max ∣ a i ∣ ,y i = x ∣ a i ∣ ≤ 1 ,并且至少有一个x = ∣ a i ∣ 因此∑ y i 至少≥ 1 ,于是有∣∣ α ∣ ∣ p = x ( ∑ i = 1 n y i p ) p 1 ,由于1 ≤ ∑ i = 1 n y i p ≤ n ,则1 ≤ ( ∑ i = 1 n y i p ) p 1 ≤ n p 1 ,根据夹逼定理p → ∞ lim ( ∑ i = 1 n y i p ) p 1 = 1 ,由此可知∣∣ α ∣ ∣ ∞ = p → ∞ lim ∣∣ α ∣ ∣ p = x = 1 ≤ i ≤ n max ∣ a i ∣ .
向量范数的等价性定理 :设∣∣ α ∣ ∣ a 、∣∣ α ∣ ∣ b 是n 维线性空间V 上定义的两种向量范数,那么一定存在两个与α 无关的正数d 1 、d 2 使得d 1 ∣∣ α ∣ ∣ b ≤ ∣∣ α ∣ ∣ a ≤ d 2 ∣∣ α ∣ ∣ b ,∀ α ∈ V 。因此有限维线性空间V 上的任意两个向量范数都是等价的,利用向量范数可以去构造新的范数.
比如:设∣∣ ⋅ ∣ ∣ b 是C m 上的向量范数,且A ∈ C m × n ,rank ( A ) = n ,则由∣∣ α ∣ ∣ a = ∣∣ A α ∣ ∣ b ,α ∈ C m ,所定义的∣∣ ⋅ ∣ ∣ a 也是C n 上的范数(可以自行验证其满足范数的三条性质)。
2. 矩阵范数
Ⅰ. 定义及常用矩阵范数
矩阵范数 :对于任意一个矩阵A ∈ C m × n ,用∣∣ A ∣∣ 表示按照某一法则确定与矩阵A 相对应的一个实数,并且要满足下列运算:
非负性:当A = 0 ,∣∣ A ∣∣ > 0 ,当且仅当A = 0 时∣∣ A ∣∣ = 0 .
齐次性:∣∣ k A ∣∣ = ∣ k ∣ ∣∣ A ∣∣ ,其中k 为任意复数.
三角不等式:任取A , B ∈ C m × n ,都有∣∣ A + B ∣∣ ≤ ∣∣ A ∣∣ + ∣∣ B ∣∣ .
矩阵乘法的相容性:对于任意两个可以相乘的矩阵A 、B ,都有∣∣ A B ∣∣ ≤ ∣∣ A ∣∣ ∣∣ B ∣∣ .(可能部分教材没有此条件)
那么我们称∣∣ A ∣∣ 是矩阵A 的范数。
比如,对于A ∈ C m × n ,定义∣∣ A ∣∣ = ∑ i = 1 m ∑ j = 1 n ∣ a ij ∣ ,可以证明∣∣ A ∣∣ 是矩阵A 的范数,前面3条性质容易验证,下面证明其满足第4条性质。设A ∈ C m × p 、B ∈ C p × n ,则
∣∣ A B ∣∣ = ∑ i = 1 m ∑ j = 1 n ∣ ∑ k = 1 p a ik b kj ∣ ≤ ∑ i = 1 m ∑ j = 1 n ∑ k = 1 p ∣ a ik ∣∣ b kj ∣ ≤ ∑ i = 1 m ∑ j = 1 n [( ∑ k = 1 p ∣ a ik ∣ ) ( ∑ k = 1 p b kj )] = ( ∑ i = 1 m ∑ k = 1 p ∣ a ik ∣ ) ( ∑ j = 1 n ∑ k = 1 p ∣ b kj ∣ ) = ∣∣ A ∣∣ ∣∣ B ∣∣
再比如,对于A ∈ C n × n ,定义∣∣ A ∣∣ = n i , j max ∣ a ij ∣ 是矩阵范数,同样这里只给出性质4的证明。设A , B ∈ C n × n ,则
∣∣ A B ∣∣ = n i , j max ∣ ∑ k = 1 n a ik b kj ∣ ≤ n i , j max ∑ k = 1 n ∣ a ik ∣∣ b kj ∣ ≤ n ⋅ n i , k max ∣ a ik ∣ ⋅ k , j max ∣ b kj ∣ = n i , k max ∣ a ik ∣ ⋅ n k , j max ∣ b kj ∣ = ∣∣ A ∣∣ ∣∣ B ∣∣
又比如,对于A ∈ C m × n ,定义∣∣ A ∣ ∣ F = ( ∑ i = 1 m ∑ j = 1 n ∣ a ij ∣ 2 ) 2 1 ,可以证明∣∣ A ∣∣ 也是矩阵A 的范数,我们称此范数为Frobenious范数 ,同样这里只给出性质4的证明。设A ∈ C m × l ,B ∈ C l × n ,则
∣∣ A B ∣ ∣ F 2 = ∑ i = 1 m ∑ j = 1 n ∣ ∑ k = 1 l a ik b kj ∣ 2 ≤ ∑ i = 1 m ∑ j = 1 n ( ∑ k = 1 l ∣ a ik ∣∣ b kj ∣ ) 2 ≤ ∑ i = 1 m ∑ j = 1 n [( ∑ k = 1 l ∣ a ik ∣ 2 ) ( ∑ k = 1 l ∣ b kj ∣ 2 )] = ( ∑ i = 1 m ∑ k = 1 l ∣ a ik ∣ 2 ) ( ∑ j = 1 n ∑ k = 1 l ∣ b kj ∣ 2 ) = ∣∣ A ∣ ∣ F 2 ∣∣ B ∣ ∣ F 2
Frobenious范数的性质 :
如果A = [ α 1 ⋯ α n ] ,那么∣∣ A ∣ ∣ F 2 = ∑ i = 1 n ∣∣ α i ∣ ∣ 2 2 .
∣∣ A ∣ ∣ F 2 = tr ( A H A ) = ∑ i = 1 n λ i ,其中λ i 是A H A 的特征值。
酉不变性 :对于任何m 阶酉矩阵U 与n 阶酉矩阵V ,都有等式∣∣ A ∣ ∣ F = ∣∣ A H ∣ ∣ F = ∣∣ U A ∣ ∣ F = ∣∣ A V ∣ ∣ F = ∣∣ U A V ∣ ∣ F .
性质2的证明:比如A = [ a 11 a 21 a 12 a 22 ] 是实矩阵,那么A T A = [ a 11 a 12 a 21 a 22 ] [ a 11 a 21 a 12 a 22 ] = [ a 11 2 + a 21 2 ⋯ ⋯ a 12 2 + a 22 2 ] ,于是A T A 对角线上元素的和就是∣∣ A ∣ ∣ F 2 (并且tr ( A H A ) = tr ( A A H ) )。
酉不变性的证明:设A = [ α 1 ⋯ α n ] ,A 与A H 里面的元素平方和是一样的,显然F-范数也相等;而U A = [ U α 1 ⋯ U α n ] ,根据性质1,∣∣ U A ∣ ∣ F 2 = ∣∣ U α 1 ∣ ∣ 2 2 + ⋯ + ∣∣ U α n ∣ ∣ 2 2 = α 1 H U H U α 1 + ⋯ + α n H U H U α n = α 1 H α 1 + ⋯ + α n H α = ∣∣ A ∣ ∣ F 2 ;而∣∣ A V ∣ ∣ F = ∣∣ V H A H ∣ ∣ F ,根据前面证明可知,∣∣ A V ∣ ∣ F 与∣∣ A ∣ ∣ F 也相等。
矩阵的谱半径 :设A ∈ C n × n ,A 的n 个特征值为λ 1 , λ 2 , ⋯ , λ n ,称ρ ( A ) = max { ∣ λ 1 ∣ , ∣ λ 2 ∣ , ⋯ , ∣ λ n ∣ } 为矩阵A 的谱半径。(即谱半径为特征值模长的最大值)(谱半径的另一种求法参考下一节中的Gelfand定理)
定理:n 阶复矩阵的谱半径不大于其任何一种范数 :设A ∈ C n × n ,那么ρ ( A ) ≤ ∣∣ A ∣∣ 。
证明:∵ A X = λ X (X = 0 ),∴ ∣ λ ∣ ∣∣ X ∣∣ = ∣∣ λ X ∣∣ = ∣∣ A X ∣∣ ≤ ∣∣ A ∣∣ ∣∣ X ∣∣ ,故∣ λ ∣ ≤ ∣∣ A ∣∣ .
特别地,若A 是一个n 阶正规矩阵,则ρ ( A ) = ∣∣ A ∣ ∣ 2 .
证明:设A 的特征值为λ 1 , λ 2 , ⋯ , λ n ,由于是正规矩阵,所以存在酉矩阵U 使得A = U diag ( λ 1 , λ 2 , ⋯ , λ n ) U H ,从而A H A = U diag ( ∣ λ 1 ∣ 2 , ∣ λ 2 ∣ 2 , ⋯ , ∣ λ n ∣ 2 ) U H ,所以∣∣ A ∣ ∣ 2 = j max ( λ j ( A H A ) ) 2 1 = j max ∣ λ j ∣ = ρ ( A ) .
其中λ j ( ⋅ ) ,表示λ j 是⋅ 的特征值,∣∣ A ∣ ∣ 2 的定义在后面。
矩阵范数的一些结论(设∣∣ ⋅ ∣∣ 是C n × n 上的矩阵范数:
∣∣ E ∣∣ ≥ 1 .
若A 为可逆矩阵,λ 为A 的特征值,则∣∣ A − 1 ∣ ∣ − 1 ≤ ∣ λ ∣ ≤ ∣∣ A ∣∣ .
证明:根据特征值的性质,λ − 1 是A − 1 的特征值,由于矩阵的谱半径不大于其任何一种范数,∣ λ ∣ ≤ ∣∣ A ∣∣ ,并且∣ λ − 1 ∣ ≤ ∣∣ A − 1 ∣∣ ,即∣ λ ∣ ≥ ∣∣ A − 1 ∣ ∣ − 1 ,得证、
矩阵范数的等价性定理 :设∣∣ A ∣ ∣ α 、∣∣ A ∣ ∣ β 是矩阵A 的任意两种范数,则总存在正数d 1 、d 2 使得d 1 ∣∣ A ∣ ∣ β ≤ ∣∣ A ∣ ∣ α ≤ d 2 ∣∣ A ∣ ∣ β ,∀ A ∈ C m × n .
矩阵范数与向量范数的相容 :设∣∣ X ∣ ∣ α 是向量范数,∣∣ A ∣ ∣ β 是矩阵范数,如果对于任何矩阵A 与向量X ,都有∣∣ A X ∣ ∣ α ≤ ∣∣ A ∣ ∣ β ∣∣ X ∣ ∣ α ,则称矩阵范数∣∣ A ∣ ∣ β 与向量范数∣∣ X ∣ ∣ α 是相容的。
例:矩阵的Frobenious范数与向量的2-范数是相容的
证:A X 是一个列向量,也可以看成是n = 1 的矩阵,根据定义,∣∣ A X ∣ ∣ 2 = ∣∣ A X ∣ ∣ F ≤ ∣∣ A ∣ ∣ F ∣∣ X ∣ ∣ F = ∣∣ A ∣ ∣ F ∣∣ X ∣ ∣ 2 .
Ⅱ.
通过向量范数构造与之相容的矩阵范数
通过已知的范数构造的范数叫诱导范数,下面通过例题说明
例:设∣∣ X ∣ ∣ α 是向量的范数,则∣∣ A ∣ ∣ i = X = 0 max ∣∣ X ∣ ∣ α ∣∣ A X ∣ ∣ α 满足矩阵范数的定义,且∣∣ A ∣ ∣ i 是与∣∣ X ∣ ∣ α 相容的矩阵范数
证:容易验证∣∣ A ∣ ∣ i 满足矩阵范数的非负性、齐次性、三角不等式,现在验证矩阵范数的相容性:
∣∣ A B ∣ ∣ i = X = 0 max ∣∣ X ∣ ∣ α ∣∣ A BX ∣ ∣ α = X = 0 max ( ∣∣ BX ∣ ∣ α ∣∣ A ( BX ) ∣ ∣ α ∣∣ X ∣ ∣ α ∣∣ BX ∣ ∣ α ) ≤ BX = 0 max ∣∣ BX ∣ ∣ α ∣∣ A ( BX ) ∣ ∣ α X = 0 max ∣∣ X ∣ ∣ α ∣∣ BX ∣ ∣ α ≤ BX = 0 max ∣∣ X ∣ ∣ α ∣∣ A X ∣ ∣ α X = 0 max ∣∣ X ∣ ∣ α ∣∣ BX ∣ ∣ α = ∣∣ A ∣ ∣ i ∣∣ B ∣ ∣ i
然后验证∣∣ A ∣ ∣ i 与∣∣ X ∣ ∣ α 是相容的:
由∣∣ A ∣ ∣ i 的定义可知,当X = 0 时,∣∣ A ∣ ∣ i ≥ ∣∣ X ∣ ∣ α ∣∣ A X ∣ ∣ α ,故∣∣ A X ∣ ∣ α ≤ ∣∣ A ∣ ∣ i ∣∣ X ∣ ∣ α ,当X = 0 时,∣∣ A X ∣ ∣ α = ∣∣ A ∣ ∣ i ∣∣ X ∣ ∣ α = 0 .
由上面例题所定义的矩阵范数称为由向量范数∣∣ X ∣ ∣ α 所诱导的诱导范数 (或算子范数 ),由向量p-范数∣∣ X ∣ ∣ p 所诱导的矩阵范数称为矩阵p-范数 ,即∣∣ A ∣ ∣ p = X = 0 max ∣∣ X ∣ ∣ p ∣∣ A X ∣ ∣ p ,常用的矩阵p-范数有∣∣ A ∣ ∣ 1 、∣∣ A ∣ ∣ 2 和∣∣ A ∣ ∣ ∞ .
常用的矩阵p-范数的形式(设A ∈ C m × n ):
列和范数 :∣∣ A ∣ ∣ 1 = j max ( ∑ i = 1 m ∣ a ij ∣ ) ,j = 1 , 2 , ⋯ , n .(即每一列各分量模长和的最大值)
谱范数 :∣∣ A ∣ ∣ 2 = j max ( λ j 2 1 ) ,其中λ j 是矩阵A H A 的第j 个特征值(有时也写做λ j ( A H A ) ),由于A H A 半正定,特征值≥ 0 .
行和范数 :∣∣ A ∣ ∣ ∞ = i max ( ∑ j = 1 n ∣ a ij ∣ ) ,i = 1 , 2 , ⋯ , n .
比如A = 2 0 1 − 1 2 2 0 3 0 ,A H A = 5 0 0 0 9 6 0 6 9 ,所以∣∣ A ∣ ∣ F = 23 、∣∣ A ∣ ∣ 1 = 5 、∣∣ A ∣ ∣ 2 = 15 、∣∣ A ∣ ∣ ∞ = 5 .
它们之间的关系:
∣∣ A H ∣ ∣ 1 = ∣∣ A T ∣ ∣ 1 = ∣∣ A ∣ ∣ ∞ .
∣∣ A H ∣ ∣ 2 = ∣∣ A T ∣ ∣ 2 = ∣∣ A ∣ ∣ 2 .
∣∣ A H A ∣ ∣ 2 = ∣∣ A ∣ ∣ 2 2 .
∣∣ A ∣ ∣ 2 2 ≤ ∣∣ A ∣ ∣ 1 ∣∣ A ∣ ∣ ∞ .
第3点的证明:∣∣ A H A ∣ ∣ 2 2 = j max λ j [( A H A ) H ( A H A )] = j max λ j [( A H A ) 2 ] = [ j max λ j ( A H A ) ] 2 = ∣∣ A ∣ ∣ 2 4 .
第4点的证明:∣∣ A ∣ ∣ 2 2 = j max λ j ( A H A ) ≤ ∣∣ A H A ∣ ∣ 1 ≤ ∣∣ A H ∣ ∣ 1 ∣∣ A ∣ ∣ 1 = ∣∣ A ∣ ∣ ∞ ∣∣ A ∣ ∣ 1 .
(其中λ j ( ⋅ ) ,表示λ j 是⋅ 的特征值)
Ⅲ.
通过矩阵范数构造与之相容的向量范数
定理:设∣∣ A ∣ ∣ ∗ 是矩阵范数,则存在向量范数∣∣ X ∣∣ 使得∣∣ A X ∣∣ ≤ ∣∣ A ∣ ∣ ∗ ∣∣ X ∣∣ .
证明:对于任意的非零向量α ,定义向量范数∣∣ X ∣∣ = ∣∣ X α H ∣ ∣ ∗ ,容易验证它满足向量范数的三个性质,且∣∣ A X ∣∣ = ∣∣ A X α H ∣ ∣ ∗ ≤ ∣∣ A ∣ ∣ ∗ ∣∣ X α H ∣ ∣ ∗ ≤ ∣∣ A ∣ ∣ ∗ ∣∣ X ∣∣ .
例:已知矩阵范数∣∣ A ∣ ∣ ∗ = ∣∣ A ∣∣ = ∑ i = 1 m ∑ j = 1 n ∣ a ij ∣ ,求与之相容的一个向量范数
解:取α = [ 0 1 ⋯ 0 ] T ,设X = [ x 1 x 2 ⋯ x n ] T ,那么∣∣ X ∣∣ = ∣∣ X α H ∣ ∣ ∗ = ∑ i = 1 n ∣ x i ∣ = ∣∣ X ∣ ∣ 1 .
3. 矩阵序列与极限
矩阵序列及其收敛、极限 :设矩阵序列{ A ( k ) } (右上角( k ) 表示序列的第k 个),其中A ( k ) = [ a ij ( k ) ] ∈ C m × n ,如果nm 个数列{ a ij ( k ) } ,i = 1 , 2 , ⋯ , m 、j = 1 , 2 , ⋯ , n 都收敛,则称矩阵序列{ A ( k ) } 收敛 。进一步,如果k → ∞ lim a ij ( k ) = a ij ,那么k → ∞ lim A ( k ) = A = [ a ij ] ,那么称矩阵A 为矩阵序列{ A ( k ) } 的极限 。
矩阵序列的收敛定理 :矩阵序列{ A ( k ) } 收敛于A 的充要条件是k → ∞ lim ∣∣ A ( k ) − A ∣∣ = 0 ,其中∣∣ ⋅ ∣∣ 为任意一种范数。
矩阵序列的极限的运算性质:
一个收敛的矩阵序列的极限是唯一的.
设k → ∞ lim A ( k ) = A 、k → ∞ lim B ( k ) = B ,则k → ∞ lim ( a A ( k ) + b B ( k ) ) = a A + b B ,其中a , b ∈ C .
设A ( k ) ∈ C m × l 、B ( k ) ∈ C l × n ,且k → ∞ lim A ( k ) = A 、k → ∞ lim B ( k ) = B ,那么k → ∞ lim A ( k ) B ( k ) = A B .
设k → ∞ lim A ( k ) = A ,其中A ( k ) ∈ C m × n ,且P ∈ C m × m 、Q ∈ C n × n ,那么k → ∞ lim P A ( k ) Q = P A Q .
设k → ∞ lim A ( k ) = A ,且{ A ( k ) } 、A 均可逆,则{( A ( k ) ) − 1 } 也收敛,且k → ∞ lim ( A ( k ) ) − 1 = A − 1 .
例:证明对于幂序列{ A ( k ) } = { A , A 2 , ⋯ , A k , ⋯ } ,若∣∣ A ∣∣ < 1 ,则k → ∞ lim A ( k ) = 0
证:k → ∞ lim ∣∣ A ( k ) − 0∣∣ = k → ∞ lim ∣∣ A k ∣∣ ≤ k → ∞ lim ∣∣ A ∣ ∣ k = 0 ,再由于范数≥ 0 ,∴ k → ∞ lim A ( k ) = 0 .
幂序列收敛于零的充要条件 :对于幂序列A , A 2 , ⋯ , A k , ⋯ ,k → ∞ lim A ( k ) = 0 的充要条件是ρ ( A ) < 1 .
证明:设A 的Jordan标准型为J = diag ( J 1 ( λ 1 ) , J 2 ( λ 2 ) , ⋯ , J r ( λ r )) ,其中J i ( ⋅ ) 表示某特征值对应的Jordan块,由于J 是一个分块对角阵,A k = P diag ( J 1 k ( λ 1 ) , J 2 k ( λ 2 ) , ⋯ , J r k ( λ r )) P − 1 ,显然k → ∞ lim A k = 0 ⇔ k → ∞ lim J i k ( λ i ) = 0 ,而J i k ( λ i ) = λ i k C k 1 λ i k − 1 λ i k ⋯ ⋱ ⋱ C k d i − 1 λ i k − d i + 1 ⋮ C k 1 λ i k − 1 λ i k d i × d i ,其中C k l = { l ! k ( k − 1 ) ⋯ ( k − l + 1 ) 0 , l ≤ k , l > k ,于是k → ∞ lim J i k ( λ i ) = 0 的充要条件是∣ λ i ∣ < 1 ,因此k → ∞ lim A k = 0 的充要条件是ρ ( A ) < 1 .
Gelfand定理 :设∣∣ ⋅ ∣∣ 是C n × n 的相容矩阵范数,则对任意A ∈ C n × n ,都有ρ ( A ) = k → ∞ lim ∣∣ A k ∣ ∣ k 1 .
证明:谱半径不大于其任何一种范数,于是( ρ ( A ) ) k = ρ ( A k ) ≤ ∣∣ A k ∣∣ ⟶ ρ ( A ) ≤ ∣∣ A k ∣ ∣ k 1 ,另一方面,对任给的ϵ > 0 ,可以构造矩阵A = [ ρ ( A ) + ϵ ] − 1 A ,这时ρ ( A ) < 1 ,由前面定理知,k → ∞ lim A k = 0 ,于是当k → ∞ 时,有∣∣ A k − 0∣∣ → 0 ,那么存在正整数K ,使得当k > K 时,有∣∣ A k ∣∣ ≤ 1 ,即∣∣ A k ∣∣ ≤ [ ρ ( A ) + ϵ ] k ⟶ ∣∣ A k ∣ ∣ k 1 ≤ ρ ( A ) + ϵ ,得证。
4. 矩阵级数
矩阵级数的收敛 :设A ( k ) = [ a ij ( k ) ] ∈ C m × n ,如果mn 个常数项级数∑ k = 1 ∞ a ij ( k ) ,i = 1 , 2 , ⋯ , m 、j = 1 , 2 , ⋯ , n 都收敛,那么称矩阵级数∑ k = 1 ∞ A ( k ) = A ( 1 ) + A ( 2 ) + ⋯ + A ( k ) + ⋯ 收敛 。特别地,如果∑ k = 1 ∞ a ij ( k ) 都绝对收敛,那么称矩阵级数绝对收敛 。
矩阵级数的绝对收敛 :设A ( k ) = [ a ij ( k ) ] ∈ C m × n ,矩阵级数∑ k = 1 ∞ A ( k ) = A ( 1 ) + A ( 2 ) + ⋯ + A ( k ) + ⋯ 绝对收敛的充要条件是正项级数∑ k = 1 ∞ ∣∣ A ( k ) ∣∣ = ∣∣ A ( 1 ) ∣∣ + ∣∣ A ( 2 ) ∣∣ + ⋯ + ∣∣ A ( k ) ∣∣ + ⋯ 收敛,其中∣∣ ⋅ ∣∣ 为任意一种矩阵范数。
证明:先证明对其中一种矩阵范数成立,再利用矩阵范数的等价性推广到其他范数
充分性:取∣∣ A ( k ) ∣∣ = ∑ i = 1 m ∑ j = 1 n ∣ a ij ( k ) ∣ ,那么对每一对i , j 都有∣∣ A ( k ) ∣∣ ≥ ∣ a ij ( k ) ∣ ,因此如果∑ k = 1 ∞ ∣∣ A ( k ) ∣∣ = ∣∣ A ( 1 ) ∣∣ + ∣∣ A ( 2 ) ∣∣ + ⋯ + ∣∣ A ( k ) ∣∣ + ⋯ 收敛,则对每一对i , j ,常数项级数∑ k = 1 ∞ ∣ a ij ( k ) ∣ = ∣ a ij ( 1 ) ∣ + ∣ a ij ( 2 ) ∣ + ⋯ + ∣ a ij ( k ) ∣ + ⋯ 都收敛。
必要性:若∑ k = 1 ∞ A ( k ) = A ( 1 ) + A ( 2 ) + ⋯ + A ( k ) + ⋯ 绝对收敛,则对每一对i , j 都有∑ k = 1 ∞ ∣ a ij ( k ) ∣ = ∣ a ij ( 1 ) ∣ + ∣ a ij ( 2 ) ∣ + ⋯ + ∣ a ij ( k ) ∣ + ⋯ < ∞ ,于是∑ k = 1 ∞ ∣∣ A ( k ) ∣∣ = ∑ k = 1 ∞ ∑ i = 1 m ∑ j = 1 n ∣ a ij ( k ) ∣ = ∑ i = 1 m ∑ j = 1 n ∑ k = 1 ∞ ∣ a ij ( k ) ∣ < ∞ ,由此可知部分和数列有上界S n = ∑ k = 1 n ∣∣ A ( k ) ∣∣ < ∞ ,根据正项级数收敛的条件知其收敛。
定理 :对于两个绝对收敛的矩阵级数,它们的Cauchy积所组成的矩阵级数仍然绝对收敛。
即,设S 1 = A ( 1 ) + A ( 2 ) + ⋯ 、S 2 = B ( 1 ) + B ( 2 ) + ⋯ ,且S 1 → A 、S 2 → B ,令S 3 = A ( 1 ) B ( 1 ) + ( A ( 1 ) B ( 2 ) + A ( 2 ) B ( 1 ) ) + ( A ( 1 ) B ( 3 ) + A ( 2 ) B ( 2 ) + A ( 3 ) B ( 1 ) ) + ⋯ ,则S 3 → A B .
矩阵幂级数 :设A ∈ C n × n ,形如∑ k = 0 ∞ a k A k = a 0 E + a 1 A + a 2 A 2 + ⋯ + a k A k + ⋯ 的矩阵级数称为矩阵幂级数。
矩阵幂级数的绝对收敛 :如果矩阵A 的某个范数∣∣ A ∣∣ 在幂级数a 0 + a 1 x + a 2 x 2 + ⋯ + a k x k + ⋯ 的收敛域内,那么矩阵幂级数∑ k = 0 ∞ a k A k 绝对收敛。
证明:∑ k = 0 ∞ ∣∣ a k A k ∣∣ ≤ ∑ k = 0 ∞ ∣ a k ∣ ∣∣ A k ∣∣ ,其中∣∣ A k ∣∣ 是一个实数,可以看作是x ,那么如果∣∣ A ∣∣ 在∑ k = 0 ∞ a k x k 的收敛半径内,则对应的矩阵幂级数也绝对收敛。
Cauchy-Hadamard定理 :幂级数∑ k = 0 ∞ a k x k ,当∣ x ∣ < R 时绝对收敛,当∣ x ∣ > R 时发散,当∣ x ∣ = R 时收敛性要另行判断,这里R 为此幂级数的收敛半径,R 1 = k → ∞ lim ∣ a k a k + 1 ∣ 。(复数域的幂级数可以通过这个方法求收敛半径)
将Cauchy-Hadamard定理推广到矩阵:设幂级数∑ k = 0 ∞ a k x k 的收敛半径为R ,A 为n 阶方阵,若ρ ( A ) < R ,则矩阵幂级数∑ k = 0 ∞ a k A k 绝对收敛,若ρ ( A ) > R ,则∑ k = 0 ∞ a k A k 发散,而ρ ( A ) = R 时需另行判断。
证明:设A 的Jordan标准型为J = diag ( J 1 ( λ 1 ) , J 2 ( λ 2 ) , ⋯ , J r ( λ r )) ,其中J i ( λ i ) 是λ i 对应的d i × d i 阶Jordan块,于是A k = P diag ( J 1 k ( λ 1 ) , J 2 k ( λ 2 ) , ⋯ , J r k ( λ r )) P − 1 ,所以∑ k = 0 ∞ a k A k = ∑ k = 0 ∞ a k ( P J k P − 1 ) = P diag ( ∑ k = 0 ∞ a k J 1 k ( λ 1 ) , ∑ k = 0 ∞ a k J 2 k ( λ 2 ) , ⋯ , ∑ k = 0 ∞ a k J r k ( λ r )) P − 1 ,其中∑ k = 0 ∞ a k J i k ( λ i ) = ∑ k = 0 ∞ a k λ i k ∑ k = 0 ∞ a k C k 1 λ i k − 1 ∑ k = 0 ∞ a k λ i k ⋯ ⋱ ⋱ ∑ k = 0 ∞ a k C k d i − 1 λ i k − d i + 1 ⋮ ∑ k = 0 ∞ a k C k 1 λ i k − 1 ∑ k = 0 ∞ a k λ i k d i × d i (其中C 是组合数C k l = { l ! k ( k − 1 ) ⋯ ( k − l + 1 ) 0 , l ≤ k , l > k ),∑ k = 0 ∞ a k A k 收敛就是里面每个元素对应的级数都收敛,因此只要判断每个Jordan块对应的级数是否收敛即可,根据定理的条件知,当ρ ( A ) < R 时,幂级数∑ k = 0 ∞ a k λ i k 收敛,而∑ k = 0 ∞ a k C k l λ i k − 1 , ⋯ 可以通过它求导得到(只是相差了系数),这是每个Jordan块都是绝对收敛的,因此当ρ ( A ) < R 时,∑ k = 0 ∞ a k A k 也是绝对收敛的。(发散同理可证)
和初等函数的Taylor展开式类似,矩阵幂级数:
e A = ∑ n = 0 ∞ n ! A n = E + A + 2 ! A 2 + ⋯ + n ! A n + ⋯ .
sin A = ∑ n = 0 ∞ ( 2 n + 1 )! ( − 1 ) n A 2 n + 1 = A − 3 ! A 3 + 5 ! A 5 + ⋯ + ( − 1 ) n ( 2 n + 1 )! A 2 n + 1 + ⋯ .
cos A = ∑ n = 0 ∞ ( 2 n )! ( − 1 ) n A 2 n = E − 2 ! A 2 + 4 ! A 4 − ⋯ + ( − 1 ) n ( 2 n )! A 2 n + ⋯ .
arctan A = ∑ n = 1 ∞ 2 n − 1 ( − 1 ) n − 1 A 2 n − 1 = A − 3 A 3 + 5 A 5 − ⋯ + ( − 1 ) n 2 n + 1 A 2 n + 1 + ⋯ ,ρ ( A ) < 1 .
ln ( E + A ) = ∑ n = 0 ∞ n ( − 1 ) n + 1 A n = A − 2 A 2 + 3 A 3 − ⋯ + ( − 1 ) n − 1 n A n + ⋯ ,ρ ( A ) < 1 .
( E + A ) − 1 = E − A + A 2 − A 3 + ⋯ + ( − 1 ) n A n + ⋯ ,ρ ( A ) < 1 .
( E − A ) − 1 = E + A + A 2 + A 3 + ⋯ + A n + ⋯ ,ρ ( A ) < 1 .
定理:矩阵幂级数E + A + A 2 + A 3 + ⋯ + A n + ⋯ 绝对收敛的充要条件是ρ ( A ) < 1 ,且其和为( E − A ) − 1 .
例:已知A = [ 5 1 5 3 5 3 5 1 ] ,求证矩阵幂级数∑ k = 0 ∞ k 2 A k 收敛,并求其收敛和
解:先求出其谱半径,∣ λ E − A ∣ = ( λ + 5 2 ) ( λ − 5 4 ) ,故特征值为λ 1 = − 5 2 、λ 2 = 5 4 ,ρ ( A ) = 5 4 ,而级数∑ k = 1 ∞ k 2 A 2 的收敛半径是R = 1 ,因为ρ ( A ) < R ,所以矩阵幂级数是收敛的。
由于∑ k = 0 ∞ x k = ( 1 − x ) − 1 ,两边同时求导得∑ k = 0 ∞ k x k − 1 = ( 1 − x ) − 2 ⟶ ∑ k = 0 ∞ k x k = x ( 1 − x ) − 2 ,两边再次求导得∑ k = 0 ∞ k 2 x k = x ( 1 + x ) ( 1 − x ) − 3 ,因此∑ k = 0 ∞ k 2 A k = A ( E + A ) ( E − A ) − 3 = 5 [ − 24 7 24 11 24 11 − 24 7 ] .
六、矩阵函数
1. 矩阵多项式
矩阵多项式 :设A ∈ C n × n 和关于变量x 的多项式f ( x ) = a m x m + a m − 1 x m − 1 + ⋯ + a 1 x + a 0 ,那么称f ( A ) = a m A m + a m − 1 A m − 1 + ⋯ + a 1 A + a 0 E 为A 的矩阵多项式。
当次数m 很高时,可以用A 的Jordan标准型来计算,f ( A ) = P diag ( f ( J 1 ) , f ( J 2 ) , ⋯ , f ( J r )) P − 1 ,这个式子称为f ( A ) 的Jordan表示 ,其中J i ( λ i ) = λ i 1 λ i ⋱ ⋱ 1 λ i ,J i k ( λ i ) = λ i E + 0 1 0 ⋱ ⋱ 1 0 k = λ i k C k 1 λ i k − 1 λ i k ⋯ ⋱ ⋱ C k d i − 1 λ i k − d i + 1 ⋮ C k 1 λ i k − 1 λ i k d i × d i ,其中C 是组合数C k l = { l ! k ( k − 1 ) ⋯ ( k − l + 1 ) 0 , l ≤ k , l > k ,1 ! ( λ i k ) ′ = C k 1 λ k − 1 ,2 ! ( λ i k ) ′′ = C k 2 λ i k − 2 ,⋯ ,( d i − 1 )! ( λ i k ) ( d i − 1 ) = C k d i − 1 λ i k − d i + 1 ,于是f ( J i ) = f ( λ i ) f ′ ( λ i ) f ( λ i ) ⋯ ⋱ ⋱ ( d i − 1 )! 1 f ( d i − 1 ) ( λ i ) ⋮ f ′ ( λ i ) f ( λ i ) d i × d i .
定理 :设A ∈ C n × n ,A 的n 个特征值为λ 1 , λ 2 , ⋯ , λ n ,那么矩阵多项式f ( A ) 的特征值为f ( λ 1 ) , f ( λ 2 ) , ⋯ , f ( λ n ) .
例:已知多项式f ( x ) = x 4 − 2 x 3 + x − 1 与矩阵A = 2 1 1 0 1 − 1 0 1 3 ,求f ( A )
解:A = P J A P − 1 = 0 1 1 1 0 0 1 0 − 1 2 0 0 1 2 0 0 0 2 0 1 0 1 − 1 1 0 1 − 1 ,于是f ( A ) = 0 1 1 1 0 0 1 0 − 1 f ( 2 ) 0 0 f ′ ( 2 ) f ( 2 ) 0 0 0 f ( 2 ) 0 1 0 1 − 1 1 0 1 − 1 .
2. 最小多项式
化零多项式 :设A ∈ C n × n 和变量x 的多项式f ( x ) = a m x m + a m − 1 x m − 1 + ⋯ + a 1 x + a 0 ,如果f ( x ) 满足f ( A ) = 0 n × n ,那么f ( x ) 称为矩阵A 的一个化零多项式。
推论:若f ( λ ) 是A 的化零多项式,h ( λ ) 是任一多项式,那么f ( λ ) h ( λ ) 也是A 的化零多项式。
Hamilton-Cayley定理 :已知A ∈ C n × n ,f ( λ ) 为其特征多项式,则f ( A ) = 0 n × n .
比如:A = 2 0 0 0 2 0 0 1 2 ,则特征多项式为f A ( λ ) = ( λ − 2 ) 3 ,显然f A ( A ) = 0 。
并且容易看出g ( λ ) = ( λ − 2 ) 2 也可以使g ( A ) = 0 ,也就是说还存在比特征多项式次数更低的多项式可以使f ( A ) = 0 .
最小多项式 :已知A ∈ C n × n ,在A 的化零多项式中,次数最低且首项系数为1的化零多项式称为A 的最小多项式,通常记为m ( λ ) .
最小多项式的性质:
矩阵的任何一个化零多项式均能被m ( λ ) 整除。
矩阵A 的最小多项式是唯一的。
相似的矩阵有相同的最小多项式。
例:求Jordan块J i ( λ i ) = λ i 1 λ i ⋱ ⋱ 1 λ i d i × d i 的最小多项式
解;J i 的特征多项式为f ( λ ) = ( λ − λ i ) d i ,那么它的最小多项式的形式一定为m ( λ ) = ( λ − λ i ) k ,其中1 ≤ k ≤ d i ,但是当k < d i 时,m ( J i ) = ( J i − λ i E ) k = J i ( λ i ) = 0 0 0 ⋯ 0 0 1 ⋱ ⋱ ⋱ ⋯ ⋱ ⋱ 0 0 0 ⋯ 1 ⋯ 0 0 = 0 ,因此m ( λ ) = ( λ − λ i ) d i 。
定理:设分块对角阵A = diag ( A 1 , A 2 , ⋯ , A r ) ,m 1 ( λ ) , m 2 ( λ ) , ⋯ , m r ( λ ) 分别为子块A 1 , A 2 , ⋯ , A r 的最小多项式,则A 的最小多项式为其子块的最小多项式的最小公倍式[ m 1 ( λ ) , m 2 ( λ ) , ⋯ , m r ( λ )] .
定理 :设矩阵A 的Jordan标准型为J = diag ( J 1 ( λ 1 ) , J 2 ( λ 2 ) , ⋯ , J s ( λ s )) ,其中J i ( λ i ) 的阶数是d i ,那么A 的最小多项式为( λ − λ 1 ) d 1 , ⋯ , ( λ − λ s ) d s 的最小公倍式。
比如:A = 3 0 0 0 1 3 0 0 0 0 3 0 0 0 0 5 ,这是一个有3个分块的Jordan标准型,它的最小多项式为( λ − 3 ) 2 ( λ − 5 ) .
3. 矩阵函数
定义:设A ∈ C n × n ,λ 1 , λ 2 , ⋯ , λ s 为A 的s 个互异的特征值,A 的最小多项式为m ( λ ) = ( λ − λ 1 ) d 1 ( λ − λ 2 ) d 2 ⋯ ( λ − λ s ) d s ,其中d i ≥ 1 ,且∑ i = 1 s d i = m ,如果函数f ( x ) 具有足够高阶的导数,并且{ f ( λ i ) , f ′ ( λ i ) , ⋯ , f ( d i − 1 ) ( λ i ) , i = 1 , 2 , ⋯ , s } 这m 个值存在,则称函数f ( x ) 在矩阵A 的影谱上有定义 。
比如:f ( x ) = ( x − 3 ) ( x − 4 ) 1 ,A = 8 3 4 − 3 − 2 2 6 0 − 2 ,矩阵A 的最小多项式为m ( λ ) = ( λ − 2 ) ( λ − 1 ) 2 ,对于λ = 2 ,代入f ( x ) 后值存在(f ( 2 ) = 2 1 ),对于λ = 1 ,代入f ( 1 ) 、f ′ ( 1 ) 后值存在(f ( 1 ) = 6 1 、f ′ ( 1 ) = 36 5 ),所以f ( x ) 在A 的影谱上有定义。
如果某个矩阵B 的最小多项式为m ( λ ) = ( λ − 1 ) ( λ − 3 ) 2 ,那么显然f ( 3 ) 不存在,所以f ( x ) 在B 的影谱上没有定义。
矩阵函数 :设矩阵A ∈ C n × n ,其最小多项式为m ( λ ) = ( λ − λ 1 ) d 1 ( λ − λ 2 ) d 2 ⋯ ( λ − λ s ) d s ,函数f ( x ) 在矩阵A 的影谱上有定义,如果存在多项式p ( λ ) 满足f ( k ) ( λ i ) = p ( k ) ( λ i ) ,i = 1 , 2 , ⋯ , s 、k = 0 , 1 , ⋯ , d i − 1 ,则定义矩阵函数f ( A ) = p ( A ) .
注1:满足上述定义的多项式p ( λ ) 存在且不唯一。
注2:矩阵函数f ( A ) 是与A 相同阶数的矩阵。
定理 :设g ( λ ) 与q ( λ ) 为两个不同的多项式,A 为n 阶矩阵,则g ( A ) 与q ( A ) 相等的充要条件是g ( λ ) 与q ( λ ) 在A 的影谱上的值对应相等,即g ( k ) ( λ i ) = q ( k ) ( λ i ) ,i = 1 , 2 , ⋯ , s 、k = 0 , 1 , ⋯ , d i − 1 .
设A ∈ C n × n ,如果f ( A ) 有定义,那么f ( A T ) 也有定义,且f ( A T ) = [ f ( A ) ] T .(因为A 与A T 相似,它们有相同的最小多项式,因此f ( x ) 在A 和A T 的影谱上都有定义)
矩阵函数的Jordan表示 :和矩阵多项式一样,矩阵函数也可以写成f ( A ) = P f ( J ) P − 1 = P diag ( f ( J 1 ) , f ( J 2 ) , ⋯ , f ( J s )) P − 1 ,其中f ( J i ) = f ( λ i ) f ′ ( λ i ) f ( λ i ) ⋯ ⋱ ⋱ ( d i − 1 )! 1 f ( d i − 1 ) ( λ i ) ⋮ f ′ ( λ i ) f ( λ i ) d i × d i 。
定理 :设A ∈ C n × n ,A 的n 个特征值为λ 1 , λ 2 , ⋯ , λ n ,那么矩阵函数f ( A ) 的特征值为f ( λ 1 ) , f ( λ 2 ) , ⋯ , f ( λ n ) .
例:设A = − 1 − 1 − 1 − 2 0 − 1 6 3 4 ,求f ( A ) 的Jordan表示并计算e t A 和sin A
解:首先算出A 的Jordan标准型,J = 1 0 0 0 1 0 0 1 1 ,P = − 1 1 0 2 1 1 2 0 1 ,从而f ( A ) 的Jordan表示为f ( A ) = P f ( J ) P − 1 = − 1 1 0 2 1 1 2 0 1 f ( 1 ) 0 0 0 f ( 1 ) 0 0 f ′ ( 1 ) f ( 1 ) − 1 1 − 1 0 1 − 1 2 − 2 3 = f ( 1 ) − 2 f ′ ( 1 ) − f ′ ( 1 ) − f ′ ( 1 ) − 2 f ′ ( 1 ) f ( 1 ) − f ′ ( 1 ) − f ′ ( 1 ) 6 f ′ ( 1 ) 3 f ′ ( 1 ) f ( 1 ) + 3 f ′ ( 1 ) ,当f ( x ) = e t x 时,f ( 1 ) = e t 、f ′ ( 1 ) = t e t ,代入即可。(sin 同理)
矩阵函数多项式表示 :设矩阵A ∈ C n × n ,其最小多项式为m ( λ ) = ( λ − λ 1 ) d 1 ( λ − λ 2 ) d 2 ⋯ ( λ − λ s ) d s ,其中λ 1 , λ 2 , ⋯ , λ s 是矩阵A 的s 个互异的特征值,且d i ≥ 1 ,且∑ i = 1 s d i = m ,根据Lagrange-Sylvester内插多项式定理知,有一个次数为m − 1 的多项式p ( x ) = a m − 1 x m − 1 + a m − 2 x m − 2 + ⋯ + a 1 x + a 0 ,满足p ( k ) ( λ i ) = f ( k ) ( λ i ) ,i = 1 , 2 , ⋯ , s 、k = 1 , 2 , ⋯ , d i − 1 ,因此p ( x ) 的系数可以通过上面的关系式确定出来,我们称f ( A ) = a m − 1 A m − 1 + a m − 2 A m − 2 + ⋯ + a 1 A + a o E 为矩阵函数f ( A ) 的多项式表示。
例:设A = 2 1 1 0 1 − 1 0 1 3 ,求f ( A ) 的多项式表示,并计算e t A
解:A 的Jordan标准型为J = 2 0 0 0 2 0 0 1 2 ,因此最小多项式m ( λ ) = ( λ − 2 ) 2 ,从而存在一个次数为1的多项式p ( x ) = a 1 x + a 0 ,并且满足{ p ( 2 ) = f ( 2 ) p ′ ( 2 ) = f ′ ( 2 ) ,即{ f ( 2 ) = 2 a 1 + a 0 f ′ ( 2 ) = a 1 ,解出{ a 1 = f ′ ( 2 ) a 0 = f ( 2 ) − 2 f ′ ( 2 ) ,于是f ( A ) 的多项式表示为f ( A ) = p ( A ) = f ′ ( 2 ) A + [ f ( 2 ) − 2 f ′ ( 2 )] E ,当f ( x ) = e t x 时,f ( 2 ) = e 2 t 、f ′ ( 2 ) = t e 2 t ,代入得e A t = e 2 t 1 t t 0 1 − t − t 0 t 1 + t 。
矩阵的幂级数表示 :设A ∈ C n × n ,一元函数f ( x ) 能够展成关于x 的幂级数f ( x ) = ∑ k = 0 ∞ c k x k ,并且其收敛半径为R ,那么当A 的谱半径ρ ( A ) < R 时,矩阵幂级数∑ k = 0 ∞ c k A k 绝对收敛,并且∑ k = 0 ∞ c k A k = P diag ( ∑ k = 0 ∞ c k J 1 k ( λ 1 ) , ⋯ , ∑ k = 0 ∞ c k J r k ( λ r )) P − 1 = P diag ( f ( J 1 ) , ⋯ , f ( J r )) P − 1 = f ( A ) .
例:设A = 2 1 1 0 1 − 1 0 1 3 ,求矩阵幂级数∑ k = 0 ∞ 1 0 k + 1 k + 1 A k 的和
解:算出A 的Jordan标准型J = 2 0 0 0 2 0 0 1 2 ,所以ρ ( A ) = 2 ,再计算常数项幂级数的和f ( x ) = ∑ k = 0 ∞ 1 0 k + 1 k + 1 x k = ∑ k = 0 ∞ [( 10 x ) k + 1 ] ′ = [ ∑ k = 0 ∞ ( 10 x ) k + 1 ] ′ = [ − 1 + ( 1 − 10 x ) − 1 ] ′ = 10 1 ( 1 − 10 x ) − 2 ,收敛半径∣ x ∣ < R = 10 ,∴ ∑ k = 0 ∞ 1 0 k + 1 k + 1 A k = f ( A ) = 10 1 ( E − 10 A ) − 2 = 128 5 4 1 1 0 3 − 1 0 1 5 .(其中− 2 次方指先求逆再平方)
4. 矩阵指数函数与矩阵三角函数
e A t = ∑ k = 0 ∞ k ! 1 A k t k .
sin A t = ∑ k = 0 ∞ ( 2 k + 1 )! ( − 1 ) k A 2 k + 1 t 2 k + 1 .
cos A t = ∑ k = 0 ∞ ( 2 k )! ( − 1 ) k A 2 k t 2 k .
定理:设A , B ∈ C n × n ,那么当A B = B A 时,有
e A + B = e A e B = e B e A .
sin ( A + B ) = sin A cos B + cos A sin B .
sin ( 2 A ) − 2 sin A cos A .
cos ( A + B ) = cos A cos B − sin A sin B .
cos ( 2 A ) = cos 2 A − sin 2 A .
sin 2 A + cos 2 A = E .
注:A B = B A 是充分不必要条件,比如:如果A 与B 不能交换,则e A + B 、e A e B 、e B e A 之间可能相等,也可能不相等。
推论:
e λ A e μ A = e λ + μ A ,其中λ 、μ 是任意复数.
e 0 n × n = E n × n .
e A e − A = e − A e A = E ,其中e A 可逆,且( e A ) − 1 = e − A .
几个特殊的性质:
d t d ( e A t ) = A e A t = e A t A .
d t d [ sin ( A t )] = A [ cos ( A t )] = [ cos ( A t )] A .
d t d [ cos ( A t )] = − A [ sin ( A t )] = − [ sin ( A t )] A .
∣ e A ∣ = e tr ( A ) . >
证明:e A = P e J P − 1 = P diag ( e J 1 , ⋯ , e J r ) P − 1 ,其中e J i = e λ i e λ i e λ i ⋯ ⋱ ⋱ d i − 1 1 e λ i ⋮ e λ i e λ i d i × d i ,于是∣ e A ∣ = ∏ i = 1 r ∣ e J i ∣ = ∏ i = 1 r e d i λ i = e tr ( A ) .
设A 是一个H-阵 ,那么e i A 是一个酉矩阵. > 证明:e i A ( e i A ) H = ( cos A + i sin A ) [( cos A ) H − i ( sin A ) H ] = ( cos A + i sin A ) ( cos A − i sin A ) = E ,其中( cos A ) H 和( sin A ) H 可以通过展开式得到(用到的定理:A 是H-阵那么A k 也是H-阵)。
设A 是一个反H-阵(实反对称矩阵),那么e A 是一个酉矩阵(正交矩阵)
七、函数矩阵、矩阵微分方程
1. 函数矩阵
函数矩阵 :以未定元x 的函数为元素的矩阵A ( x ) = a 11 ( x ) a 21 ( x ) ⋯ a m 1 ( x ) a 12 ( x ) a 22 ( x ) ⋯ a m 2 ( x ) ⋯ ⋯ ⋯ ⋯ a 1 n ( x ) a 2 n ( x ) ⋯ a mn ( x ) ,其中a ij ( x ) 都是定义在闭区间[ a , b ] 上的多项式。
函数矩阵的加、乘、数乘、转置和数字矩阵一致。如果A ( x ) B ( x ) = B ( x ) A ( x ) = E ,则称A ( x ) 在区间[ a , b ] 上是可逆的,称B ( x ) 是A ( x ) 的逆矩阵,记作A − 1 ( x ) 。
比如A ( x ) = [ x 1 0 1 e x ] 在区间[ 3 , 5 ] 上是可逆的,其逆为A − 1 = [ x 0 − e x x e x 1 ] .
可逆 :n 阶矩阵A ( x ) 在区间[ a , b ] 上可逆的充要条件是∣ A ( x ) ∣ 在[ a , b ] 上处处不为零,并且A − 1 ( x ) = ∣ A ( x ) ∣ 1 A ∗ ( x ) ,其中A ∗ ( x ) 为A ( x ) 的伴随矩阵。
秩 :区间[ a , b ] 上的m × n 函数矩阵不恒等于零的子式的最高阶数称为A ( x ) 的秩。
注意:对于n 阶函数矩阵而言,满秩与可逆不是等价的:可逆一定满秩,但满秩不一定可逆。
比如A ( x ) = [ 0 x − 1 x 2 ] ,∣ A ( x ) ∣ = x ,它的秩是2,但是如果选取的区间[ a , b ] 包含零点,它就不可逆。
极限 :如果A ( x ) = ( a ij ( x ) ) m × n 的所有各元素a ij ( x ) 在x = x 0 处有极限,即x → x 0 lim a ij ( x ) = a ij ,其中a ij 为固定常数,则称A ( x ) 在x = x 0 处有极限,记为x → x 0 lim A ( x ) = A ,其中A = ( a ij ) m × n .
极限的运算性质(设x → x 0 lim A ( x ) = A ,x → x 0 lim B ( x ) = B ):
x → x 0 lim ( A ( x ) ± B ( x )) = A ± B .
x → x 0 lim ( k A ( x )) = k A .
x → x 0 lim ( A ( x ) B ( x )) = A B .
连续 :如果A ( x ) 的各元素a ij ( x ) 在x = x 0 处连续,即x → x 0 lim a ij ( x ) = a ij ( x 0 ) ,则称A ( x ) 在x = x 0 处连续,记为x → x 0 lim A ( x ) = A ( x 0 ) .
可导 :如果A ( x ) = ( a ij ( x ) ) m × n 的所有各元素a ij ( x ) 在点x = x 0 处(或区间[ a , b ] 上)可导,则称此函数矩阵A ( x ) 在点x = x 0 处(或区间[ a , b ] 上)可导,记作A ′ ( x 0 ) = d x d A ( x ) ∣ x = x 0 = Δ x → 0 lim Δ x A ( x 0 + Δ x ) − A ( x 0 ) = a 11 ′ ( x 0 ) a 21 ′ ( x 0 ) ⋯ a m 1 ′ ( x 0 ) a 12 ′ ( x 0 ) a 22 ′ ( x 0 ) ⋯ a m 2 ′ ( x 0 ) ⋯ ⋯ ⋯ ⋯ a 1 n ′ ( x 0 ) a 2 n ′ ( x 0 ) ⋯ a mn ′ ( x 0 ) .
导数的运算性质:
A ( x ) 是常数矩阵的充要条件是x d A ( x ) = 0 .
设A ( x ) = ( a ij ( x ) ) m × n 、B ( x ) = ( b ij ( x ) ) m × n 均可导,则d x d [ A ( x ) + B ( x )] = x d A ( x ) + d x d B ( x ) .
设k ( x ) 是x 的纯量函数,A ( x ) 是多项式矩阵,k ( x ) 与A ( x ) 均可导,则d x d [ k ( x ) A ( x )] = d x d k ( x ) A ( x ) + k ( x ) d x d A ( x ) ,特别地,当k ( x ) 是常数k 时,d x d [ k A ( x )] = k d x d A ( x ) .
设A ( x ) 、B ( x ) 均可导,且A ( x ) 与B ( x ) 是可乘的,则d x d [ A ( x ) B ( x )] = d x d A ( x ) B ( x ) + A ( x ) d x d B ( x ) ,注意,由于矩阵相乘没有交换律,所以d x d A 2 ( x ) = d x d A ( x ) A ( x ) + A ( x ) d x d A ( x ) = 2 A ( x ) d x d A ( x ) .
如果A ( x ) 与A − 1 ( x ) 均可导,则d x d A − 1 ( x ) = − A − 1 ( x ) d x d A ( x ) A − 1 ( x ) ;d x d A − 1 ( x ) 也可以通过伴随矩阵公式先算出A − 1 ( x ) ,再对矩阵求导得到。 > A − 1 ( x ) 的导数的证明:由于A ( x ) A − 1 ( x ) = E ,所以d x d [ A ( x ) A − 1 ( x )] = 0 ,而d x d [ A ( x ) A − 1 ( x )] = d x d A ( x ) A − 1 ( x ) + A ( x ) d x d A − 1 ( x ) ,整理后得证。
设A ( x ) 为一函数矩阵,x = f ( t ) 是t 的纯量函数,f ( t ) 与A ( t ) 均可导,则d t d A ( x ) = d x d A ( x ) f ′ ( t ) = f ′ ( t ) d x d A ( x ) .
可积 :如果函数矩阵A ( x ) = ( a ij ) m × n 的所有各元素在a ij ( x ) 在[ a , b ] 上可积,则称A ( x ) 在[ a , b ] 上可积,且∫ a b A ( x ) d x = ∫ a b a 11 ( x ) d x ∫ a b a 21 ( x ) d x ⋯ ∫ a b a m 1 ( x ) d x ∫ a b a 12 ( x ) d x ∫ a b a 22 ( x ) d x ⋯ ∫ a b a m 2 ( x ) d x ⋯ ⋯ ⋯ ⋯ ∫ a b a 1 n ( x ) d x ∫ a b a 2 n ( x ) d x ⋯ ∫ a b a mn ( x ) d x .
积分的运算性质:
∫ a b k A ( x ) d x = k ∫ a b A ( x ) d x ,k ∈ R .
∫ a b [ A ( x ) + B ( x )] d x = ∫ a b A ( x ) d x + ∫ a b B ( x ) d x .
函数向量的线性相关性 :设有定义在区间[ a , b ] 上的m 个连续的函数向量α i ( x ) = ( a i 1 ( x ) , a i 2 ( x ) , ⋯ , a in ( x )) ,i = 1 , 2 , ⋯ , m ,如果存在一组不全为零的常实数k 1 , k 2 , ⋯ , k m 使得对所有x ∈ [ a , b ] 都有k 1 α 1 ( x ) + k 2 α 2 ( x ) + ⋯ + k m α m ( x ) = 0 ,我们称[ a , b ] 上α 1 ( x ) , α 2 ( x ) , ⋯ , α m ( x ) 线性相关。(如果只有当k 1 = k 2 = ⋯ = k m = 0 时等式才成立,那么就说α 1 ( x ) , α 2 ( x ) , ⋯ , α m ( x ) 线性无关)
Gram矩阵 :设α 1 ( x ) , α 2 ( x ) , ⋯ , α m ( x ) 是m 个定义在区间[ a , b ] 上的连续函数向量,α i ( x ) = ( a i 1 ( x ) , a i 2 ( x ) , ⋯ , a in ( x )) (i = 1 , 2 , ⋯ , m ),记g ij = ∫ a b α i ( x ) α j T ( x ) d x (i , j = 1 , 2 , ⋯ , m ),以g ij 为元素的常数矩阵G = ( g ij ) m × m 称为α 1 ( x ) , α 2 ( x ) , ⋯ , α m ( x ) 的Gram矩阵,det G 称为Gram行列式。
函数向量线性无关的充要条件 :定义在区间[ a , b ] 上的连续多项式向量α 1 ( x ) , α 2 ( x ) , ⋯ , α m ( x ) 线性无关的充要条件是它的Gram矩阵为满秩矩阵。
例:α 1 ( x ) = ( 0 , x ) ,α 2 ( x ) = ( x , 0 ) ,问α 1 ( x ) 和α 2 ( x ) 线性相关性
解:g 11 = ∫ a b x 2 d x = 3 1 ( b 3 − a 3 ) ,g 12 = g 21 = 0 ,g 22 = ∫ a b x 2 d x = 3 1 ( b 3 − a 3 ) ,G = [ 3 1 ( b 3 − a 3 ) 0 0 3 1 ( b 3 − a 3 ) ] ,det G = 9 1 ( b 3 − a 3 ) 2 ,故当a = b 时,α 1 ( x ) 与α 2 ( x ) 在[ a , b ] 上是线性无关的。
Wronski矩阵 :设α i ( x ) = ( a i 1 ( x ) , a i 2 ( x ) , ⋯ , a in ( x )) (i = 1 , 2 , ⋯ , m )是m 个定义在区间[ a , b ] 上的有m − 1 阶导数的函数向量,记A ( x ) = α 1 ( x ) α 2 ( x ) ⋮ α m ( x ) = a 11 ( x ) a 21 ( x ) ⋯ a m 1 ( x ) a 12 ( x ) a 22 ( x ) ⋯ a m 2 ( x ) ⋯ ⋯ ⋯ ⋯ a 1 n ( x ) a 2 n ( x ) ⋯ a mn ( x ) ,那么矩阵W ( x ) = ( A ( x ) , A ′ ( x ) , ⋯ , A ( m − 1 ) ( x ) ) m × n = a 11 ( x ) a 21 ( x ) ⋯ a m 1 ( x ) a 12 ( x ) a 22 ( x ) ⋯ a m 2 ( x ) ⋯ ⋯ ⋯ ⋯ a 1 n ( x ) a 2 n ( x ) ⋯ a mn ( x ) ⋯ ⋯ ⋯ ⋯ a 11 ( m − 1 ) ( x ) a 21 ( m − 1 ) ( x ) ⋯ a m 1 ( m − 1 ) ( x ) a 12 ( m − 1 ) ( x ) a 22 ( m − 1 ) ( x ) ⋯ a m 2 ( m − 1 ) ( x ) ⋯ ⋯ ⋯ ⋯ a 1 n ( m − 1 ) ( x ) a 2 n ( m − 1 ) ( x ) a mn ( m − 1 ) ( x )
是一个m × mn 阶的矩阵,我们把W ( x ) 称为α 1 ( x ) , α 2 ( x ) , ⋯ , α m ( x ) 的Wronski矩阵。
函数向量线性无关的充分不必要条件 :设W ( x ) 是α 1 ( x ) , α 2 ( x ) , ⋯ , α m ( x ) 的Wronski矩阵,如果在区间[ a , b ] 上的某个点x 0 ∈ [ a , b ] ,常数矩阵W ( x 0 ) 的秩等于m ,则向量α 1 ( x ) , α 2 ( x ) , ⋯ , α m ( x ) 在[ a , b ] 上线性无关。
例:设α 1 ( x ) = ( 1 , x , x 2 ) ,α 2 ( x ) = ( e x , 1 , x ) ,问α 1 ( x ) 和α 2 ( x ) 线性相关性
解:A ( x ) = [ 1 e x x 1 x 2 x ] ,A ′ ( x ) = [ 0 e x 1 0 2 x 1 ] ,W ( x ) = [ 1 e x x 1 x 2 x 0 e x 1 0 2 x 1 ] ,因为W ( x ) 的秩为2,所以α 1 ( x ) 与α 2 ( x ) 是线性无关的。
2. 矩阵微分方程
形如⎩ ⎨ ⎧ d t d x 1 = a 11 ( t ) x 1 ( t ) + a 12 ( t ) x 2 ( t ) + ⋯ + a 1 n ( t ) x n ( t ) + f 1 ( t ) d t d x 2 = a 21 ( t ) x 1 ( t ) + a 22 ( t ) x 2 ( t ) + ⋯ + a 2 n ( t ) x n ( t ) + f 2 ( t ) ⋮ d t d x n = a n 1 ( t ) x 1 ( t ) + a n 2 ( t ) x 2 ( t ) + ⋯ + a nn ( t ) x n ( t ) + f n ( t ) 的线性微分方程组可以表示成如下形式:d t d x ( t ) = A ( t ) x ( t ) + f ( t ) ,其中A ( t ) = a 11 ( t ) a 21 ( t ) ⋯ a m 1 ( t ) a 12 ( t ) a 22 ( t ) ⋯ a m 2 ( t ) ⋯ ⋯ ⋯ ⋯ a 1 n ( t ) a 2 n ( t ) ⋯ a mn ( t ) ,x ( t ) = x 1 ( t ) x 2 ( t ) ⋮ x n ( t ) ,f ( t ) = f 1 ( t ) f 2 ( t ) ⋮ f n ( t ) ,它们的初始条件⎩ ⎨ ⎧ x 1 ( t 0 ) = x 10 x 2 ( t 0 ) = x 20 ⋮ x n ( t 0 ) = x n 0 可以表示成x ( t 0 ) = x 10 x 20 ⋮ x n 0 。
齐次微分方程组的解 :设A 是一个n 阶常数矩阵,则微分方程d t d x ( t ) = A x ( t ) 满足初始条件x ( t 0 ) = x 0 的解为x ( t ) = e A ( t − t 0 ) x 0 .
非齐次微分方程组的解 :设A 是一个n 阶常数矩阵,则微分方程d t d x ( t ) = A x ( t ) + f ( t ) 满足初始条件x ( t 0 ) = x 0 的解为x ( t ) = e A ( t − t 0 ) x 0 + ∫ t 0 t e A ( t − τ ) f ( τ ) d τ .
证明:d t d ( e − A t x ( t )) = − A e − A t x ( t ) + e − A t d t d x ( t ) = e − A t ( d t d x ( t ) − A x ( t )) = e − A t f ( t ) ,两边同时积分得e − A t x ( t ) − e − A t 0 x ( t 0 ) = ∫ t 0 t e − A τ f ( τ ) d τ ,整理得x ( t ) = e A ( t − t 0 ) x ( t 0 ) + ∫ t 0 t e A ( t − τ ) f ( τ ) d τ .
非齐次微分方程组的解 2:设A 、B 都是n 阶常数矩阵,f ( t ) 是一个连续的多项式向量,那么线性非齐次初值问题d t d x ( t ) = A x ( t ) + B f ( t ) ,x ( t 0 ) = x 0 的解可以由如下公式给出:x = e A ( t − t 0 ) x 0 + ∫ t 0 t e A ( t − τ ) B f ( τ ) d τ .(Variation
of Parameter Formula)
渐进稳定 :设A 是一个n 阶常数矩阵,如果对任意的t 0 和x 0 ,初值问题{ d t d x ( t ) = A x ( t ) x ( t 0 ) = x 0 的解x ( t ) 满足条件t → ∞ lim x ( t ) = 0 ,那么称微分方程组d t d x ( t ) = A x ( t ) 的解是渐进稳定的。
渐进稳定的充要条件 :对任意的t 0 和x 0 ,初值问题{ d t d x ( t ) = A x ( t ) x ( t 0 ) = x 0 的解x ( t ) 渐进稳定的充要条件是矩阵A 的特征值都有负实部。
例1:设A = 1 − 1 − 1 − 2 0 − 1 6 3 4 ,求微分方程组d t d x ( t ) = A x ( t ) 满足初始条件x ( 0 ) = 1 1 1 的解
解:首先算出矩阵函数e A t = ( 1 − 2 t ) e t − t e t − t e t − 2 t e t ( 1 − t ) e t − t e t 6 t e t 3 t e t ( 1 + 3 t ) e t ,由前面定理知,解为x ( t ) = e A ( t − t 0 ) x 0 = e A t x ( 0 ) = ( 1 + 2 t ) e t ( 1 + t ) e t ( 1 + t ) e t .
例2:设A = 1 − 1 − 1 − 2 0 − 1 6 3 4 ,f ( t ) = − e t 0 e t ,求微分方程组d t d x ( t ) = A x ( t ) + f ( t ) 满足初始条件x ( 0 ) = 1 1 1 的解
解:由前面定理知,解为x ( t ) = e A ( t − t 0 ) x 0 + ∫ t 0 t e A ( t − τ ) f ( τ ) d τ ,其中t 0 = 0 ,前面例1已经算出e A t x ( 0 ) = ( 1 + 2 t ) e t ( 1 + t ) e t ( 1 + t ) e t ,而e A ( t − τ ) = ( 1 − 2 t + 2 τ ) e t − τ − ( t − τ ) e t − τ − ( t − τ ) e t − τ − 2 ( t − τ ) e t − τ ( 1 − t + τ ) e t − τ − ( t − τ ) e t − τ 6 ( t − τ ) e t − τ 3 ( t − τ ) e t − τ ( 1 + 3 t − 3 τ ) e t − τ ,所以e A ( t − τ ) f ( τ ) = e t − 1 + 8 ( t − τ ) 4 ( t − τ ) 1 + 4 ( t − τ ) ,∫ 0 t e A ( t − τ ) f ( τ ) d τ = e t 4 t 2 − t 2 t 2 2 t 2 + t ,所以x ( t ) = ( 1 + t + 4 t 2 ) e t ( 1 + t + 2 t 2 ) e t ( 1 + 2 t + 2 t 2 ) e t .
八、矩阵的广义逆
1. 广义逆
定理:设A 是数域F 上的一个s × n 矩阵,则矩阵方程A X A = A 总是有解,如果rank ( A ) = r ,并且存在可逆矩阵P 、Q 使得A = P [ E r 0 0 0 ] Q ,则前述矩阵方程的通解为X = Q − 1 [ E r C B D ] P − 1 ,其中B 、C 、D 分别为任意r × ( s − r ) 、( n − r ) × r 、( n − r ) × ( s − r ) 矩阵。
证明:把解代入方程得A X A = P [ E r 0 0 0 ] Q Q − 1 [ E r C B D ] P − 1 P [ E r 0 0 0 ] Q = A ,并且因此B 、C 、D 可以任取。
另一方面,任取方程的一个解G ,由于A G A = A ,即P [ E r 0 0 0 ] QGP [ E r 0 0 0 ] Q = P [ E r 0 0 0 ] Q ,因为P 、Q 可逆,于是[ E r 0 0 0 ] QGP [ E r 0 0 0 ] = [ E r 0 0 0 ] ,设QGP = [ H C B D ] ,代入得[ E r 0 0 0 ] [ H C B D ] [ E r 0 0 0 ] = [ E r 0 0 0 ] ,即[ H 0 0 0 ] = [ E r 0 0 0 ] ,由此得出H = E r ,从而G = Q − 1 [ E r C B D ] P − 1 .
广义逆 :设A 是一个s × n 矩阵,矩阵方程A X A = A 的通解称为A 的广义逆矩阵,简称A 的广义逆,记作A − .(广义逆一般有无穷多个)
特别地,如果A 可逆,那么A − 1 也是A X A = A 的解,并且此时A − 是唯一的。
例:已知A = 0 2 − 4 − 1 − 4 5 3 1 7 0 5 − 10 ,求A −
解:由于广义逆要用到化为Simth标准型的行、列变换矩阵P 、Q ,所以要对[ A E 4 E 3 0 ] 作初等变换,得到[ E r Q P 0 ] = 1 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 2 11 3 1 0 0 0 0 − 2 5 0 0 1 − 2 − 1 − 3 0 0 0 0 2 1 0 2 0 0 0 0 0 0 1 0 0 0 0 ,注意这里的P 、Q 和定理中的不一样,这里是P A Q = [ E 2 0 0 0 ] ,此时广义逆M = Q [ E 2 Y X Z ] P ,其中X ∈ C 2 × 1 、Y ∈ C 2 × 2 、Z ∈ C 2 × 1 ,其取值任意。
广义逆的另一种表达式 :任给A ,有奇异值分解A = U [ Δ 0 0 0 ] V H ,则方程A X A = A 变为U [ Δ 0 0 0 ] V H X U [ Δ 0 0 0 ] V H = U [ Δ 0 0 0 ] V H ,所以通解为X = V [ Δ − 1 C B D ] U H ,其中B 、C 、D 任取。
广义逆的性质 :
rank ( A ) ≤ rank ( A − ) .
A − A 与A A − 是幂等矩阵,且rank ( A ) = rank ( A − A ) = rank ( A A − ) .
( A T ) − = ( A − ) T ,( A H ) − = ( A − ) H .
若A ∈ C n n × n ,则A − = A − 1 ,且A − 唯一.
( k A ) − = k 1 A − ,其中k = 0 .
设S ∈ C m m × m 、T ∈ C n n × n ,且B = S A T ,则B − = ( S A T ) − = T − 1 A − S − 1 .
性质1的证明:rank ( A ) = rank ( A A − A ) ≤ rank ( A A − ) ≤ rank ( A − ) .
性质2的证明:( A − A ) 2 = A − ( A A − A ) = A − A ,( A A − ) 2 = ( A A − A ) A − = A A − ,rank ( A ) = rank ( A A − A ) ≤ rank ( A A − ) ≤ rank ( A ) .
性质6的证明:S A T 的广义逆是方程( S A T ) X ( S A T ) = S A T 的解X ,由于S 、T 可逆,A TXS A = A ,把TXS 看作一个整体,则TXS 是A 的广义逆,即A − = TXS ,这时X = T − 1 A − S − 1 .
左逆 :设A ∈ C m × n ,若存在矩阵A L − 1 ∈ C n × m ,使得A L − 1 A = E n ,则称A L − 1 是A 的左逆。
右逆 :设A ∈ C m × n ,若存在矩阵A R − 1 ∈ C n × m ,使得A A R − 1 = E m ,则称A R − 1 是A 的右逆。
注:若A 有左逆,则A 列满秩;若A 有右逆,则A 行满秩。(反过来也成立)
如果m = n 并且A 满秩,则A − 1 = A L − 1 = A R − 1 。
左、右逆(如果存在)其实就是A 的广义逆 。
推论(设A ∈ C m × n ):
A ∈ C n m × n (即A 列满秩)的充要条件是A − A = E n .
A ∈ C m m × n (即A 行满秩)的充要条件是A A − = E m .
充分性显然,下面证必要性:由于rank ( A ) = rank ( A − A ) = n ,而A − A 是n × n 的,这就意味着A − A 是可逆的,因此E n = A − A ( A − A ) − 1 = ( A − A ) ( A − A ) ( A − A ) − 1 ( A − A ) − 1 = A − A ( A − A ) − 1 ( A − A ) − 1 = ( A − A ) − 1 .(定理2的证明同理)
命题,有两个特殊的左、右逆:
如果A ∈ C n m × n ,则( A H A ) − 1 A H 是A L − 1 的一个。
如果A ∈ C m m × n ,则A H ( A A H ) − 1 是A R − 1 的一个。
自反广义逆 :设A ∈ C m × n ,使A A − A = A 、A − A A − = A 成立的A − ∈ C n × m 称为A 的自反广义逆,记作A r − .
自反广义逆的充要条件 :设A − ∈ C n × m 是A ∈ C m × n 的广义逆,则A − 是A 的自反广义逆的充要条件是rank ( A ) = rank ( A − ) .
自反广义逆的求法(1) :设X , Y ∈ C n × m 都是A ∈ C m × n 的广义逆矩阵,则Z = X A Y 是A 的自反广义逆矩阵。
证明:A Z A = A ( X A Y ) A = A Y A = A ,Z A Z = ( X A Y ) A ( X A Y ) = X A X A Y = X A Y = Z .
自反广义逆的求法(2) :如果A ∈ C r m × n 有奇异值分解A = U [ Δ 0 0 0 ] V H ,其中U 、V 为酉矩阵,则A 的自反广义逆的一般解为X = V [ Δ − 1 D B D Δ B ] U H ,其中B ∈ C r × ( m − r ) 、D ∈ C ( n − r ) × r 为任意矩阵。
2. 伪逆矩阵
伪逆矩阵 :设A ∈ C m × n ,若A + ∈ C n × m ,且A + 同时满足:
A A + A = A .
A + A A + = A + .
( A A + ) H = A A + .
( A + A ) H = A + A .
则称A + 是A 的伪逆矩阵。(上述条件称为Penrose-Moore方程 )
比如:设A = [ B 0 0 0 ] ,其中B 是可逆矩阵,则A + = [ B − 1 0 0 0 ] .
定理:A 的伪逆矩阵A + 是唯一 的。
证明:设X 、Y 都是A 的伪逆矩阵,则X = X A X = X ( A Y A ) X = X ( A Y ) H ( A X ) H = X ( A X A Y ) H = X ( A Y ) H = X A Y = X A Y A Y = ( X A ) H ( Y A ) H Y = ( Y A X A ) H Y = ( Y A ) H Y = Y A Y = Y .
推论:若A ∈ C n n × n ,则A + = A − 1 .
一般来说,( A B ) + = B + A + ,比如A = [ 0 1 ] 、B = [ 1 1 ] ,则( A B ) + = 1 + = 1 ,而B + A + = [ 2 1 2 1 ] [ 0 1 ] = 2 1 。
伪逆矩阵的求法(1) :设A ∈ C m × n ,A = BC 是A 的一个满秩分解,则X = C H ( C C H ) − 1 ( B H B ) − 1 B H 是A 的伪逆矩阵.
伪逆矩阵的求法(2) :如果A ∈ C r m × n 有奇异值分解A = U [ Δ 0 0 0 ] V H ,U 、V 为酉矩阵,则A 的伪逆矩阵为A + = V [ Δ − 1 0 0 0 ] U H .
例:设A = [ − 1 2 0 0 1 − 2 ] ,求A +
解:利用满秩分解得A = BC = [ − 1 2 ] [ 1 0 − 1 ] ,从而A + = C H ( C C H ) − 1 ( B H B ) − 1 B H = 1 0 − 1 [ 1 0 − 1 ] 1 0 − 1 − 1 ( [ − 1 2 ] [ − 1 2 ] ) − 1 [ − 1 2 ] = 10 1 − 1 0 1 2 0 − 2 .
推论:
若A ∈ C r m × r ,则A + = ( A H A ) − 1 A H ,此时A + A = E r .
若A ∈ C r r × m ,则A + = A H ( A A H ) − 1 ,此时A A + = E r .
比如假设A 的满秩分解为A = E A ,代入X = C H ( C C H ) − 1 ( B H B ) − 1 B H 中即可得到。
伪逆矩阵的性质 :
( A + ) + = A ,( A H ) + = ( A + ) H .
( A A H ) + = ( A H ) + A + = ( A + ) H A + ,( A H A ) + = A + ( A H ) + = A + ( A + ) H .
A + = A H ( A A H ) + = ( A H A ) + A H .
前两条性质只需验证满足Penrose-Moore方程即可,下面证明第3条性质:A + = A + A A + = ( A + A ) H A + = A H ( A + ) H A + = A H ( A A H ) + ,A + = A + A A + = A + ( A A + ) H = A + ( A + ) H A H = ( A H A ) + A H .
例:设A ∈ C m × n ,P 、Q 分别为m 阶与n 阶的酉矩阵,证明( P A Q ) + = Q H A + P H = Q + A + P + .
证:由于P 、Q 是酉矩阵可逆,所以P + = P − 1 ,Q + = Q − 1 ,代入Penrose-Moore方程验证满足四个条件即可。
3. 广义逆与线性方程组
非齐次线性方程A X = β 有解的充要条件 :设A ∈ C m × n ,β ∈ C m ,非齐次线性方程组A X = β 有解的充要条件是存在A 的广义逆矩阵A − 使得β = A A − β .
必要性:设有解且解为X = α ,那么A α = β ,所以β = A α = A A − A α = A A − β .
充分性:设β = A A − β ,取α = A − β ,则A α = A ( A − β ) = β .
注:如果存在A 的一个广义逆A − 使得β = A A − β ,那么对A 的任意一个广义逆Y ,都满足β = A Y β .
证明:A Y β = A Y ( A A − β ) = ( A A − β ) = β .
非齐次线性方程A X = β 的解 :设非齐次线性方程组A X = β 有解,则它的解为X = A − β ,其中A − 是A 的任意一个广义逆。
矩阵方程A XB = D 有解的充要条件 :设A ∈ C m × n 、B ∈ C s × t 、D ∈ C m × t ,则矩阵方程A XB = D 有解的充要条件是存在A 与B 的广义逆A − 和B − ,使得A A − D B − B = D 成立。
必要性:设方程有解,X 为一个解,则A XB = D ,任取A 、B 的广义逆A − 、B − ,满足D = A XB = ( A A − A ) X ( B B − B ) = A A − D B − B .
充分性:设存在A 、B 的广义逆A − 、B − ,满足A A − D B − B = D ,显然A − D B − 是方程A XB = D 的一个解。
矩阵方程A XB = D 的解 :设A ∈ C m × n 、B ∈ C s × t 、D ∈ C m × t ,在矩阵方程A XB = D 有解的情况下,方程的通解为X = A − D B − + Y − A − A Y B B − ,其中A − 、B − 是A 、B 的任意给定广义逆,Y 是任意n × s 矩阵。
证明:直接代入即可,A XB = A ( A − D B − + Y − A − A Y B B − ) B = A A − D B − B + A Y B − A A − A Y B B − B = D + A Y B − A Y B = D .
证明:直接代入即可,A XB = A ( A − D B − + Y − A − A Y B B − ) B = A A − D B − B + A Y B − A A − A Y B B − B = D + A Y B − A Y B = D .
另一方面,任取方程一解G ,则A GB = D ,G = A − D B + G − A − D B = A − D B + G − A − A GB B − .
推论1 :设A ∈ C m × n 、D ∈ C m × s ,则矩阵方程A X = D 有解的充要条件是存在A 的广义逆A − 使得A A − D = D 成立,此时矩阵方程的通解为X = A − D + Y − A − A Y ,其中A − 是A 任意给定广义逆,Y 是任意n × s 矩阵.(证明:令前面B = E 即可)
推论2 :设A ∈ C m × n 、b ∈ C m ,则非齐次线性方程组A X = b 在有解的情况下,方程组的通解为X = A − b + Y − A − A Y = A − b + ( E n − A − A ) Y ,其中Y ∈ C n 任意,A − 是任意给定的A 的广义逆。
推论2解的形式类似”特解+齐次方程A X = 0 的解乘任意常数”的形式,其中( E n − A − A ) 是A X = 0 的解(A ( E n − A − A ) = A − A A − A = 0 ),而乘以Y 是指让它的基础解系自由组合。
4. 最小二乘问题
线性最小二乘问题:设A ∈ C m × n 、b ∈ C m ,线性最小二乘问题 包含求解下面集合:S = { y ∈ C n : ∣∣ A y − b ∣ ∣ 2 = x ∈ C n min ∣∣ A x − b ∣ ∣ 2 } 。显然该问题与非齐次线性方程组A x = b 密切相关,当方程有解时,我们称方程是相容 的,否则称它是不相容 的。称相容方程组A x = b 的所有解中模(2-范数)最小的解是A x = b 的最小模解 。当A x = b 无解时,如果x 0 ∈ C n 满足对任意x ∈ C n 都有∣∣ A x 0 − b ∣ ∣ 2 ≤ ∣∣ A x = b ∣ ∣ 2 ,则称x 0 是方程组A x = b 的一个最小二乘解 。
范数最小值是0,但是当它取不到0时(找不到最小模解时),仍然可以找到一个最小值(对应的x 叫最小二乘解)。
定理 :下面命题是等价的(设A ∈ C m × n 、b ∈ C m )
A x = b 是相容的.
rank ( A ) = rank ( [ A b ] ) .
b ∈ R ( A ) ,即b 可以由A 的列向量组线性表示.
b = A A − b ,其中A − 是A 的任意广义逆.
定理 :设A ∈ C m × n 、b ∈ C m ,对于相容方程组A x = b ,有如下结论:
当rank ( A ) = n 时,方程组有唯一解A + b .(因为A x = b ⟶ A H A x = A H b ⟶ x = ( A H A ) − 1 A H b = A + b )
当rank ( A ) < n 时,方程组解不唯一,通解为x = A − b + Y − A − A Y = A − b + ( E n − A − A ) Y ,其中Y ∈ C n 任意.
最小模解的形式 :对于相容线性方程组A x = b ,它的最小模解是x = A + b .
证明:当rank ( A ) = n 时解唯一,则一定是最小模解,只需证明rank ( A ) < n 的时候x = A + b 是最小模解即可。
方程的通解为x = A − b + ( E n − A − A ) Y ,可以取定广义逆为伪逆,即通解通解表示成x = A + b + ( E n − A + A ) Y ,∣∣ x ∣ ∣ 2 2 = ∣∣ A + b ∣ ∣ 2 2 + ∣∣ ( E n − A + A ) Y ∣ ∣ 2 2 + Y H ( E n − A + A ) A + b + ( A + b ) H ( E n − A + A ) Y = ∣∣ A + b ∣ ∣ 2 2 + ∣∣ ( E n − A + A ) Y ∣ ∣ 2 2
(因为对于Y H ( E n − A + A ) A + b = Y H ( A + − A + A A + ) b = 0 ,对于( A + b ) H ( E n − A + A ) Y = [( E n − A + A ) ( A + b ) ] H Y = 0 )
由于Y 可以任取,我们可以取Y = 0 ,那么∣∣ x ∣ ∣ 2 2 的最小值就是∣∣ A + b ∣ ∣ 2 2 .
最小二乘解的讨论 :对于不相容线性方程组A x = b ,它的最小值为x ∈ C n min ∣∣ A x − b ∣ ∣ 2 = ∣∣ A A + b − b ∣ ∣ 2 ,此时对应的最小二乘解是相容方程组A x = A A + b 的解。
证明:
∣∣ A x − b ∣ ∣ 2 2 = ∣∣ ( A x − A A + b ) + ( A A + b − b ) ∣ ∣ 2 2 = ∣∣ A A + b − b ∣ ∣ 2 2 + ∣∣ A x − A A + b ∣ ∣ 2 2 + ( A A + b − b ) H ( A x − A A + b ) + ( A x − A A + b ) H ( A A + b − b ) = ∣∣ A A + b − b ∣ ∣ 2 2 + ∣∣ A x − A A + b ∣ ∣ 2 2 ≥ ∣∣ A A + b − b ∣ ∣ 2 2
(其中( A A + b − b ) H ( A x − A A + b ) = b H ( A A + − E ) A ( x − A + b ) = 0 ,( A x − A A + b ) H ( A A + b − b ) = ( A x − A A + b ) H [ b ( A A + − E ) ] H = [ b ( A A + − E ) A ( x − A + b ) ] H = 0 ,并且当x = A + b 时,A x = A A + b ,即∣∣ A x − A A + b ∣ ∣ 2 2 最小值是零)
这样就把求解最小二乘解的问题转化为求解相容方程A x = A A + b 的解的问题。
定理 :设A ∈ C m × n 、b ∈ C m ,对于不相容方程组A x = b ,有如下结论:
当rank ( A ) = n 时,A x = b 有唯一最小二乘解A + b .(因为此时A x = A A + b 有唯一解A + b )
当rank ( A ) < n 时,A x = b 的最小二乘解不唯一,通解为x = A + ( A A + b ) + ( E n − A + A ) Y = A + b + ( E n − A + A ) Y ,其中Y ∈ C n 任意。如果对于任意一个最小二乘解x 0 ,都有不等式∣∣ u ∣ ∣ 2 ≤ ∣∣ x 0 ∣ ∣ 2 ,则称u 是最佳最小二乘解 。
最小二乘解的形式 :x ∗ = A + b 是不相容线性方程组A x = b 的唯一最佳最小二乘解。
证明:当rank ( A ) = n 时最小二乘解唯一,只需证明rank ( A ) < n 的时候x ∗ = A + b 是最佳最小二乘解即可。
∣∣ x ∣ ∣ 2 2 = ∣∣ A + b + ( E n − A + A ) Y ∣ ∣ 2 2 = ∣∣ A + b ∣ ∣ 2 + ∣∣ ( E n − A + A ) Y ∣ ∣ 2 2 ,其中交叉项等于0 ,自行证明。
例1:已知矩阵A = 1 0 2 2 0 4 0 2 0 ,b = 1 1 3 ,求A x = b 的最小二乘解及最佳最小二乘解,并求x ∈ C 3 min ∣∣ b − A x ∣ ∣ 2 .
解:由于rank ( A ) = 2 、rank ( [ A b ] ) = 3 ,所以A x = b 无解,利用A 的满秩分解方法求得A + = 50 1 2 4 0 0 0 25 4 8 0 ,故最小二乘解x = A + b + ( E n − A + A ) Y = 50 1 14 28 25 + 5 4 − 5 2 0 − 5 2 5 1 0 0 0 0 y 1 y 2 y 3 = 50 1 14 28 25 + k − 2 1 0 (∀ k ∈ C ,其中 − 2 1 0 是A x = 0 的基础解系,即解为A x = A A + b 的特解+A x = 0 的通解的形式),最佳最小二乘解x ∗ = A + b = 50 1 14 28 25 ,x ∈ C 3 min ∣∣ b − A x ∣ ∣ 2 = ∣∣ b − A A + b ∣ ∣ 2 = 5 1 .
例2:已知一组数据
t i
-2
1
3
5
y i
-1
4
7
12
假设它们近似满足线性关系y i = a t i + b + δ i ,i = 1 , 2 , 3 , 4 ,求a 、b 使得误差的平方和δ 1 2 + δ 2 2 + δ 3 2 + δ 4 2 最小
解:设A = − 2 1 3 5 1 1 1 1 、y = − 1 4 7 12 、δ = δ 1 δ 2 δ 3 δ 4 、x = [ a b ] ,要使误差最小,就是min δ T δ = x min ∣∣ y − A x ∣ ∣ 2 2 ,即求A x = y 的最小二乘解,因为A 列满秩,所以有唯一最小二乘解x = A + y = ( A T A ) − 1 A T y = 107 1 [ 194 249 ] ≈ [ 1.813 2.327 ] .
九、Kronecker积
1. Kronecker积
定义:设A = ( a ij ) m × n 、B = ( b ij ) p × q ,则称由 a 11 B a 21 B ⋮ a m 1 B a 12 B a 22 B ⋮ a m 2 B ⋯ ⋯ ⋯ a 1 n B a 2 n B ⋮ a mn B 所确定的m p × n q 矩阵是A 与B 的Kronecker积 ,或A 与B 的直积 A ⊗ B .
比如:X = ( x 1 , x 2 , x 3 ) T ,Y = ( y 1 , y 2 ) T ,则X ⊗ Y = ( x 1 y 1 , x 1 y 2 , x 2 y 1 , x 2 y 2 , x 3 y 1 , x 3 y 2 ) T ,而Y ⊗ X = ( y 1 x 1 , y 1 x 2 , y 1 x 3 , y 2 x 1 , y 2 x 2 , y 2 x 3 ) T 。Kronecker积一般不满足交换律,即一般情况下X ⊗ Y = Y ⊗ X .
如果X , Y ∈ C n 是列向量,则X Y T = X ⊗ Y T .
Kronecker积的运算性质 :
k ( A ⊗ B ) = ( k A ) ⊗ B = A ⊗ ( k B ) ,∀ k ∈ C .
A ⊗ ( B + C ) = A ⊗ B + A ⊗ C ,( B + C ) ⊗ A = B ⊗ A + C ⊗ A .
( A + B ) ⊗ ( C + D ) = A ⊗ C + A ⊗ D + B ⊗ C + B ⊗ D .
A ⊗ ( B ⊗ C ) = ( A ⊗ B ) ⊗ C .
E m ⊗ E n = E n ⊗ E m = E mn .
定理 :设A = ( a ij ) m × n 、B = ( b ij ) l × r 、C = ( c ij ) n × p 、D = ( d ij ) r × s ,则( A ⊗ B ) ( C ⊗ D ) = A C ⊗ B D .
推论:若A = ( a ij ) m × m 、B = ( b ij ) n × n ,则A ⊗ B = ( A ⊗ E n ) ( E m ⊗ B ) = ( E m ⊗ B ) ( A ⊗ E n ) .
定理 :设A = ( a ij ) m × n 、B = ( b ij ) p × q ,则
( A ⊗ B ) T = A T ⊗ B T .
( A ⊗ B ) H = A H ⊗ B H .
( A ⊗ B ) + = A + ⊗ B + .
从第3条可知,如果A 、B 分别是m 阶、n 阶可逆矩阵,则A ⊗ B 也是可逆矩阵,且( A ⊗ B ) − 1 = A − 1 ⊗ B − 1 。它的证明比伪逆时的证明简单:∵ ( A ⊗ B ) ( A − 1 ⊗ B − 1 ) = ( A A − 1 ) ⊗ ( B B − 1 ) = E m ⊗ E n = E mn ,∴ ( A ⊗ B ) − 1 = A − 1 ⊗ B − 1 .
定理 :若A = ( a ij ) m × m 、B = ( b ij ) n × n ,则tr ( A ⊗ B ) = tr ( A ) ⋅ tr ( B ) .
证明:tr ( A ⊗ B ) = a 11 ⋅ tr ( B ) + a 22 ⋅ tr ( B ) + ⋯ + a mm ⋅ tr ( B ) = tr ( A ) ⋅ tr ( B ) .
定理 :设A = ( a ij ) m × n 、B = ( b ij ) p × q ,则rank ( A ⊗ B ) = rank ( A ) ⋅ rank ( B ) .
证明:设rank ( A ) = r 、rank ( B ) = s ,则存在可逆矩阵M 、N 、P 、Q ,使得M A N = [ E r 0 0 0 ] = Δ A 1 、PBQ = [ E s 0 0 0 ] = Δ B 1 (其中M 、P 为初等行变换矩阵,N 、Q 为初等列变换矩阵),所以A ⊗ B = ( M − 1 A 1 N − 1 ) ⊗ ( P − 1 B 1 Q − 1 ) = ( M − 1 ⊗ P − 1 ) ( A 1 ⊗ B 1 ) ( N − 1 ⊗ Q − 1 ) = ( M ⊗ P ) − 1 ( A 1 ⊗ B 1 ) ( N ⊗ Q ) − 1 ,∴ rank ( A ⊗ B ) = rank ( A 1 ⊗ B 1 ) = rank ( A ) ⋅ rank ( B ) .
定理 :若A = ( a ij ) m × m 、B = ( b ij ) n × n ,则∣ A ⊗ B ∣ = ∣ A ∣ n ∣ B ∣ m .
证明:假设A 、B 的Jordan标准型分别为J 1 、J 2 ,即P − 1 A P = J 1 、Q − 1 BQ = J 2 ,那么A ⊗ B = ( P J 1 P − 1 ) ⊗ ( Q J 2 Q − 1 ) = ( P ⊗ Q ) ( J 1 ⊗ J 2 ) ( P − 1 ⊗ Q − 1 ) = ( P ⊗ Q ) ( J 1 ⊗ J 2 ) ( P ⊗ Q ) − 1 ,也就是说( A ⊗ B ) 相似于( J 1 ⊗ J 2 ) ,它们行列式的值相等,设A 、B 的特征值分别为{ λ i , i = 1 , 2 , ⋯ , m } 、{ μ j , j = 1 , 2 , ⋯ , n } ,则∣ A ⊗ B ∣ = ∣ J 1 ⊗ J 2 ∣ = ∏ j = 1 n ( λ 1 μ j ) ⋅ ∏ j = 1 n ( λ 2 μ j ) ⋯ ∏ j = 1 n ( λ m μ j ) = ( λ 1 n λ 2 n ⋯ λ m n ) ( ∏ j = 1 n μ j ) m = ∣ A ∣ n ∣ B ∣ m (两个上三角矩阵的Kronecker积还是上三角矩阵,其行列式的值等于对角线上元素相乘;并且行列式的值等于特征值相乘)
2. Kronecker积的特征值
定理:设x 1 , x 2 , ⋯ , x n 是n 个线性无关的m 维列向量,y 1 , y 2 , ⋯ , y q 是q 个线性无关的p 维列向量,则n q 个m p 维列向量x i ⊗ y j (i = 1 , 2 , ⋯ , n 、j = 1 , 2 , ⋯ , q )线性无关。反之,若n q 个m p 维列向量x i ⊗ y j 线性无关,则x 1 , x 2 , ⋯ , x n 和y 1 , y 2 , ⋯ , y q 均线性无关。
定理(特征值) :设λ 1 , λ 2 , ⋯ , λ m 是m 阶矩阵A 的特征值,μ 1 , μ 2 , ⋯ , μ n 是n 阶矩阵B 的特征值,那么mn 阶矩阵f ( A , B ) = ∑ i , j = 0 l c ij A i ⊗ B j 的特征值为f ( λ r , μ s ) (其中r = 1 , 2 , ⋯ , m 、s = , 1 , 2 , ⋯ , n ,c ij ∈ C )
考虑由变量x , y 组成的复系数多项式f ( x , y ) = ∑ i , j = 0 l c ij x i y j ;若A 为m 阶矩阵,B 为n 阶矩阵,考虑由下式确定的矩阵f ( A , B ) = ∑ i , j = 0 l c ij A i ⊗ B j .
比如:设f ( x , y ) = 2 x + x y 3 ,则f ( A , B ) = 2 A ⊗ E + A ⊗ B 3 ,
证明:设A 、B 的Jordan标准型分别为J A 、J B ,即P − 1 A P = J A 、Q − 1 BQ = J B ,并且假设J A 、J b 对角线上的元素分别为λ 1 , λ 2 , ⋯ , λ m 、μ 1 , μ 2 , ⋯ , μ n ,那么f ( A , B ) = ( P ⊗ Q ) f ( J A , J B ) ( P ⊗ Q ) − 1 ,即f ( A , B ) ∼ f ( J A , J B ) ,从而它们有相同的特征值,f ( J A , J B ) = ∑ i , j = 0 l c ij ( J A i ⊗ J B j ) 是上三角形矩阵,对角线元素为f ( λ r , μ s ) = ∑ i , j = 0 l c ij λ r i μ s j 是特征值。
推论:设λ 1 , λ 2 , ⋯ , λ m 是m 阶矩阵A 的特征值,μ 1 , μ 2 , ⋯ , μ n 是n 阶矩阵B 的特征值,那么
A ⊗ B 的特征值为λ r μ s .(r = 1 , 2 , ⋯ , m 、s = , 1 , 2 , ⋯ , n )
A ⊗ E n + E m ⊗ B 的特征值为λ r + μ s .(r = 1 , 2 , ⋯ , m 、s = , 1 , 2 , ⋯ , n )
定理(特征向量) :设x 1 , x 2 , ⋯ , x p 是m 阶矩阵A 对应于特征值λ 1 , λ 2 , ⋯ , λ m 的线性无关的特征向量(p ≤ m ),y 1 , y 2 , ⋯ , y q 是n 阶矩阵B 对应于特征值μ 1 , μ 2 , ⋯ , μ n 的线性无关的特征向量(q ≤ n ),那么x r ⊗ y s (r = 1 , 2 , ⋯ , p 、s = , 1 , 2 , ⋯ , q )是矩阵f ( A , B ) 对应于特征值f ( λ r , μ s ) 的线性无关的特征向量,其中f ( A , B ) = ∑ i , j = 0 l c ij A i ⊗ B j .
证明:根据前面定理,x 1 , x 2 , ⋯ , x p 和y 1 , y 2 , ⋯ , y q 均线性无关,那么x r ⊗ y s (r = 1 , 2 , ⋯ , p 、s = , 1 , 2 , ⋯ , q )也线性无关;另外,根据特征向量的性质,有A i x r = λ r i x r 、B j y s = μ s j y s ,那么
f ( A , B ) ( x r ⊗ y s ) = ( ∑ i , j = 0 l c ij A i ⊗ B j ) ( x r ⊗ y s ) = ∑ i , j = 0 l c ij ( A i ⊗ B j ) ( x r ⊗ y s ) = ∑ i , j = 0 l c ij ( A i x r ⊗ B j y s ) = ∑ i , j = 0 l c ij λ r i μ s j ( x r ⊗ y s ) = f ( λ r , μ s ) ( x r ⊗ y s )
3. 矩阵的列展开与行展开
矩阵的行、列展开 :将A = ( a ij ) m × n 的各行依次横排得到一个mn 维行向量,称为矩阵A 的行展开,记为rs ( A ) ,即rs ( A ) = ( a 11 , a 12 , ⋯ , a 1 n , a 21 , a 22 , ⋯ , a 2 n , ⋯ , a m 1 , a m 2 , ⋯ , a mn ) 。类似地,将A 的各列依次纵排得到mn 维列向量,称为矩阵A 的列展开,记为cs ( A ) ,即cs ( A ) = ( a 11 , a 21 , ⋯ , a m 1 , a 12 , a 22 , ⋯ , a m 2 , ⋯ , a 1 n , a 2 n , ⋯ , a mn ) T .
根据定义,容易看出:
rs ( A T ) = ( cs ( A ) ) T .
cs ( A T ) = ( rs ( A ) ) T .
设A ∈ C m × n 、B ∈ C n × m ,则tr ( A B ) = ∑ i = 1 m ∑ k = 1 n a ik b ki = rs ( A ) cs ( B ) .
定理 :设A = ( a ij ) m × n 、B = ( b ij ) n × p 、C = ( c ij ) p × q ,则
rs ( A BC ) = rs ( B ) ( A T ⊗ C ) .
cs ( A BC ) = ( C T ⊗ A ) cs ( B ) .
证明:记A = α 1 α 2 ⋮ α m ,B = β 1 β 2 ⋮ β n ,C = [ ν 1 ν 2 ⋯ ν q ] ,则rs ( A BC ) = ⎩ ⎨ ⎧ α 1 α 2 ⋮ α m BC ⎭ ⎬ ⎫ = ( α 1 BC , α 2 BC , ⋯ , α m BC ) ,其中α i BC = α i β 1 β 2 ⋮ β n [ ν 1 ν 2 ⋯ ν q ] = α i β 1 ν 1 β 2 ν 1 ⋮ β n ν 1 β 2 ν 2 β 2 ν 2 ⋮ β n ν 2 ⋯ ⋯ ⋯ β 1 ν q β 2 ν q ⋮ β n ν q = [ ∑ j = 1 n a ij β j ν 1 ∑ j = 1 n a ij β j ν 2 ⋯ ∑ j = 1 n a ij β j ν q ] ,它又可以改写成α i BC = [ β 1 β 2 ⋯ β n ] a i 1 ν 1 a i 2 ν 1 ⋮ a in ν 1 a i 1 ν 2 a i 2 ν 2 ⋮ a in ν 2 ⋯ ⋯ ⋯ a i 1 μ q a i 2 ν q ⋮ a in ν q = rs ( B ) a i 1 C a i 2 C ⋮ a in C = rs ( B ) ( α i T ⊗ C ) ,故rs ( A BC ) = ( α 1 BC , α 2 BC , ⋯ , α m BC ) = rs ( B ) ( α 1 T ⊗ C , α 2 T ⊗ C , ⋯ , α m T ⊗ C ) = rs ( B ) ( A T ⊗ C ) .
由rs ( A T ) = ( cs ( A ) ) T 知,( cs ( A BC ) ) T = rs (( A BC ) T ) = rs ( C T B T A T ) = rs ( B T ) ( C ⊗ A T ) .
推论1:设A ∈ C m × r 、B ∈ C r × n ,则rs ( A B ) = rs ( A ) ( E m ⊗ B ) = rs ( B ) ( A T ⊗ E n ) .
推论2:设A ∈ C m × m 、B ∈ C n × n 、X ∈ C m × n ,则
cs ( A X ) = ( E n ⊗ A ) cs ( X ) ,cs ( XB ) = ( B T ⊗ E m ) cs ( X ) .
cs ( A X + XB ) = ( E n ⊗ A + B T ⊗ E m ) cs ( X ) .
证明:cs ( A X ) = cs ( A X E n ) 代入定理中的结论即可(cs ( XB ) 的证明同理);cs ( A X + XB ) = cs ( A X ) + cs ( XB ) ,将第一点的两个结论加起来即可。
4. 线性矩阵代数方程
Ⅰ. 方程A 1 X B 1 + A 2 X B 2 + ⋯ + A p X B p = C
问题:设A j ∈ C m × m 、B j ∈ C n × n (j = 1 , 2 , ⋯ , p ),求解线性矩阵代数方程A 1 X B 1 + A 2 X B 2 + ⋯ + A p X B p = C .
解:对此方程两边分别作列展开得( B 1 T ⊗ A 1 ) cs ( X ) + ( B 2 T ⊗ A 2 ) cs ( X ) + ⋯ + ( B p T ⊗ A p ) cs ( X ) = cs ( C ) ,如果令x = cs ( X ) 、c = cs ( C ) 、G = ∑ j = 1 p ( B j T ⊗ A j ) ,那么方程可以表示为G x = c ,这样就把线性矩阵代数方程转化为线性方程。
定理 :X ∈ C m × n 是方程A 1 X B 1 + A 2 X B 2 + ⋯ + A p X B p = C 的解的充要条件是x = cs ( X ) 是方程G x = c 的解。
推论1:方程A 1 X B 1 + A 2 X B 2 + ⋯ + A p X B p = C 有解 的充要条件是rank ( G , c ) = rank ( G ) .
推论2:方程A 1 X B 1 + A 2 X B 2 + ⋯ + A p X B p = C 有唯一解 的充要条件是G 为非奇异.(非奇异:满秩,即无零特征根)
Ⅱ. 方程A X + XB = C
定理 :设A ∈ C m × m 、B ∈ C n × n ,方程A X + XB = C 有唯一解 的充要条件是A 与B 的特征值满足λ i ( A ) + λ j ( B ) = 0 (i = , 1 , 2 , ⋯ , m 、j = 1 , 2 , ⋯ , n ),即A 与− B 没有相同的特征值。
证明:A X + XB = C 对应的线性方程为cs ( A X + XB ) = ( E n ⊗ A + B T ⊗ E m ) cs ( X ) = cs ( C ) ,这时方程要有解就要求系数矩阵G = ( E n ⊗ A + B T ⊗ E m ) 非奇异,即G 没有零特征值,根据前面的定理知,G 的特征值是λ j ( B ) + λ i ( A ) ,得证。
其中λ ( ⋅ ) 表示λ 是⋅ 的特征值。
推论:设A ∈ C m × m 、B ∈ C n × n ,方程A X + XB = 0 有非零解 的充要条件是存在某个1 ≤ i ≤ m 与1 ≤ j ≤ n ,使得λ i ( A ) + λ j ( B ) = 0 .
证明:因为A X + XB = 0 有唯一解的话就只有零解,要使它有非零解,就要让它的解不唯一,根据前面定理知,解不唯一就是要让λ i ( A ) + λ j ( B ) = 0 .
Ⅲ. 方程X + A XB = C
定理 :设A ∈ C m × m 、B ∈ C n × n ,方程X + A XB = C 有唯一解 的充要条件是A 与B 的特征值满足λ i ( A ) λ j ( B ) = − 1 (i = , 1 , 2 , ⋯ , m 、j = 1 , 2 , ⋯ , n )。
证明:方程两边列展开化为线性方程,变成cs ( X + A XB ) = cs ( E m X E n + A XB ) = ( E n ⊗ E m + B T ⊗ A ) cs ( X ) = cs ( C ) ,有唯一解即系数矩阵G = ( E n ⊗ E m + B T ⊗ A ) 非奇异,即G 的特征值1 + λ i ( A ) λ j ( B ) = 0 ,移项后得证。
例:已知A = [ 1 0 1 2 ] ,B = [ 3 1 0 3 ] ,C = [ − 4 7 4 0 ] ,求矩阵方程X + A XB = C 的解
解:方程两边列展开后得到对应的线性方程组为( E 2 ⊗ E 2 + B T ⊗ A ) cs ( X ) = cs ( C ) ,即 4 0 0 0 3 7 0 0 1 0 4 0 1 2 3 7 x 1 x 2 x 3 x 4 = − 4 7 4 0 ,解得 x 1 x 2 x 3 x 4 = − 2 1 1 0 ,由于X 是2 × 2 的,将X 的列展开还原回去,得X = [ − 2 1 1 0 ] .