瑞利定理(Rayleigh theorem)
定义瑞利商(Rayleigh quotient)为
\[R({A,x}) = \frac{x^HAx}{x^Hx} \tag{1}
\]
其中,\(x\in\R^n\)为非零向量,\(A\in\R^{n\times n}\) 为Hermitian矩阵,即满足\(A^H=A\),\(A\)的特征向量即是函数 \(R(A,x)\)的驻点(critical point),特征向量相对应的特征值即为函数在该驻点的值。由此,我们可知\(R(A,x)\)的最大值等于矩阵 \(A\)的最大特征值,而最小值等于矩阵\(A\) 的最小特征值,即
\[\lambda_{\min} \leq \frac{x^HAx}{x^Hx} \leq \lambda_{\max}
\]
当向量\(x\)是标准正交基时,即满足\(x^Hx=1\)时,瑞利商为
\[R(A,x)=x^HAx
\]
证明:
由Hermitian矩阵的性质\(A^H=A\)易得\(x^HAx\in\R\),\(x^Hx\in\R\),因而\(R(A,x)\)为实数。
下面分析\(R(A,x)\)的驻点,即求
\[\frac{dR(A,x)}{dx}=\bf 0 \tag{2}
\]
为了方便推导,令\(x=x_R+ix_I\),其中\(x_R\in\R^n\)是向量\(x\)的实部向量,\(x_I\in\R^n\)是向量\(x\)的虚部向量。式(1)可以改写为
\[\begin{eqnarray}
R(A,x)&=&\frac{(x_R+ix_I)^HA(x_R+ix_I)}{(x_R+ix_I)^H(x_R+ix_I)}\nonumber\\
&=&\frac{x_R^TAx_R+x_I^TAx_I}{x_R^Tx_R+x^T_Ix_I} \tag{3}
\end{eqnarray}
\]
根据微分法则,式(2)可改写为
\[\frac{dR(A,x)}{dx_R}=\bf{0}
\]
\[\frac{dR(A,x)}{dx_I}=\bf{0}
\]
根据式(3)的形式,分析其中一个即可,利用矩阵微分法则:
\[\frac{d(x^TWx)}{dx}=2x^TW
\]
易得
\[\begin{eqnarray}
\frac{dR(A,x)}{dx_R}&=&\frac{d}{dx_R}\left(\frac{x_R^TAx_R+x_I^TAx_I}{x_R^Tx_R+x^T_Ix_I}\right)\nonumber\\
&=&\frac{2x_R^TA(x^Hx)-(x^HAx)2x_R^T}{\left(x^Hx\right)^2}\nonumber\\
&=&\frac{2x_R^TA-\frac{x^HAx}{x^Hx}2x_R^T}{x^Hx}=\bf0 \tag{4}
\end{eqnarray}
\]
因为\(x\)为非零向量,故式(4)等价于
\[x_R^TA-\frac{x^HAx}{x^Hx}x_R^T=\bf0 \tag{5}
\]
同理可得
\[x_I^TA-\frac{x^HAx}{x^Hx}x_I^T=\bf0 \tag{6}
\]
根据\(x=x_R+ix_I\)和\(A^H=A\),式(5)和式(6)可合并为
\[Ax=R(A,x)x
\]
这样一切明了,\(R(A,x)\)的最大值和最小值分别取决于矩阵\(A\)的最大特征值和最小特征值,且\(A\)的特征向量即函数\(R(A,x)\)的驻点。
广义瑞利商
定义广义瑞利商为
\[R({A,B,x}) = \frac{x^HAx}{x^HBx} \tag{7}
\]
其中,\(x\in\R^n\)为非零向量,\(A\in\R^{n\times n}\)和\(B\in\R^{n\times n}\) 为Hermitian矩阵,\(B\)为正定矩阵。\(B^{-1/2}AB^{-1/2}\)的特征向量即是函数 \(R(A,B,x)\)的驻点,特征向量相对应的特征值即为函数在该驻点的值。\(R(A,B,x)\)的最大值等于矩阵\(B^{-1/2}AB^{-1/2}\)的最大特征值,而最小值等于矩阵\(B^{-1/2}AB^{-1/2}\)的最小特征值。
证明:
有了前面瑞利商的性质,广义瑞利商就很容易理解了。令\(y=B^{1/2}x\),可得
\[\begin{eqnarray}
x^HAx &=& y^HB^{-1/2}AB^{-1/2}y\nonumber\\
x^HBx &=& y^Hy\nonumber
\end{eqnarray}
\]
代入式(7),可得瑞利商的形式:
\[R(A,B,y)=\frac{y^HB^{-1/2}AB^{-1/2}y}{y^Hy}
\]
参照上文中瑞利商的性质即可完成证明。
附:
瑞利商和广义瑞利商还有另外一种解法。由于对\(x\)幅值的调节并不会影响\(x\)是函数\(R(A,B,x)\)的驻点的方向,同时也不会影响\(R(A,B,x)\)的值。所以,以求最大值为例,可以把式(7)的优化问题转化为
\[\begin{eqnarray}
\max &\ & x^HAx\\
s.t. &\ & x^HBx=c\neq0
\end{eqnarray}
\]
引入拉格朗日(Lagrange)乘子将其转化为拉格朗日函数的无约束极值问题:
\[\mathcal{L}(x,\lambda)=x^HAx-\lambda(x^HBx-c) \tag{8}
\]
在式(8)的极值处,应满足
\[\frac{\partial\mathcal{L}(x,\lambda)}{\partial x}=0
\]
根据矩阵微分法则易得
\[Ax-\lambda Bx=0
\]
整理可得
\[B^{-1}Ax = \lambda x
\]
由此可得,\(x\)是\(B^{-1}A\)的特征向量,其最大的拉格朗日乘子即\(R(A,B,x)\)的最大值,也是\(B^{-1}A\)的最大特征值。
为什么拍人像用长焦?长焦适合拍人像吗
人类为什么能够在进化中胜出:是必然还是偶然?