5.6 稳健最小二乘法
5.6 穩(wěn)健最小二乘法
穩(wěn)健最小二乘法是一種能有效抑制強(qiáng)影響點(diǎn)對(duì)回歸結(jié)果造成影響的方法,利用加權(quán)最小二乘法的思想,對(duì)殘差大的測(cè)量點(diǎn)賦予低權(quán)重,殘差正常的測(cè)量點(diǎn)賦予相同權(quán)重,則可以抑制異常點(diǎn)對(duì)結(jié)果的影響,獲得較為穩(wěn)定的估計(jì)值,不易受強(qiáng)影響點(diǎn)的影響。假設(shè)第 iii 個(gè)測(cè)量點(diǎn)的殘差為 δi\delta_iδi? ,權(quán)重為 wiw_iwi? ,最常用的權(quán)重取值方式如下,即著名的Huber函數(shù)。
wi={1for∣δi∣<δ0^δ0^∣δi∣for∣δi∣≥δ0^w_i = \left \{ \begin{array}{rc} 1 & for & |\delta_i| < \hat{\delta_0} \\ \frac{\hat{\delta_0}}{|\delta_i|} & for & |\delta_i| \ge \hat{\delta_0} \\ \end{array}\right. wi?={1∣δi?∣δ0?^???forfor?∣δi?∣<δ0?^?∣δi?∣≥δ0?^??
其中 δ0^\hat{\delta_0}δ0?^? 為參數(shù),用來(lái)度量殘差正常范圍,小于此值的測(cè)量點(diǎn)是正常點(diǎn),大于此值的測(cè)量點(diǎn)是異常點(diǎn),權(quán)重需要減小。
令對(duì)角陣為:D=diag(w1,w2,?,wm)D =diag(w_1,w_2,\cdots,w_m)D=diag(w1?,w2?,?,wm?) ,則近似解為 x^=(ATDA)?1ATDb\mathbf{\hat{x}} = (A^TDA)^{-1}A^TD\mathbf{b}x^=(ATDA)?1ATDb 。
穩(wěn)健最小二乘法的關(guān)鍵是如何獲得殘差 δi\delta_iδi? 的初始值,一般采用普通最小二乘法獲得近似解的初始估計(jì)值 x^0\mathbf{\hat{x}}^0x^0 ,計(jì)算初始?xì)埐?δi0=bi?ariTx^0\delta^0_i = b_i - \mathbf{a^T_{ri}} \mathbf{\hat{x}}^0δi0?=bi??ariT?x^0 。由殘差 δi0\delta^0_iδi0? 估計(jì) δ0^0\hat{\delta_0}^0δ0?^?0 ,注意一般不能采用殘差 δi0\delta^0_iδi0? 的標(biāo)準(zhǔn)差作為 δ0^0\hat{\delta_0}^0δ0?^?0 的估計(jì)值,因?yàn)闃?biāo)準(zhǔn)差易受異常值的影響,不穩(wěn)健,我們需要穩(wěn)健的估計(jì)值,可以采用殘差絕對(duì)值 ∣δi0∣|\delta^0_i|∣δi0?∣ 的中位數(shù) med(∣δi0∣,i∈[1,m])med(|\delta^0_i|,i \in [ 1,m])med(∣δi0?∣,i∈[1,m]) 為估計(jì)值。中位數(shù)就是一組數(shù),按照大小排序后,位于正中間的元素。最終取 δ0^0=k?med(∣δi0∣)\hat{\delta_0}^0 = k\cdot med(|\delta^0_i|)δ0?^?0=k?med(∣δi0?∣) ,kkk 是比例系數(shù),一般取 1.99411.99411.9941 =1.345*1.4826,值越大,則抗干擾能力差,無(wú)窮大時(shí),權(quán)重恒為 111 ,變?yōu)槠胀ㄗ钚《朔?#xff1b;值越小,雖抗干擾能力強(qiáng),但效率低,即不是所有測(cè)量點(diǎn)都能對(duì)估計(jì)起到同等作用,需要更多的測(cè)量點(diǎn)才能獲得滿意結(jié)果。
根據(jù)Huber函數(shù)獲得初始權(quán)重 wi0w^0_iwi0? ,采用加權(quán)最小二乘法獲得 x^1\mathbf{\hat{x}}^1x^1 ,然后迭代優(yōu)化,即根據(jù) x^1\mathbf{\hat{x}}^1x^1 計(jì)算殘差 δi1\delta^1_iδi1? ,獲得估計(jì)值 δ0^1=kmed(∣δi1∣)\hat{\delta_0}^1 = k med(|\delta^1_i|)δ0?^?1=kmed(∣δi1?∣) ,根據(jù)Huber函數(shù)獲得初始權(quán)重 wi1w^1_iwi1? ,采用加權(quán)最小二乘法獲得 x^2\mathbf{\hat{x}}^2x^2 。一直進(jìn)行下去,直到相鄰兩次近似解足夠接近。
該方法最大難點(diǎn)是如何獲得近似解的初始估計(jì)值 x^0\mathbf{\hat{x}}^0x^0 ,這也是該方法成敗的關(guān)鍵。當(dāng)不存在影響特別大的強(qiáng)影響點(diǎn)時(shí),采用普通最小二乘法不失為一個(gè)可行的初始估計(jì)值。但如果存在影響特別大的強(qiáng)影響點(diǎn),則初始估計(jì)值 x^0\mathbf{\hat{x}}^0x^0 受強(qiáng)影響點(diǎn)的影響,會(huì)偏離理想值,造成殘差估計(jì)偏差大,導(dǎo)致權(quán)重不合理,所以效果會(huì)下降。
Huber函數(shù)只利用了殘差信息來(lái)確定權(quán)重,其實(shí)還可以利用杠桿值,采用 Di=pii(1?pii)2δi2D_i = \frac {p_{ii}}{(1-p_{ii})^2} \delta^2_{i}Di?=(1?pii?)2pii??δi2? 來(lái)確定權(quán)重。
wi={1forDi<D0^D0^DiforDi≥D0^w_i = \left \{ \begin{array}{rc} 1 & for & D_i < \hat{D_0} \\ \frac{\hat{D_0}}{D_i} & for & D_i\ge \hat{D_0} \\ \end{array}\right. wi?={1Di?D0?^???forfor?Di?<D0?^?Di?≥D0?^??
該方法閾值 D0^\hat{D_0}D0?^? 不容易確定。
總之,如果不存在強(qiáng)影響點(diǎn),普通最小二乘法就可以得到很好的結(jié)果;如果存在強(qiáng)影響點(diǎn),但影響不是很大,可以采用穩(wěn)健最小二乘法。如果強(qiáng)影響點(diǎn)影響很大,穩(wěn)健最小二乘法由于難以獲得很好的初始估計(jì)值,效果不會(huì)很好。
總結(jié)
以上是生活随笔為你收集整理的5.6 稳健最小二乘法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 5.5 强影响点
- 下一篇: 5.7 随机采样最小二乘法