偏最小二乘法
http://blog.csdn.net/qq_20823641/article/details/51598519
偏最小二乘回歸是一種新型的多元統計數據分析方法,它與1983年由伍德和阿巴諾等人首次提出。近十年來,它在理論、方法和應用方面都得到了迅速的發展。密西根大學的弗耐爾教授稱偏最小二乘回歸為第二代回歸分析方法。
偏最小二乘回歸方法在統計應用中的重要性主要的有以下幾個方面:
(1)偏最小二乘回歸是一種多因變量對多自變量的回歸建模方法。
(2)偏最小二乘回歸可以較好地解決許多以往用普通多元回歸無法解決的問題。在普通多元線形回歸的應用中,我們常受到許多限制。最典型的問題就是自變量之間的多重相關性。如果采用普通的最小二乘方法,這種變量多重相關性就會嚴重危害參數估計,擴大模型誤差,并破壞模型的穩定性。變量多重相關問題十分復雜,長期以來在理論和方法上都未給出滿意的答案,這一直困擾著從事實際系統分析的工作人員。在偏最小二乘回歸中開辟了一種有效的技術途徑,它利用對系統中的數據信息進行分解和篩選的方式,提取對因變量的解釋性最強的綜合變量,辨識系統中的信息與噪聲,從而更好地克服變量多重相關性在系統建模中的不良作用。
(3)偏最小二乘回歸之所以被稱為第二代回歸方法,還由于它可以實現多種數據分析方法的綜合應用。
| ? 偏最小二乘回歸=多元線性回歸分析+典型相關分析+主成分分析 ? |
由于偏最小二乘回歸在建模的同時實現了數據結構的簡化,因此,可以在二維平面圖上對多維數據的特性進行觀察,這使得偏最小二乘回歸分析的圖形功能十分強大。在一次偏最小二乘回歸分析計算后,不但可以得到多因變量對多自變量的回歸模型,而且可以在平面圖上直接觀察兩組變量之間的相關關系,以及觀察樣本點間的相似性結構。這種高維數據多個層面的可視見性,可以使數據系統的分析內容更加豐富,同時又可以對所建立的回歸模型給予許多更詳細深入的實際解釋。
?
一、 偏最小二乘回歸的建模策略\原理\方法
1.1建模原理
設有 q個因變量{}和p自變量{}。為了研究因變量和自變量的統計關系,我們觀測了n個樣本點,由此構成了自變量與因變量的數據表X={}和.Y={}。偏最小二乘回歸分別在X與Y中提取出成分?和?(也就是說, 是?的線形組合, 是?的線形組合).在提取這兩個成分時,為了回歸分析的需要,有下列兩個要求:
(1)和應盡可能大地攜帶他們各自數據表中的變異信息;
(2)與?的相關程度能夠達到最大。
這兩個要求表明,和?應盡可能好的代表數據表X和Y,同時自變量的成分? 對因變量的成分?又有最強的解釋能力。
在第一個成分和 被提取后,偏最小二乘回歸分別實施X 對 的回歸以及 Y對?的回歸。如果回歸方程已經達到滿意的精度,則算法終止;否則,將利用 X被解釋后的殘余信息以及Y 被?解釋后的殘余信息進行第二輪的成分提取。如此往復,直到能達到一個較滿意的精度為止。若最終對 X共提取了 m個成分,…,,偏最小二乘回歸將通過實施 對,…,,?的回歸,然后再表達成關于原變量,…,,?的回歸方程,k=1,2,…,q 。
?
1.2計算方法推導
為了數學推導方便起見,首先將數據做標準化處理。X?經標準化處理后的數據矩陣記為=(,…,),經標準化處理后的數據矩陣記為=(,…,)。
第一步? 記t1是E0的第一個成分,t2是E1的第一個軸,它是一個單位向量,既||w1||=1。
記u1是F0的第一個成分,u1=F0C1。C1 是F0的第一個軸,并且||C1||=1。
如果要,能分別很好的代表X與Y中的數據變異信息,根據主成分分析原理,應該有
Var()-max
Var()-max
另一方面,由于回歸建模的需要,又要求對有很大的解釋能力,有典型相關分析的思路,與的相關度應達到最大值,既
r(t1,u1)max
因此,綜合起來,在偏最小二乘回歸中,我們要求與的協方差達到最大,既
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
正規的數學表述應該是求解下列優化問題,既?
因此,將在||||=1和||||=1的約束條件下,去求()的最大值。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
可見,是矩陣的特征向量,對應的特征值為.是目標函數值,它要求取最大值,所以, 是對應于矩陣最大特征值的單位特征向量.而另一方面, 是對應于矩陣最大特征值的單位特征向量.
求得軸和后,即可得到成分
?? ?????????????????????
???????????????????????
? ? ? ? ? ? ? ? ? ?
? ?
?
1.3交叉有效性
可以百度PRESS預測誤差平方和,這個用的比較多
總結
- 上一篇: 光伏“转化效率之王”IBC电池有多牛?
- 下一篇: 《C陷阱与缺陷》一第1章 词法“陷阱”1