1.1.1. Ordinary Least Squares(普通最小二乘)
1.1.1. Ordinary Least Squares
注: 本文所指線性回歸,若非特別強調,均指最基礎的線性回歸模型一、簡介
線性模型的數學體現是:
y^=ω0+ω1x1+ω2x2+...+ωnxn\hat{y}=\omega_0+\omega_1x_1+\omega_2x_2+...+\omega_nx_ny^?=ω0?+ω1?x1?+ω2?x2?+...+ωn?xn?
首先要明確,我們的最終目的是要達到:對于給定的自變量vector x, 我們能根據已知的coef_vector ω\omegaω預測出最接近真實情況的y^\hat{y}y^?.
所以,在模型訓練階段,我們的需求是找到最合適的coef_使得預測值y^\hat{y}y^?與它的真實值y盡可能的接近。
二、應用
- 用fit()擬合函數
- 用coef_輸出參數
- 用predict()預測
三、多重共線性
1.文檔
先看官方文檔
下面這是翻譯
2.解釋
最后我們來解釋一下這個所謂的多重共線性是個什么東西。
百度百科是這樣解釋的:
這個東西表達了什么?
這種情況怎么理解?
就是當特征A與特征B高度相關,或者特征C可以由D和E線性表示時,我們稍稍調整A或D的值(例如存在某個離群點或者異常值),B和C也會相應的波動。這種波動在相似特征較多時會被放大,但是這種很大波動很可能只是一個異常值引起的,所以多重共線性最終會導致模型估計失真或難以估計準確
3.如何解決
- 畫熱力圖(協方差矩陣)選擇特征進行訓練(在特征數目較少的情況下)
- PCA降維(1.降維后特征失去原本的語意;2.測試集和真實預測時也要降維)
- 可以嘗試Ridge regression(嶺回歸)來解決問題
四、線性回歸的系數(非負)
這里介紹了一種情況,那就是當實際問題中參數均非負時,我們可以采用非負的最小二乘。當然,文檔提供的事例證明了在系統限定系數下,NNLS要比OLS更好
五、時間復雜度
根據矩陣論中的奇異值分解,可以計算出,普通最小二乘的時間復雜度是O(nsamplesnfeatures2n_{samples}n_{features}^2nsamples?nfeatures2?)
總結
以上是生活随笔為你收集整理的1.1.1. Ordinary Least Squares(普通最小二乘)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ssh远程打开ubuntu的vino-s
- 下一篇: 苹果手机(ipone)点击元素,事件不执