當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

lasso回归_线性回归amp;lasso回归amp;岭回归介绍与对比

發布時間：2023/12/20 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 lasso回归_线性回归amp;lasso回归amp;岭回归介绍与对比小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 回顧最小二乘法

詳細的解釋在以下這個鏈接

https://www.matongxue.com/madocs/818

簡而言之，最小二乘法展現了平方誤差值最小的時候，就是最好的擬合回歸線。

2. 線性回歸的五大假設：

假設一：誤差的分布是正態分布

因為只有誤差的分布是正態分布的時候，最小二乘估計才是最優解/最有可能的值。

如果誤差項不呈正態分布，意味著置信區間會變得很不穩定，我們往往需要重點關注一些異常的點（誤差較大但出現頻率較高），來得到更好的模型。

假設二：誤差的方差是常數

如果誤差的方差不是常數，也就是異方差性。那么在假設一中說了誤差的分布需要是正態分布，也就是與方差得是一個常數矛盾。所以當誤差的方差是一個可變值的時候，意味著當我們進行建立回歸模型的時候，往往會高估誤差項（outlier）的重要性，導致回歸效果不好。

假設三：誤差項之間相互獨立

同理，在假設一中，若誤差項的分布為正態分布，那么誤差項之間也需要相互獨立。如果誤差項之間不相互獨立的話，那么就是說明他們存在自相關性。也就是后一項的值會受到前一項的影響（常常出現在時間序列數據集上）。當自相關性發生的時候，我們測的標準差往往會偏小，進而會導致置信區間變窄。

假設四：不存在多重共線性

首先，要弄清楚多重共線性與變量之間不存在相關關系區別開。變量之間沒有多重共線性，不意味著他們沒有相關關系，反之亦然。

多重共線性是指，如果我們發現本應相互獨立的自變量們出現了一定程度（甚至高度）的相關性，那我們就很難得知自變量與因變量之間真正的關系了。

當多重共線性性出現的時候，變量之間的聯動關系會導致我們測得的標準差偏大，置信區間變寬。那也就是說，使用最小二乘法求解得到的回歸線不再是最佳的，有效性減小。

https://zhidao.baidu.com/question/202672845122566165.html?zhidao.baidu.com

假設五：線性性與可加性

線性性：X1每變動一個單位，Y相應變動a1個單位，與X1的絕對數值大小無關。

可加性：X1對Y的影響是獨立于其他自變量（如X2）的。

回歸分析的五個基本假設_Noob_daniel的博客-CSDN博客?blog.csdn.net

3. 代價函數與求解代價函數

線性回歸的一般形式：

如何求得θ使得損失函數達到最小值呢？

方法一：梯度下降法

梯度下降法基礎知識

1) 梯度：

在微積分里面，對多元函數參數求偏導數，把求的各參數的偏導數以向量的形式寫出來，就是梯度。

梯度向量從幾何意義上講，就是函數變化增加最快的地方，沿著梯度向量的方向更容易找到函數的最大值，沿著向量相反的方向，梯度減小最快，更容易找到函數最小值。

2) 梯度下降與梯度上升可以互相轉化。求損失函數f(θ)的最小值，用梯度下降法迭代，亦可反過來求損失函數 -f(θ)的最大值，用梯度上升法。

吳恩達機器學習筆記二（lecture 2）（損失函數、梯度下降）?blog.csdn.net

方法二：正規方程法

因為正規方程法只適用于線性模型，使用幾率較小，所以不做介紹，感興趣的朋友可以自行了解~

4. 為什么需要lasso回歸與嶺回歸（ridge）？這兩個回歸又是什么？

與邏輯回歸一樣，線性回歸同樣面臨著在training的時候過分依賴訓練集的數據，導致過擬合問題，所以我們需要在原線性回歸的損失函數中加點別的東西，讓回歸/擬合過程中減少對訓練集的“關注”。同樣地，采取的策略就是在損失函數中加入正則項L1或者L2.

lasso regression = linear regression + L1 regularization

ridge regression = linear regression + L2 regularization

5. lasso回歸與嶺回歸（ridge）兩者的區別

這兩種回歸的區別歸根到底是L1和L2兩種正則項的區別。在我的上一篇文章中有詳細介紹L1和L2的特點，大家有興趣可以去翻看（當然現在也會再次簡單介紹）。

從第四節的公式中，我們知道隨著正則化強度的增大，θ的取值會逐漸變小，L1正則化會將參數壓縮到0，L2正則化只會讓參數盡量小，不會取到0. 所以在L1正則化在逐漸加強的過程中，相對不重要的特征的參數會比相對重要的特征的參數更快地變成0. 所以L1正則化本質是一個特征選擇的過程。選出少量但重要的特征，以防止過擬合問題。而L2正則化在加強的過程中，會盡量讓每個特征對模型都有一些貢獻，相對不重要的特征的參數會非常接近0.

以二維數據空間為例，說明Lasso和Ridge兩種方法的差異，左圖對應于Lasso方法，右圖對應于Ridge方法。

如上圖所示，兩個圖是對應于兩種方法的等高線與約束域。紅色的橢圓代表的是隨著λ的變化所得到的殘差平方和，β?為橢圓的中心點，為對應普通線性模型的最小二乘估計。左右兩個圖的區別在于約束域，即對應的藍色區域。

等高線和約束域的切點就是目標函數的最優解，Ridge方法對應的約束域是圓，其切點只會存在于圓周上，不會與坐標軸相切，則在任一維度上的取值都不為0，因此沒有稀疏；對于Lasso方法,其約束域是正方形，會存在與坐標軸的切點，使得部分維度特征權重為0，因此很容易產生稀疏的結果。

所以，Lasso方法可以達到變量選擇的效果，將不顯著的變量系數壓縮至0，而Ridge方法雖然也對原本的系數進行了一定程度的壓縮，但是任一系數都不會壓縮至0，最終模型保留了所有的變量。

以二維空間為例，約束域在L1中，為

，對應左圖藍色。

約束域在L2中，為

，對應左圖藍色。

由圖也可以看出，Lasso的復雜程度由λ來控制，λ越大對變量較多的線性模型的懲罰力度就越大，從而最終獲得一個變量較少的模型。

回歸問題-Lasso回歸_越努力越幸運-CSDN博客?blog.csdn.net

所以，lasso回歸與嶺回歸在數據集中的變量之間具有高維度和多重共線性的情況下也能有良好的效果。

總結

以上是生活随笔為你收集整理的lasso回归_线性回归amp;lasso回归amp;岭回归介绍与对比的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： kali设置中文_kali安装教程
下一篇：代码内容变成图片_网站只剩25行代码，真