L1,L2正则化分析
1. 優化角度分析
1)、L2正則化的優化角度分析
在限定的區域,找到使
??
最小的值。
?
圖形表示為:
上圖所示,紅色實線是正則項區域的邊界,藍色實線是
的等高線,越靠里的等高圓,
越小,梯度的反方向是
減小最大的方向,用
表示,正則項邊界的法向量用實黑色箭頭表示。
正則項邊界在點P1的切向量有
負梯度方向的分量,所以該點會有往相鄰的等高虛線圓運動的趨勢;當P1點移動到P2點,正則項邊界在點P2的切向量與
梯度方向的向量垂直,即該點沒有往負梯度方向運動的趨勢;所以P2點是
最小的點。
結論:L2正則化項使值最小時對應的參數變小。
?
2)、L1正則化的優化角度分析
在限定的區域,找到使
最小的值。
結論:如上圖,因為切向量始終指向w2軸,所以L1正則化容易使參數為0,即特征稀疏化。
2. 梯度角度分析
1)、L1正則化
L1正則化的損失函數為:
上式可知,當w大于0時,更新的參數w變小;當w小于0時,更新的參數w變大;所以,L1正則化容易使參數變為0,即特征稀疏化。
2)、L2正則化
L2正則化的損失函數為:
由上式可知,正則化的更新參數相比于未含正則項的更新參數多了
項,當w趨向于0時,參數減小的非常緩慢,因此L2正則化使參數減小到很小的范圍,但不為0。
3. 先驗概率角度分析
文章《深入理解線性回歸算法(二):正則項的詳細分析》提到,當先驗分布是拉普拉斯分布時,正則化項為L1范數;當先驗分布是高斯分布時,正則化項為L2范數。本節通過先驗分布來推斷L1正則化和L2正則化的性質。
畫高斯分布和拉普拉斯分布圖(來自知乎某網友):
由上圖可知,拉普拉斯分布在參數w=0點的概率最高,因此L1正則化相比于L2正則化更容易使參數為0;高斯分布在零附近的概率較大,因此L2正則化相比于L1正則化更容易使參數分布在一個很小的范圍內。
4. 知乎點贊最多的圖形角度分析
函數極值的判斷定理:
(1)當該點導數存在,且該導數等于零時,則該點為極值點;
(2)當該點導數不存在,左導數和右導數的符號相異時,則該點為極值點。
如下面兩圖:
左圖對應第一種情況的極值,右圖對應第二種情況的極值。本節的思想就是用了第二種極值的思想,只要證明參數w在0附近的左導數和右導數符合相異,等價于參數w在0取得了極值。
圖形角度分析
損失函數L如下:
黑色點為極值點x1,由極值定義:L'(x1)=0;
含L2正則化的損失函數:
?
由結論可定性的畫含L2正則化的圖:
?
極值點為黃色點,即正則化L2模型的參數變小了。
?
含L1正則化的損失函數:
因此,只要C滿足推論的條件,則損失函數在0點取極值(粉紅色曲線),即L1正則化模型參數個數減少了。
5. 限制條件法
結論:含L1正則化的損失函數在0點取得極值的條件比相應的L2正則化要寬松的多,所以,L1正則化更容易得到稀疏解(w=0)。
6. PRML的圖形角度分析
因為L1正則化在零點附近具有很明顯的棱角,L2正則化則在零附近比較平緩。所以L1正則化更容易使參數為零,L2正則化則減小參數值,如下圖。
(1)L1正則化使參數為零 (2)L2正則化使參數減小
--------------------------
轉載自 ?比較全面的L1和L2正則化的解釋
總結
以上是生活随笔為你收集整理的L1,L2正则化分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GridSearchCV.grid_sc
- 下一篇: 蓝桥杯_风险度量(一题多解)