tikhonov正则化 matlab_4 L1和l2正则化详解(花书7.1 参数范数惩罚)
生活随笔
收集整理的這篇文章主要介紹了
tikhonov正则化 matlab_4 L1和l2正则化详解(花书7.1 参数范数惩罚)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
7.1 參數范數懲罰
許多正則化方法通過對目標函數
添加一個參數范數懲罰 ,限制模型(如神經網絡、線性回歸和邏輯回歸)的學習能力。將正則化后的目標函數記為:其中
是權衡范數懲罰項 和標準目標函數 相對貢獻的超參數。在神經網絡中,參數包括每一層仿射變換的權重和偏置,我們通常只對權重做懲罰而不對偏置做正則懲罰。
- 精確擬合偏置所需的數據通常比擬合權重少得多
- 每個權重會指定兩個變量如何相互作用。而每個偏置僅控制一個單變量。這意味著不對偏置進行正則化也不會導致太大的方差
- 正則化偏置參數可能會導致明顯的欠擬合。
因此,我們使用向量
表示所有應受范數懲罰的權重,而 表示所有參數(包括 和無須正則化的參數)。7.1.1
參數正則化權重衰減(weight decay):
參數范數懲罰。向目標函數添加一個正則項 ,使權重更加接近原點。在其他學術圈, 又被稱為嶺回歸或Tikhonov正則。通過研究正則化后目標函數的梯度,洞察一些權重衰減的正則化表現。
對應梯度為:
使用單步梯度下降更新權重,即執行以下更新:
換種寫法:
我們可以看到,加入權重衰減后會引起學習規則的修改,即在每步執行通常的梯度更新之前先收縮 權重向量(將權重向量乘以一個常數因子
)。這是單個步驟發生的變化。在訓練的整個過程會發生什么呢?1.
未正則化的目標函數最小訓練誤差時的權重向量令
為未正則化的目標函數取得最小訓練誤差時的權重向量,即并在
的領域對未正則化的目標函數做二次近似[1]。如果目標函數確實是二次的(如以均方誤差擬合線性回歸模型的情況),則該近似是完美的。近似的 如下:其中
是 在 處計算的Hessian矩陣(關于 )。- 因為 被定義為最優,即梯度消失為 ,所以該二次近似中沒有一階項。
- 同樣地,因為 是 的一個最優點,我們可以得出 是半正定[2]的結論。
當
取最小時,其梯度為0。
2.
正則化后的目標函數最小訓練誤差時 的權重向量當
趨向于 時,正則化的解 會趨向于當
增加時會發生什么呢?開始高危操作:因為Hessian 是實對稱[3]的,所以可以分解為一個對角矩陣 和一組特征向量的標準正交基 。并且有 ,所以:注意:
- 推導過程需要嚴謹,待確認
我們可以看到權重衰減的效果是沿著
的特征向量所定義的軸縮放 。具體來說,我們會根據 因子縮放與 第 個特征向量對齊的 的分量。(可查看圖2.3,回顧這種縮放的原理)7.1.2
正則化 權重衰減是 權重衰減最常見的形式; 限制參數的規模;形式地,對模型參數
的 正則化定義為,即各個參數的絕對值之和:正則化的目標函數:
對應的梯度(實際上是次梯度)
其中
只是簡單地取 各個元素的正負號,例如: 。觀察式(7.20),我們立刻發現
的正則化效果與 大不一樣。具體來說,正則化對梯度的影響不再是線性地縮放每個 ;而是添加了一項與 同號的常數。使用這種形式的梯度之后,我們不一定能得到 二次近似的直接算術解( 正則化時可以)。假設1:簡單的線性模型具有二次代價函數,我們可以通過泰勒級數表示。或者我們可以設想,這是逼近更復雜模型的代價函數的階段泰勒級數。在這個 設定 下,梯度由下式給出:
假設2:由于
懲罰項在完全一般化的Hessian的情況下,無法得到直接清晰的代數表達式,因此我們將進一步簡化假設Hessian是對角的,即 ,其中每個 。如果線性回歸問題中的數據已被預處理(如可以使用PCA),去除了輸入特征之間的相關性,那么這一 假設 成立。將
正則化目標函數的二次近似分解成關于參數的求和:其中:
是常數項如下列形式的解析解(對每一維
)可以最小化上面這個近似代價函數 :如果:
- ,
- ,
- 推導過程需要嚴謹,待確認
- a肯定大于0
- 對b分情況討論
- b>0
- a-b>0,最為值
- a-b<0,
- b<0
- a+b>0
- a_b<0
- b>0
相比
正則化, 正則化會產生更稀疏(sparse)的解。 正則化有可能通過足夠大的 實現稀疏。由 正則化導出的稀疏性質已經被廣泛地用于特征選擇。正則化的目標函數:
標準目標函數:
正則化目標函數的近似:
泰勒級數
定義:如果
在點 具有任意階導數,則冪級數稱為
在點 處的泰勒級數。在泰勒公式中,取
,得到的級數 稱為麥克勞林級數。函數的麥克勞林級數是 的冪級數,那么這種展開是唯一的,且必然與的麥克勞林級數一致。半正定
在線性代數里,正定矩陣 (positive definite matrix) 有時會簡稱為正定陣。在線性代數中,正定矩陣的性質類似復數中的正實數。
- 復數:我們把形如 ( 均為實數)的數稱為復數。
- 實數:實數,是有理數和無理數的總稱。數學上,實數定義為與數軸上的實數,點相對應的數。
- 正定矩陣廣義定義:設 是 階方陣,如果對任何非零向量 ,都有 ,其中 表示 的轉置,就稱 為正定矩陣。
- 半正定矩陣:是正定矩陣的推廣。實對稱矩陣 稱為半正定的,如果二次型 半正定,即對于任意不為0的實列向量 ,都有 。
參考
總結
以上是生活随笔為你收集整理的tikhonov正则化 matlab_4 L1和l2正则化详解(花书7.1 参数范数惩罚)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: centos 部署mysql5.7_ce
- 下一篇: 兜兜在赶来的路上怎么读?