正则化和范数
目錄
- 預備知識
- L0范數
- L1正則化
- L2正則化
- 為什么參數越小越好
預備知識
在深度學習中,模型的參數優化可以看做最大后驗估計,損失函數即為似然函數。所謂正則化,可以視為給予了模型參數估計的一個先驗知識。而似然函數*先驗信息即為最大后驗估計。
θ?=argmaxθ(∏iP(Yi∣Xi,θ)∏iP(θi))=argminθ(∑i∣∣f(Xi)?Yi∣∣2+∑ilnP(θi))\theta^*=argmax_{\theta}(\prod_i P(Y_i|X_i,\theta)\prod_i P(\theta_i))=argmin_{\theta}(\sum_i ||f(X_i)-Y_i||^2+\sum_i \text{ln}P(\theta_i))θ?=argmaxθ?(i∏?P(Yi?∣Xi?,θ)i∏?P(θi?))=argminθ?(i∑?∣∣f(Xi?)?Yi?∣∣2+i∑?lnP(θi?))
L0范數
L0范數統計向量中非0元素的個數,非0元素越少,意味著越稀疏。模型越稀疏,則過擬合的風險越低,同時可以提高模型的可解釋性。
L1正則化
L1范數是L0范數的最優凸近似,比L0范數更利于優化求解。由于L1范數在0值處不可微,所以L1正則化會趨向于讓參數=0。L1正則化在損失函數中的形式表現為,在原損失函數上加上權重參數www的絕對值,這相當于賦予www拉普拉斯先驗,如果λ\lambdaλ越大,則www的分布越集中在0附近。
P(θi)=λ2exp(?λ∣θi∣)P(\theta_i)=\frac{\lambda}{2}\text{exp}(-\lambda|\theta_i|)P(θi?)=2λ?exp(?λ∣θi?∣)
L2正則化
L2正則化又叫做嶺回歸,也叫作權重衰減。L2正則化會讓參數趨向于0,在損失函數中的形式表現為,在原損失函數上加上權重參數www的平方,這相當于賦予www高斯先驗。
P(θi)=λπexp(?λ∣∣θi∣∣2)P(\theta_i)=\frac{\lambda}{\sqrt{\pi}}\text{exp}(-\lambda||\theta_i||^2)P(θi?)=π?λ?exp(?λ∣∣θi?∣∣2)
為什么參數越小越好
原因有二,一是奧卡姆剃刀原則,參照百度百科,可用八個字概括——“如無必要,勿增實體”;二是:在模型發生過擬合時,會導致模型在一個小區間,輸出存在劇烈變化。這意味著,模型在這個小區間內的導數值很大,而導數值由權重參數www決定,“大導數值”可以一定程度上等價于“大www”。也就是說,“大www”會導致過擬合,從而www越小越好。
總結
- 上一篇: 过拟合、欠拟合的原因和解决办法
- 下一篇: CVPR 2019 ATOM:《ATOM