L1范数与L2范数
L1范數(shù)與L2范數(shù)
L1范數(shù)
L1范數(shù)是指向量中各個(gè)元素絕對值之和,也叫“稀疏規(guī)則算子”(Lasso regularization)。稀疏的意思是可以讓權(quán)重矩陣的一部分值等于0,很粗暴。
L1范數(shù)可以實(shí)現(xiàn)稀疏,那么問題來了,實(shí)現(xiàn)參數(shù)稀疏有什么用?
可解釋性:可以看到到底是哪些特征和預(yù)測的信息有關(guān)。
特征選擇:輸入x的大部分特征與輸出y是沒有關(guān)系的,如果讓參數(shù)矩陣w中出現(xiàn)許多0,則可以直接干掉與y無關(guān)的元素,也就是選擇出x中真正與y有關(guān)的特征。如果不這么做,那么x中本來與y無關(guān)的特征也加入到模型中,雖然會(huì)更好的減小訓(xùn)練誤差,但是在預(yù)測新樣本的時(shí)候會(huì)考慮到無關(guān)的信息,干擾了預(yù)測。
L2范數(shù)
L2范數(shù)是指向量中各元素的的平方和然后再求平方根。有人把它叫“嶺回歸”(Ridge Regression),有人也叫它“權(quán)值衰減weight decay”。
L2范數(shù)與L1不同,他不會(huì)讓參數(shù)等于0,而是讓每個(gè)參數(shù)都接近于0。那么L2范數(shù)又有什么好處呢?
防止過擬合。一般的用法是在損失函數(shù)后面加上w的L2范數(shù),即||w||2?,這是一種規(guī)則化。
優(yōu)化求解變得穩(wěn)定快速。簡單地說他可以讓w在接近全局最優(yōu)點(diǎn)w*的時(shí)候,還保持著較大的梯度。這樣可以跳出局部最優(yōu),也使得收斂速度變快。
?
總結(jié)
- 上一篇: 为什么只长胖不长高?
- 下一篇: Linux磁盘管理:lvcreate 常