【机器学习基础】浅谈为什么L2正则化有效
L2正則化為什么有效
無(wú)論是學(xué)過(guò)機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)的同學(xué)一定知道正則化可以緩解過(guò)擬合,最常用的就是L2正則化,即在損失函數(shù)上加上參數(shù)的L2范數(shù),不過(guò)一般也不開(kāi)根號(hào)了,也就是直接加,是正則化因子,它的大小決定了你有多想讓參數(shù)向0靠近。
如果被問(wèn)到緩解過(guò)擬合的方法,那么L2正則化肯定是要知道的。如果繼續(xù)追問(wèn)為什么L2正則化有效呢?也許可以回答:因?yàn)榘褏?shù)加到了損失函數(shù)里,可以在梯度下降時(shí)讓參數(shù)變得更小,防止模型能夠擬合特別復(fù)雜的函數(shù)。但又要問(wèn)了,那為什么參數(shù)小得接近0就有效呢?僅僅是intuition所以大家都這樣做也這樣認(rèn)為嗎?事實(shí)上這是可以從概率論的角度來(lái)解釋的,下面用最簡(jiǎn)單的線(xiàn)性回歸來(lái)介紹,我們用下標(biāo)表示第個(gè)特征,上標(biāo)表示數(shù)據(jù)集中的第條數(shù)據(jù)。
高斯分布
設(shè)模型參數(shù)為(bias包含在里了),模型的hypothesis為
就是我們模型做出的預(yù)測(cè),是現(xiàn)實(shí)世界真實(shí)的標(biāo)簽,不過(guò)是帶有噪音的,真實(shí)世界的數(shù)據(jù)不可能是完美的,其中大都夾雜著噪音信號(hào),我們假設(shè)
其中代表著噪音,假設(shè)它屬于高斯分布,即均值為0,方差為,這個(gè)假設(shè)其實(shí)是符合實(shí)際的,因?yàn)楝F(xiàn)實(shí)世界中我們遇到的大部分的數(shù)據(jù)或噪音的分布其實(shí)都是高斯分布,那么我們就可以得到的分布了
本科的概率論課程告訴我們正態(tài)分布的公式是
極大似然估計(jì)
假設(shè)我們有一堆數(shù)據(jù),頻率學(xué)派認(rèn)為是客觀(guān)存在的,只是我們不知道罷了,真實(shí)的一定是最優(yōu)的,能讓這組數(shù)據(jù)集出現(xiàn)的概率最大,我們要去手上已知的去估計(jì)真實(shí)的,也就要求的極大似然估計(jì)
這等價(jià)于求對(duì)數(shù)極大似然,即
將數(shù)據(jù)集代入上式,求導(dǎo)取一階導(dǎo)數(shù)為0,就可以得到一個(gè)local optimal,在線(xiàn)性回歸或logistic回歸里也可以確定這就是全局唯一的optimal,即最優(yōu)解。如果我們將上面的與正態(tài)分布公式代入,可以得到
由于我們所求的是,即要找到能使式子最大或最小的,所以常數(shù)項(xiàng)和系數(shù)都不會(huì)影響結(jié)果,因此第三步將它們略去后我們就得到了熟悉的最小均方誤差,也就是線(xiàn)性回歸中的最小二乘法!不過(guò)要注意,雖然得到的結(jié)果與最小二乘法是一致的,但出發(fā)點(diǎn)和理論基礎(chǔ)都完全不一樣。
從頻率學(xué)派的假設(shè)出發(fā),我們得到的是不帶正則化項(xiàng)的線(xiàn)性回歸,而從貝葉斯學(xué)派的角度來(lái)看,卻有些不同。
極大后驗(yàn)概率估計(jì)
貝葉斯學(xué)派則是先給的分布來(lái)一個(gè)假設(shè),叫做"prior"即先驗(yàn),頗有點(diǎn)全知全能的上帝的感覺(jué)(誤,那么我們現(xiàn)在已經(jīng)看到了數(shù)據(jù),也有了分布的假設(shè),就可以去求在已知當(dāng)前數(shù)據(jù)情況下,是什么的概率,并找出最可能的,根據(jù)貝葉斯定理可得
右式的分母是個(gè)常數(shù),可以省去,它被稱(chēng)為"evidence",左式被稱(chēng)為"posterior"即后驗(yàn),剩下的是我們熟悉的"likelihood"即似然,那么接下來(lái)就是通過(guò)求最大后驗(yàn)概率,來(lái)獲得我們想要的,在這里我們假設(shè)先驗(yàn)分布,
這樣我們就得到了最小均方誤差+L2正則化的線(xiàn)性回歸了!注意上式的兩個(gè)分布的方差是不同的,不過(guò)由于方差無(wú)關(guān)緊要,也就沒(méi)有特意區(qū)分了(其實(shí)是碼公式太累不想?yún)^(qū)分了_(:з」∠)_
原來(lái)從概率論的角度來(lái)看,L2正則化其實(shí)就是假設(shè)了參數(shù)的分布屬于高斯分布,再想想由于高斯分布的均值為0,自然也就解釋了為什么參數(shù)都會(huì)接近0,畢竟0的概率最大。如果你給假設(shè)不同的先驗(yàn)分布,比如拉普拉斯分布
那你得到的就是「L1正則化」,這里就不再推導(dǎo)了。
結(jié)論
這樣我們得到了結(jié)論,最小均方誤差其實(shí)等價(jià)于「極大似然估計(jì)」,「L2正則化」+最小均方誤差等價(jià)于「最大后驗(yàn)估計(jì)」。
進(jìn)一步思考
可能有人會(huì)問(wèn),假設(shè)參數(shù)確實(shí)不屬于高斯分布,那我這么假設(shè)豈不是從開(kāi)頭就錯(cuò)了,確實(shí),如果參數(shù)的真實(shí)分布與我們的先驗(yàn)假設(shè)有很大差別,會(huì)導(dǎo)致模型的預(yù)測(cè)效果很差,這點(diǎn)在cs229的Gaussian Discriminant Analysis(GDA, 高斯判別分析)一課有講過(guò),當(dāng)你的數(shù)據(jù)量很少時(shí),加一個(gè)先驗(yàn)假設(shè)可以幫助模型更好的擬合數(shù)據(jù),因?yàn)槟憬o模型提供了更多信息,前提是你的假設(shè)是對(duì)的,當(dāng)你的數(shù)據(jù)量很多時(shí),先驗(yàn)假設(shè)就不那么重要了,因?yàn)槟P涂梢宰约喝臄?shù)據(jù)中發(fā)現(xiàn)信息,這也就解釋了為什么數(shù)據(jù)量越大,越不容易過(guò)擬合。如果數(shù)據(jù)量很小,直接使用極大似然估計(jì),就會(huì)導(dǎo)致參數(shù)只適用于當(dāng)前的數(shù)據(jù)集,導(dǎo)致過(guò)擬合,泛化能力較差。不過(guò),就像Andrew Ng所說(shuō),這個(gè)世界大部分的數(shù)據(jù)分布都是高斯分布,大量論文實(shí)驗(yàn)也證明了L2正則化確實(shí)有效,所以我們基本上任何時(shí)候都可以大膽地使用L2正則化,只需要調(diào)節(jié)正則化因子的大小,當(dāng)模型欠擬合時(shí)調(diào)小它甚至置零,過(guò)擬合時(shí)調(diào)大它,就能夠很好地在high bias(欠擬合)與high variance(過(guò)擬合)之間進(jìn)行trade off。
參考資料: cs229 by Andrew Ng
往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線(xiàn)及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線(xiàn)手冊(cè)深度學(xué)習(xí)筆記專(zhuān)輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專(zhuān)輯獲取一折本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開(kāi):https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請(qǐng)掃碼進(jìn)群:總結(jié)
以上是生活随笔為你收集整理的【机器学习基础】浅谈为什么L2正则化有效的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【Python基础】Python 流程控
- 下一篇: 划重点!这80道算法题,想拿大厂Offe