2.1.3 正则化(归一化)的用处以及何时使用
正則化輸入
假設(shè)我有一個(gè)訓(xùn)練集,它有兩個(gè)輸入特征x1和x2,。歸一化輸入需要兩個(gè)步驟。第一步是零均值話(subtract mean),經(jīng)過零均值話處理之后數(shù)據(jù)就如中間那個(gè)圖分布的那樣。
第二步是歸一化方差,我們注意到x1的方差要比x2的方差大很多。所以進(jìn)行如下操作:
σ2=1m∑i=1mx2(1)(1)σ2=1m∑i=1mx2
x=xσ2(2)(2)x=xσ2
之后圖片就變成右邊的樣子了。
注意,我們這里實(shí)際上是x-0的平方,因?yàn)槲覀円呀?jīng)做了零均值處理了,所以我們的均值就是0,m是樣本量,這樣我們就計(jì)算出了方差。我們通常情況下歸一化是使用
x?μσ2x?μσ2
但是這里的均值是0,所以(2)就這樣實(shí)現(xiàn)了歸一化處理。
最后右圖x1和x2的方差都變成了0。我們這里要提醒一下如果你用相同的歸一化方式去處理了訓(xùn)練集,那么一定要用相同的方式去處理測試集
我們?yōu)槭裁匆M(jìn)行正則化輸入呢
如果你使用了非歸一化進(jìn)行處理,最后cost函數(shù)就會像左圖這樣非常細(xì)長而狹窄。因?yàn)閤1的取值范圍可能是0到1000,而x2的取值范圍可能只是0到1。結(jié)果會使得w1和w2的值范圍變得非常不同。最后cost function就會像這樣變得非常細(xì)長。
而你使用歸一化處理后函數(shù)可能會變得比較均勻,就像右圖所示。如果在左圖使用梯度下降法運(yùn)行,那么你必須使用一個(gè)非常小的學(xué)習(xí)率,那將會增加許多迭代次數(shù)。但如果函數(shù)是一個(gè)圓的球形輪廓,那么不論從哪個(gè)位置開始,梯度下降法都能更直接的找到最小值。可以在梯度下降法中使用較大步長。
因此,如果輸入特征屬于不同范圍,那么歸一化是十分重要的,但是如果特征值在比較近似的范圍內(nèi),那么歸一化就不那么重要了
總結(jié)
以上是生活随笔為你收集整理的2.1.3 正则化(归一化)的用处以及何时使用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2.1.2 Dropout正则化以及其他
- 下一篇: 2.1.4 对梯度消失和梯度爆炸的近似解