系列笔记 | 深度学习连载(4):优化技巧(上)
點擊上方“AI有道”,選擇“星標”公眾號
重磅干貨,第一時間送達
深度學習中我們總結(jié)出 5 大技巧:
1. Adaptive Learning Rate
我們先從Adaptive Learning Rate 談起,我Gradient Decent 中我們已經(jīng)討論了:
AdaGrad :
緊著AdaGrad的步伐,我們進一步看:
RMSProp
神經(jīng)網(wǎng)絡訓練的時候,Error Surface 很有可能非常復雜
RMSProp其實和AdaGrad 是一樣的思路,但是具體求分母的時候,它考慮了歷史gradient和新的g的權(quán)重a 。
Momentum
如何找到最優(yōu)的網(wǎng)絡參數(shù)呢?
optimize loss 的時候,很有可能就會遇到如下三大問題:
-
慢 very slow
-
局部最優(yōu) local minimal
-
鞍點 saddle point
我們可以考慮在物理世界的場景進行映射:小球從山上滑落,在局部最低的時候,他的動量讓它沖出局部。
我們復習一下梯度下降:Gradient的方向和Movement 的方向相反
當我們考慮運動的動量后:
-
運動不在是基于梯度,而是基于以前的運動
-
Movement not just based on gradient, but previous movement.
其中 movement = laststep of movement - present gradient
Momentum 雖然不能保證走出“困境”,但是這是一個巨大的進步
Adam 算法
Adam 算法是結(jié)合 RMSProp 和 Momentum, 來尋找最優(yōu)解。看起來比較復雜,
實際上懂 RMSProp 和 Momentum后,也就很快理解了。
2.?New?activation function
深度學習中我們總結(jié)出5大技巧:本節(jié)我們就從新的激活函數(shù)Relu談起。
新的激活函數(shù) new activation function
我們知道,激活函數(shù)在基于神經(jīng)網(wǎng)絡的深度學習中將線性變換,轉(zhuǎn)換為非線性變換。是神經(jīng)網(wǎng)絡能夠?qū)W到東西的重要一環(huán)。常用的激活函數(shù)有sigma, tanh 等。
從辛頓大神在2012年imagenet 中的CNN網(wǎng)絡中引入relu,這個神奇的看上去是線性的激活函數(shù)進入我們的視野,以后扮演者非常重要的作用。
那為什么要引入relu,sigma、tanh 函數(shù)有什么缺點呢?
最主要的問題在于deep learning 無法真正deep:
如圖所示,訓練上8層之后,正確率急速下降。 這是為什么呢?
主要原因在于梯度消失Vanishing Gradient Problem
如圖所示:傳統(tǒng)的激活函數(shù),數(shù)據(jù)變化后,輸出的變化比輸入小,而且根據(jù)ChainRule, 層數(shù)越深,梯度值相乘的結(jié)果越小,小到接近于0的時候,就無法學習了。
所以,我們引入Relu,他的特點是:
1. 計算快速(導數(shù)是1)
2. 生物學原理(貌似是大腦回路,不太了解)
3. linear piece 可以模擬任何函數(shù)(在以后的深度學習理論會講)
4. 重點是:可以解決梯度消失的問題
Relu 可以簡化神經(jīng)網(wǎng)絡:
雖然Relu看起來很好(有嚴格數(shù)學證明,以后會深入講),但是在小于0的時候?qū)?shù)為0,對于參數(shù)學習是不利的:所以我們引入Relu的變種:leaky Relu, Parametirc Relu, 以后還會談到 Selu
本專欄圖片、公式很多來自臺灣大學李弘毅老師、斯坦福大學cs229、cs231n 、斯坦福大學cs224n課程。在這里,感謝這些經(jīng)典課程,向他們致敬!
作者簡介:武強 蘭州大學博士,谷歌全球開發(fā)專家Google Develop Expert(GDE Machine Learing 方向)?
CSDN:https://me.csdn.net/dukuku5038?
知乎:https://www.zhihu.com/people/Dr.Wu/activities?
漫畫人工智能公眾號:DayuAI-Founder
系列筆記:?
系列筆記 | 深度學習連載(1):神經(jīng)網(wǎng)絡
系列筆記 | 深度學習連載(2):梯度下降
系列筆記 | 深度學習連載(3):反向傳播
推薦閱讀
(點擊標題可跳轉(zhuǎn)閱讀)
干貨 | 公眾號歷史文章精選
我的深度學習入門路線
我的機器學習入門路線圖
?
?
?
最新 AI 干貨,我在看?
總結(jié)
以上是生活随笔為你收集整理的系列笔记 | 深度学习连载(4):优化技巧(上)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FTP常用的73个基本用法:
- 下一篇: 他无意间玩了这12个游戏,却掌握了Pyt