系列笔记 | 深度学习连载(2):梯度下降
點擊上方“AI有道”,選擇“星標”公眾號
重磅干貨,第一時間送達
我們回憶深度學習“三板斧”:
1.?選擇神經網絡
2.?定義神經網絡的好壞
3.?選擇最好的參數集合
其中步驟三,如何選擇神經網絡的好壞呢?
梯度下降是目前,最有效的方法之一。
方法:我們舉兩個參數的例子?θ1、θ2,?損失函數是L。那么它的梯度是:
那我為了求得最小值,我們有:
參數不斷被梯度乘以學習率η?迭代
那么上述公示公為什么是減號,不是加號呢?
我們定義?θ?改變的方向是movement的方向,?而gradient的方向是等高線的法線方向
基礎的Gradient Decent已經介紹完了,接下來,我們一起探討GD的使用技巧。
Learning?rate學習率的設定
Learning?Rate?η?如果設定不好,Loss反而增大
自適應的學習率?adaptive?learning?rate
很多小伙伴在機器學習代碼中,學習率一般都是設置為一個固定的數值(需要不斷調參)。
根據學習經驗,一般的我們有如下結論:
1.?訓練剛開始的時候,學習率較大
2.?經過幾輪訓練后,結果慢慢接近的時候,需要調小學習率
Adagrad?的學習率是現有學習率?除以?導數的平方和的開根號
Stochastic?Gradient?Decent?(SGD)
讓訓練更加快速
一般的GD方法是所有的訓練數據后,進行一次參數更新
SGD是一個樣本就可以更新參數
GD和SGD的對比效果:
特征裁剪?Feature?Scaling
讓不同維度的數據,有相同的變化幅度
訓練的時候,哪一個好train,一目了然
歸一化方法:
總結: Gradient Decent 是機器學習、深度學習求解Optimal問題的“普世”方法,但是也會遇到很多問題,例如local minima 和 saddle point 的問題。?我們以后會展開討論。
本專欄圖片、公式很多來自臺灣大學李弘毅老師、斯坦福大學cs229、cs231n 、斯坦福大學cs224n課程。在這里,感謝這些經典課程,向他們致敬!
作者簡介:武強 蘭州大學博士,谷歌全球開發專家Google Develop Expert(GDE Machine Learing 方向)?
CSDN:https://me.csdn.net/dukuku5038?
知乎:https://www.zhihu.com/people/Dr.Wu/activities?
漫畫人工智能公眾號:DayuAI-Founder
系列筆記:?
系列筆記 | 深度學習連載(1):神經網絡
? ? ? ? ? ?
推薦閱讀
(點擊標題可跳轉閱讀)
干貨 | 公眾號歷史文章精選
我的深度學習入門路線
我的機器學習入門路線圖
重磅!
林軒田機器學習完整視頻和博主筆記來啦!
掃描下方二維碼,添加?AI有道小助手微信,可申請入群,并獲得林軒田機器學習完整視頻 + 博主紅色石頭的精煉筆記(一定要備注:入群?+ 地點 + 學校/公司。例如:入群+上海+復旦。?
長按掃碼,申請入群
(添加人數較多,請耐心等待)
?
最新 AI 干貨,我在看?
總結
以上是生活随笔為你收集整理的系列笔记 | 深度学习连载(2):梯度下降的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一步一步教你在 docker 容器下使用
- 下一篇: FTP常用的73个基本用法: