李宏毅深度学习——梯度下降
?Loss function是function的function(function為自變量,線性回歸中w、b為自變量)
一開始離目標(biāo)遠(yuǎn)learning_rate的值要比較大,等到離目標(biāo)近的時候調(diào)小learning_rate
?是導(dǎo)數(shù),是所有之前步驟算出?的均方根(先求平方,再求均值,最后開根號)
?出現(xiàn)矛盾,分母的地方gradient越大步伐越小,分子的地方gradient越大步伐越大
一個參數(shù)的時候,最好的步伐和微分大小成正比
a和b比較,a的微分大,a距離最低點是比較遠(yuǎn)(只考慮w1)
c和d比較,c的微分大,c距離最低點是比較遠(yuǎn)(只考慮w2)
如果比較是跨參數(shù)的話,結(jié)論就不成立了。c對w2的微分值大,a對w1的微分值小,但是c離最低點更近
所以不僅要考慮一次微分,還要考慮二次微分
最好的step不僅要正比于一次微分,還要和二次微分成反比?
w1這張圖的二次微分小,w2這張圖的二次微分大,這樣就能解釋,c對w2的微分值大,a對w1的微分值小,但是c離最低點更近,因為還要除掉各自的二次微分。
adagrad并沒有直接計算二次微分(要花很長時間),adagrad是利用一次微分來估計二次微分
隨機(jī)梯度下降,加快速度
w1對y的影響比較小,所以對loss的影響比較小
w2對y的影響比較大,所以對loss的影響比較大
這對gradient descent有影響(沒直接往圓心走),隨意要去量綱
錯誤,update參數(shù)以后loss不一定會下降?
?
?
(u,v) 是一個向量
(delta(theta1),delta(theta2))也是一個向量
要求兩個向量的內(nèi)集最小
顯然兩者成180度的時候,模模cos(theta)是最小的
前提是learning_rate一定要小,不然不成立
《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的李宏毅深度学习——梯度下降的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李宏毅ML作业一
- 下一篇: 李宏毅深度学习——优化方法