关于Increased rates of convergence through learning rate adaptation一文的理解
原文地址:http://www.researchgate.net/profile/Robert_Jacobs9/publication/223108796_Increased_rates_of_convergence_through_learning_rate_adaptation/links/0deec525d8f8dd5ade000000.pdf
已經看了CNN,rbm,sae等網絡及算法,所有網絡在訓練時都需要一個learning rate,一直以來都覺得這個量設為定值即可,現在才發現其實這個量也可以變更和學習。
文章中提到的時最早的神經網絡learning rate,不過我覺得對現在有啟發作用。文中提出神經網絡中,如果把error function看成是一個多變量函數,每個參數對應一個變量,那么這個函數在每個參數wi方向上變化的速度是不同的,并且如果error function不是圓形的話,負梯度方向并不是指向最小值的(這個畫個橢圓做個切線就知道),因此應該采用不同的learning rate。
隨后提出了作者一種啟發式的方法就是在神經網絡中,如果一個參數每次的導數的符號保持不變,說明它一直沿正方向走,那么應該增大learning rate以達到更快地到達最小值點,如果一個參數每次的導數的符號經常變化,說明它已經越過了最小值點,在最小值點附近擺動,那么應該減小learning rate讓它穩定。
隨后就是算法,一個是momentum方法,,這樣前面的導數可以影響后面的參數變更,從而使一直沿一個方向走的參數的改變,否則減小參數的改變。
第二種是delta-delta learning rule,這個ε(t+1)是根據
得出的,第二個式子的結果就是learning rate的導數,可以用sgd更新learning rate。但顯然,這會有一個缺陷,結束第二個式子的結果是兩個導數相乘,會比較小,所以這個方法不好,有個改進版的。
?
這個函數結合了那兩個原則并且防止learning rate減到小于0,線性增加也不會增加的太快。
希望本博客對別人有幫助,謝謝。
?
轉載于:https://www.cnblogs.com/caozj/p/4841344.html
總結
以上是生活随笔為你收集整理的关于Increased rates of convergence through learning rate adaptation一文的理解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android解决java.lang.O
- 下一篇: 浣溪沙·过杜甫草堂有感