梯度、梯度下降,随机梯度下降
一、梯度gradient
http://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6
在標量場f中的一點處存在一個矢量G,該矢量方向為f在該點處變化率最大的方向,其模也等于這個最大變化率的數值,則矢量G稱為標量場f的梯度。
在向量微積分中,標量場的梯度是一個向量場。
標量場中某一點上的梯度指向標量場增長最快的方向,梯度的長度是這個最大的變化率。
更嚴格的說,從歐氏空間Rn到R的函數的梯度是在Rn某一點最佳的線性近似。在這個意義上,梯度是雅戈比矩陣的一個特殊情況。
在單變量的實值函數的情況,梯度只是導數,或者,對于一個線性函數,也就是線的斜率。
梯度一詞有時用于斜度,也就是一個曲面沿著給定方向的傾斜程度。
一個標量函數的梯度記為:?或?, 其中(nabla)表示矢量微分算子。
?
二、梯度下降法
http://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95
梯度下降法,基于這樣的觀察:
如果實值函數??在點??處可微且有定義,那么函數?在??點沿著梯度相反的方向??下降最快。因而,如果
對于??為一個夠小數值時成立,那么?。
?是向量。
考慮到這一點,我們可以從函數??的局部極小值的初始估計??出發,并考慮如下序列??使得
因此可得到
如果順利的話序列??收斂到期望的極值。注意每次迭代步長??可以改變。
?
梯度下降法的缺點是:
- 靠近極小值時速度減慢。
- 直線搜索可能會產生一些問題。
- 可能會'之字型'地下降。
?
三、隨機梯度下降法stochastic gradient descent,也叫增量梯度下降
由于梯度下降法收斂速度慢,而隨機梯度下降法會快很多
–根據某個單獨樣例的誤差增量計算權值更新,得到近似的梯度下降搜索(隨機取一個樣例)
–可以看作為每個單獨的訓練樣例定義不同的誤差函數
–在迭代所有訓練樣例時,這些權值更新的序列給出了對于原來誤差函數的梯度下降的一個合理近似
–通過使下降速率的值足夠小,可以使隨機梯度下降以任意程度接近于真實梯度下降
?標準梯度下降和隨機梯度下降之間的關鍵區別
–標準梯度下降是在權值更新前對所有樣例匯總誤差,而隨機梯度下降的權值是通過考查某個訓練樣例來更新的
–在標準梯度下降中,權值更新的每一步對多個樣例求和,需要更多的計算
–標準梯度下降,由于使用真正的梯度,標準梯度下降對于每一次權值更新經常使用比隨機梯度下降大的步長
–如果標準誤差曲面有多個局部極小值,隨機梯度下降有時可能避免陷入這些局部極小值中
from:?http://www.cnblogs.com/549294286/archive/2012/12/13/2817204.html
總結
以上是生活随笔為你收集整理的梯度、梯度下降,随机梯度下降的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 梯度下降(Gradient Descen
- 下一篇: 如何编写Hadoop调度器