2.4 梯度下降法-深度学习-Stanford吴恩达教授
| 2.3 Logistic 回歸損失函數 | 回到目錄 | 2.5 導數 |
梯度下降法 (Gradient Descent)
梯度下降法可以做什么?
在你測試集上,通過最小化代價函數(成本函數) J(w,b)J(w,b)J(w,b) 來訓練的參數 www 和 bbb ,
如圖,在第二行給出和之前一樣的邏輯回歸算法的代價函數(成本函數)
梯度下降法的形象化說明
在這個圖中,橫軸表示你的空間參數 www 和 bbb ,在實踐中, www 可以是更高的維度,但是為了更好地繪圖,我們定義 www 和 bbb ,都是單一實數,代價函數(成本函數) J(w,b)J(w,b)J(w,b) 是在水平軸 www 和 bbb 上的曲面,因此曲面的高度就是 J(w,b)J(w,b)J(w,b) 在某一點的函數值。我們所做的就是找到使得代價函數(成本函數) J(w,b)J(w,b)J(w,b) 函數值是最小值,對應的參數 www 和 bbb 。
如圖,代價函數(成本函數) J(w,b)J(w,b)J(w,b) 是一個凸函數(convex function),像一個大碗一樣。
如圖,這就與剛才的圖有些相反,因為它是非凸的并且有很多不同的局部最小值。由于邏輯回歸的代價函數(成本函數) J(w,b)J(w,b)J(w,b) 特性,我們必須定義代價函數(成本函數) J(w,b)J(w,b)J(w,b) 為凸函數。 初始化 www 和 bbb,
可以用如圖那個小紅點來初始化參數 www 和 bbb ,也可以采用隨機初始化的方法,對于邏輯回歸幾乎所有的初始化方法都有效,因為函數是凸函數,無論在哪里初始化,應該達到同一點或大致相同的點。
我們以如圖的小紅點的坐標來初始化參數 www 和 bbb 。
2. 朝最陡的下坡方向走一步,不斷地迭代
我們朝最陡的下坡方向走一步,如圖,走到了如圖中第二個小紅點處。
我們可能停在這里也有可能繼續朝最陡的下坡方向再走一步,如圖,經過兩次迭代走到第三個小紅點處。
3.直到走到全局最優解或者接近全局最優解的地方
通過以上的三個步驟我們可以找到全局最優解,也就是代價函數(成本函數) J(w,b)J(w,b)J(w,b) 這個凸函數的最小值點。
梯度下降法的細節化說明(僅有一個參數)
假定代價函數(成本函數) J(w)J(w)J(w) 只有一個參數 www ,即用一維曲線代替多維曲線,這樣可以更好畫出圖像。
迭代就是不斷重復做如圖的公式:
:=:=:= 表示更新參數,
α\alphaα 表示學習率(learning rate),用來控制步長(step),即向下走一步的長度 dJ(w)dw\frac{dJ(w)}{dw}dwdJ(w)? 就是函數 J(w)J(w)J(w) 對 www 求導(derivative),在代碼中我們會使用 dwdwdw 表示這個結果
對于導數更加形象化的理解就是斜率(slope),如圖該點的導數就是這個點相切于 J(w)J(w)J(w) 的小三角形的高除寬。假設我們以如圖點為初始化點,該點處的斜率的符號是正的,即 dJ(w)dw>0\frac{dJ(w)}{dw}>0dwdJ(w)?>0 ,所以接下來會向左走一步。
整個梯度下降法的迭代過程就是不斷地向左走,直至逼近最小值點。
假設我們以如圖點為初始化點,該點處的斜率的符號是負的,即 dJ(w)dw<0\frac{dJ(w)}{dw}<0dwdJ(w)?<0 ,所以接下來會向右走一步。
整個梯度下降法的迭代過程就是不斷地向右走,即朝著最小值點方向走。
梯度下降法的細節化說明(兩個參數)
邏輯回歸的代價函數(成本函數) J(w,b)J(w,b)J(w,b) 是含有兩個參數的。
?\partial? 表示求偏導符號,可以讀作round, ?J(w,b)?w\frac{\partial J(w,b)}{\partial w}?w?J(w,b)? 就是函數 J(w,b)J(w,b)J(w,b) 對 www 求偏導,在代碼中我們會使用 dwdwdw 表示這個結果, ?J(w,b)?b\frac{\partial J(w,b)}{\partial b}?b?J(w,b)? 就是函數 J(w,b)J(w,b)J(w,b) 對 bbb 求偏導,在代碼中我們會使用 dbdbdb 表示這個結果, 小寫字母 ddd 用在求導數(derivative),即函數只有一個參數, 偏導數符號 ?\partial? 用在求偏導(partial derivative),即函數含有兩個以上的參數。
課程PPT
| 2.3 Logistic 回歸損失函數 | 回到目錄 | 2.5 導數 |
總結
以上是生活随笔為你收集整理的2.4 梯度下降法-深度学习-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2.3 Logistic 回归损失函数-
- 下一篇: 2.5 导数-深度学习-Stanford