當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

神经网络中BP(back propagation)到底在干些什么

發布時間：2024/7/5 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了神经网络中BP(back propagation)到底在干些什么小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

想要理解神經網絡的工作原理，反向傳播(BP)是必須搞懂的東西。BP其實并不難理解，說白了就是用鏈式法則(chain rule)算算算。本文試圖以某個神經網絡為例，盡可能直觀，詳細，明了地說明反向傳播的整個過程。

正向傳播

在反向傳播之前，必然是要有正向傳播的。正向傳播時的所有參數都是預先隨機取的，沒人能說這樣的參數好不好，得要試過才知道，試過之后，根據得到的結果與目標值的差距，再通過反向傳播取修正各個參數。下圖就是一個神經網絡，我們以整個為例子來說明整個過程

圖1：神經網絡圖

我懶，此圖取自參考文獻[1]，圖中的各個符號說明如下（順序從下往上）：
$x_i$ ：輸入樣本中的第 $i$ 個特征的值
$v_{ih}$ ： $x_i$ 與隱層第 $h$ 個神經元連接的權重
$αh\alpha_h$ ：第h個隱層神經元的輸入， $αh=∑i=1dvihxi\alpha_h=\sum_{i=1}^d v_{ih}x_i$
$b_h$ ：第h個隱層神經元的輸出，某個神經元的輸入和輸出有關系 $f(αh)=bhf(\alpha_h)=b_h$ ，其中 $f (x)$ 為激活函數，比如Sigmoid函數 $f(x)=11+e?xf(x)=\dfrac{1}{1+e^{-x}}$
$w_hj$ ：隱層第 $h$ 個神經元和輸出層第 $j$ 個神經元連接的權重
$βj\beta_j$ ：輸出層第 $j$ 個神經元的輸入， $βj=∑h=1qwhjbh\beta_j=\sum_{h=1}^q w_{hj}b_h$
$y_j$ ：第 $j$ 個輸出層神經元的輸出， $f(βj)=yjf(\beta_j)=y_j$ ， $f (x)$ 為激活函數
為了方便書寫，我們假設截距項bias已經在參數 $w$ 和 $v$ 之中了，也就是說在輸入數據的時候，我們增添了一個 $x_0=1$ ，由于我懶，圖中沒有畫出來，但心里要清楚這一點。
相信看了圖之后，神經網絡的正向傳播就相當簡單明了了，不過，這里我還是啰嗦一句，舉個例子，比如輸出 $y_j$ 的計算方法為

$yj=f(βj)=f(∑h=1qwhjbh)=f(∑h=1qwhjf(αh))=f(∑h=1qwhjf(∑i=1dvihxi))y_j=f(\beta_j)=f(\sum_{h=1}^q w_{hj}b_h)=f(\sum_{h=1}^q w_{hj}f(\alpha_h))=f(\sum_{h=1}^q w_{hj}f(\sum_{i=1}^d v_{ih}x_i))$

反向傳播

好了，通過正向傳播，我們就已經得到了 $l$ 個 $y$ 的值了，將它們與目標值 $t$ ，也就是我們期望它們成為的值作比較，并放入損失函數中，記作 $L$ 。
損失 $L$ 可以自行選擇，比如常見的均方誤差 $L=12∑j=1l(yj?tj)2L=\dfrac{1}{2}\sum_{j=1}^l (y_j - t_j)^2$
利用這個誤差，我們將進行反向傳播，以此來更新參數 $w$ 和 $v$ 。更新時，我們采用的是梯度下降法，也就是

${w:=w+Δwv:=v+Δv\begin{cases}w := w + \Delta w \\ v := v + \Delta v\end{cases}$

其中， $Δw=?η?L?w\Delta w = -\eta \dfrac{\partial L}{\partial w}$ ， $Δv=?η?L?v\Delta v = -\eta \dfrac{\partial L}{\partial v}$ ， $η\eta$ 為學習率。
下面要做的工作就是計算出每個參數的梯度，這也就是鏈式法則發揮作用的地方了。
比如，我們要計算 $w_{hj}$ 。從網絡結構中不難看出 $w_{hj}$ 影響了 $βj\beta_j$ 從而影響了 $y_j$ ，最終影響了 $L$ 所以我們有

$Δwhj=?η?βj?whj?yj?βj?L?yj\Delta w_{hj}=-\eta \dfrac{\partial \beta_j}{\partial w_{hj}} \dfrac{\partial y_j}{\partial \beta_j} \dfrac{\partial L}{\partial y_j}$

只要確定了損失函數 $L$ 和激活函數 $f (x)$ ，上面所有的都是可以算的，而且 $?βh?whj=bh\dfrac{\partial \beta_h}{\partial w_{hj}} = b_h$ 這點是顯而易見的。并且， $?yj?βj=?f(βj)?βj\dfrac{\partial y_j}{\partial \beta_j} = \dfrac{\partial f(\beta_j)}{\partial \beta_j}$ 就是激活函數的導數。
同理， $v_{ih}$ 影響了 $αh\alpha_h$ ，從而影響了 $b_h$ ，從而影響了 $β1\beta_{1}$ ， $β2\beta_{2}$ ，…， $βl\beta_{l}$ ，從而影響了 $y_1$ ， $y_2$ ，…， $y_l$ ，最終影響了 $L$ 。

$Δvih=?η?αh?vih?bh?αh∑j=1l(?βj?bh?yj?βj?L?yj)\Delta v_{ih} = -\eta \dfrac{\partial \alpha_h}{\partial v_{ih}} \dfrac{\partial b_h}{\partial \alpha_h}\sum_{j=1}^l (\dfrac{\partial \beta_j}{\partial b_h} \dfrac{\partial y_j}{\partial \beta_j} \dfrac{\partial L}{\partial y_j})$

其中， $?αh?vih=xi\dfrac{\partial \alpha_h}{\partial v_{ih}}=x_i$ ， $?βj?bh=whj\dfrac{\partial \beta_j}{\partial b_h} = w_{hj}$ ， $?yj?βj=?f(βj)?βj\dfrac{\partial y_j}{\partial \beta_j} = \dfrac{\partial f(\beta_j)}{\partial \beta_j}$ 和 $?bh?αh=?f(αh)?αh\dfrac{\partial b_h}{\partial \alpha_h} = \dfrac{\partial f(\alpha_h)}{\partial \alpha_h}$ 是激活函數的導數。
至此，我們已經可以算出 $Δw\Delta w$ 和 $Δv\Delta v$ ，從而更新參數了。

關于激活函數的幾點說明

從推出的公式中不難看出，隨著反向傳播向輸出層這個方向的推進，激活函數的影響也就越來越來了。通俗一點來說，在計算 $Δwhj\Delta w_{hj}$ ，我們只乘了一個激活函數的導數，然而在計算 $Δvih\Delta v_{ih}$ 時，我們乘了多個激活函數的導數。

$Δwhj=?η?βj?whjf′(βj)?L?yj\Delta w_{hj}=-\eta \dfrac{\partial \beta_j}{\partial w_{hj}} f'(\beta_j) \dfrac{\partial L}{\partial y_j}$

$Δvih=?η?αh?vihf′(αh)∑j=1l(?βj?bhf′(βj)?L?yj)\Delta v_{ih} = -\eta \dfrac{\partial \alpha_h}{\partial v_{ih}} f'(\alpha_h) \sum_{j=1}^l (\dfrac{\partial \beta_j}{\partial b_h} f'(\beta_j) \dfrac{\partial L}{\partial y_j})$

不難推斷出，如果隱層的層數更多的話，激活函數的影響還要更大。
一個比較傳統的激活函數時Sigmoid函數，其圖像如下所示。

圖2：Sigmoid函數

不難發現，當 $x$ 比較大的時候，或比較小的時候， $f^{'} (x)$ 是趨近于0的，當神經網絡的層數很深的時候，這么多個接近0的數相乘就會導致傳到輸出層這邊的時候已經沒剩下多少信息了，這時梯度對模型的更新就沒有什么貢獻了。那么大多數神經元將會飽和，導致網絡就幾乎不學習。這其實也是Sigmoid函數現在在神經網絡中不再受到青睞的原因之一。
另一個原因是Sigmoid 函數不是關于原點中心對稱的，這會導致梯度在反向傳播過程中，要么全是正數，要么全是負數。導致梯度下降權重更新時出現 Z 字型的下降。
所以，就出現了ReLU這個激活函數 $f(x)=max?(0,x)f\left( x\right) =\max \left( 0,x\right)$ ，其圖像如下圖所示。

圖3：ReLU函數

ReLU 對于 SGD 的收斂有巨大的加速作用，而且只需要一個閾值就可以得到激活值，而不用去算一大堆復雜的（指數）運算。
不過，由于它左半邊的狀態，ReLU在訓練時比較脆弱并且可能“死掉”。
因此，人們又研究出了Leaky ReLU，PReLU等等的激活函數。這里不展開討論。

參考文獻

[1] 周志華. 機器學習 : = Machine learning[M]. 清華大學出版社, 2016.
[2] http://cs231n.github.io/neural-networks-1/
[2] http://www.jianshu.com/p/6df4ab7c235c

總結

以上是生活随笔為你收集整理的神经网络中BP(back propagation)到底在干些什么的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：天池在线编程最长AB子串（哈希）
下一篇： LeetCode 1769. 移动所有球