神经网络原理简介
1,類比生物神經元
2,層次結構
輸入層,隱藏層(1,2),輸出層;線可以理解為權重參數w。在神經網絡中需要指定w的大小(矩陣的大小)
神經網絡的流程:輸入數據;前向傳播計算損失值;反向傳播計算梯度;使用梯度更新參數
3,非線性結構(激活函數)
激活函數作用于前一層權重參數后:
4,激活函數
4.1 Sigmoid激活函數
反向傳播中的求導操作:
當x的絕對值較大時,則導數接近為0,則在鏈式法則中易出現梯度消失,使得權重參數無法進一步更新,神經網絡也無法收斂,因此后來的神經網絡大多不采用此函數作為激活函數。
4.2 ReLU激活函數
ReLU激活函數一方面可以解決梯度消失的問題,另一方面求導方便,因此后來的神經網絡中通常使用該函數作為激活函數。
5,正則化項在神經網絡中的重要作用
由于一些異常點,神經網絡較易出現過擬合現象,正則化懲罰項可以有效抑制過擬合現象,增強神經網絡的泛化能力。
越多的神經元(相當于權重參數),就越能夠表達能復雜的模型,但過擬合的風險越大
6,數據預處理
以0為中心化(都減去均值),然后歸一化處理(除以標準差來消除x,y軸浮動不同)。
7,權重w和偏置項b的初始化
權重不能以相同值來初始化,否則反向傳播后都是朝一個方向更新,相當于神經網絡迭代太慢。通常采用高斯初始化或隨機初始化
b可以用常值(0或1)來初始化。
8,Drop-out
全連接:對n-1層和n層而言,n-1層的任意一個節點,都和第n層所有節點有連接。即第n層的每個節點在進行計算的時候,激活函數的輸入是n-1層所有節點的加權。
全連接是一種不錯的模式,但是網絡很大的時候,訓練速度會很慢,并且易出現過擬合的現象。
為了解決上述問題在每次訓練時隨機不考慮部分神經元(對一些權重參數不進行更新),即Drop-out操作如下圖:
雖然參與訓練的參數減少,但是我們可以加大迭代步數來彌補這一缺陷。
總結
- 上一篇: 复联4定档4月24号,请列举复联4上映后
- 下一篇: 德艺双馨下一句是什么啊?