當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

神经网络的梯度消失和过拟合产生原因及其解决方案

發布時間：2024/9/30 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了神经网络的梯度消失和过拟合产生原因及其解决方案小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

梯度消失原因

當神經網絡層數加深時，可能會出現一些問題。

梯度消亡的現象：神經網絡輸入端的網絡層的系數逐漸不再隨著訓練而變化，或者變化得很緩慢。隨著網絡層數增加，這個現象越發明顯。

梯度消失的前提：

梯度消亡問題分析

梯度下降算法依靠理解系數的微小變化對輸出的影響來學習網絡系數的值。如果一個系數的微小變化對網絡的輸出沒有影響或者影響非常小，那么就無法知道如何優化這個系數，或者優化得非常慢，造成訓練的困難。
使用梯度下降算法訓練網絡，如果激活函數具備輸出值范圍遠小于輸入值范圍，那么就會出現梯度消失，例如，雙曲正切函數tanh將 -∞到+∞的輸入壓縮到輸出-1到+1之間，除開-6到+6之間的數，其他輸入值的梯度變化都非常小，接近于0。如圖藍色為tanh函數，紅色為梯度

梯度消失解決方案

深度神經網絡面臨的第二個問題：過擬合。
以二分類問題為例
我們需要找到一條線把兩類分開。過擬合就是在訓練集表現得太好，沒有找到普遍規律，在測試集上錯誤反而比較高。_

常用的過擬合解決方案：

dropout
首先需要選擇rate，如選擇1/3
在一輪訓練中，有1/3的隱含層神經元被舍棄用，如圖1，
第二輪中，又有隨機1/3的隱含層神經元被舍棄用，如圖2
在第三輪中，又有隨機1/3的隱含層神經元被舍棄用，如圖3

最后結束后，使用整體網絡,和每個神經元系數，因為之前網絡變小（只有部分神經元發揮作用）時得到的是輸出值，這次網絡變大了，所以最每個神經元系數要乘以(1-dropout rate)

L2正則化

L1正則化

最大范數約束

這里和過擬合無關

bias(偏置系數）：初始化為0
普通系數：初始化為

n為神經元中輸入元素的個數。

作者：電氣工程的計算機萌新-余登武

以上是生活随笔為你收集整理的神经网络的梯度消失和过拟合产生原因及其解决方案的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。