网络中出现的问题、原因以及解决措施总结
文章目錄
- 問(wèn)題1:梯度消失
- 問(wèn)題2:梯度爆炸
- 問(wèn)題3:過(guò)擬合
- 問(wèn)題4:欠擬合
- 問(wèn)題5:退化現(xiàn)象
- 引用
問(wèn)題1:梯度消失
定義:網(wǎng)絡(luò)反向傳播權(quán)值越算越小到最后權(quán)值可以忽略不計(jì)了。
判斷方法:隨著隱藏層數(shù)目的增加,分類準(zhǔn)確率下降。
原因:網(wǎng)絡(luò)太深,網(wǎng)絡(luò)權(quán)重更新不穩(wěn)定造成的,本質(zhì)上是因?yàn)樘荻确较騻鞑サ倪B乘效應(yīng)。
解決方案:
①使用Relu、LeakRelu、Elu等激活函數(shù);
ReLU的作用:①解決了梯度消失、爆炸的問(wèn)題②計(jì)算方便,計(jì)算速度快③加速了網(wǎng)絡(luò)的訓(xùn)練
②加BN層;
BN的作用:①加速網(wǎng)絡(luò)收斂速度 ②可以改善梯度消失問(wèn)題
③使用殘差網(wǎng)絡(luò)結(jié)構(gòu);
④使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM);
⑤預(yù)訓(xùn)練微調(diào)。
問(wèn)題2:梯度爆炸
定義:網(wǎng)絡(luò)反向傳播權(quán)值越來(lái)越大,以指數(shù)形式增長(zhǎng)。
判斷方法:隨著隱藏層數(shù)目的增加,分類準(zhǔn)確率下降。
原因:網(wǎng)絡(luò)太深,網(wǎng)絡(luò)權(quán)重更新不穩(wěn)定造成的,本質(zhì)上是因?yàn)樘荻确较騻鞑サ倪B乘效應(yīng)。
解決方案:
①梯度剪切:思想是設(shè)置一個(gè)梯度剪切閾值,然后更新梯度的時(shí)候,如果梯度超過(guò)這個(gè)閾值,那么就將其強(qiáng)制限制在這個(gè)范圍之內(nèi)。這可以防止梯度爆炸
②權(quán)重正則化:比較常見的是l1正則,和l2正則;
③使用Relu、LeakRelu、Elu等激活函數(shù);
④加BN層;
⑤使用殘差網(wǎng)絡(luò)結(jié)構(gòu);
⑥預(yù)訓(xùn)練微調(diào),權(quán)重初始化調(diào)小。
問(wèn)題3:過(guò)擬合
定義:訓(xùn)練集準(zhǔn)確率高(loss小)而驗(yàn)證集準(zhǔn)確率低(loss大)。
判斷方法:對(duì)比訓(xùn)練集和驗(yàn)證集準(zhǔn)確率和損失,如果相差過(guò)大就有可能過(guò)擬合了。
解決方案:
①權(quán)重衰減,即L1、L2正則化;
②提前停止;
③擴(kuò)大訓(xùn)練集樣本、數(shù)據(jù)增強(qiáng);
④重新選用合適的模型,減小網(wǎng)絡(luò)容量;
⑤添加Dropout;
⑥參數(shù)共享與參數(shù)綁定;
⑦bagging:可以組合多個(gè)模型起到減少泛化誤差的作用;
⑧輔助分類器:在Google Inception V1中,采用了輔助分類節(jié)點(diǎn)的策略,即將中間某一層的輸出用作分類,并按一個(gè)較小的權(quán)重加到最終的分類結(jié)果中,這樣相當(dāng)于做了模型的融合,同時(shí)給網(wǎng)絡(luò)增加了反向傳播的梯度信號(hào),提供了額外的正則化的思想;
⑨加入BN層:在Google Inception V2中所采用,是一種非常有用的正則化方法,可以讓大型的卷積網(wǎng)絡(luò)訓(xùn)練速度加快很多倍,同時(shí)使得收斂后分類的準(zhǔn)確率也可以大幅度的提高;
⑩使用交叉驗(yàn)證方法。
問(wèn)題4:欠擬合
定義:網(wǎng)絡(luò)學(xué)習(xí)不到東西,在訓(xùn)練集時(shí)準(zhǔn)確率就很差(loss高)。
解決方案:
①尋找最優(yōu)的權(quán)重初始化方案;
②使用適當(dāng)?shù)募せ詈瘮?shù),如ReLU;
③選擇合適的優(yōu)化器和學(xué)習(xí)率。SGD,Momentum、Adagrad、Adadelta。可以選擇開始用Adadelta,快收斂時(shí)用SGD,即優(yōu)化器的組合效果會(huì)更好;
④選擇更深、更復(fù)雜的模型,以此來(lái)學(xué)習(xí)到更多特征。
問(wèn)題5:退化現(xiàn)象
定義:隨著網(wǎng)絡(luò)深度的增加,準(zhǔn)確率開始達(dá)到飽和并且在之后會(huì)迅速下降。
原因:網(wǎng)絡(luò)過(guò)于復(fù)雜,訓(xùn)練不加約束。
解決方案:使用殘差網(wǎng)絡(luò)結(jié)構(gòu)。
引用
[1] 如何理解和解決神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸_貓敷雪-CSDN博客
[2] 神經(jīng)網(wǎng)絡(luò)防止過(guò)擬合的方法 - bonelee - 博客園 (cnblogs.com)
總結(jié)
以上是生活随笔為你收集整理的网络中出现的问题、原因以及解决措施总结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 榆熙教育:店铺DSR评分如何理解?
- 下一篇: 马云的“虚拟信用卡”动了谁的奶酪?