alexnet训练多久收敛_AlexNet浅析
(未經作者同意禁止轉載)
AlexNet是在2012年由Hinton的學生Alex Krizhevsky提出的深度卷積神經網絡模型,AlexNet可以說是LeNet的繼承和發展,AlexNet具有6000萬個參數和65萬個神經元的神經網絡由五個卷積層和三個全連接層,以及最后的1000維的softmax層組成。
AlexNet網絡架構
ImageNet上測試的結果表明,AlexNet比(論文發表時的)以前所有的網絡的性能都要高,而且需要的訓練時間更少。下面簡單分析AlexNet的創新點,并探討它們是如何影響性能的:
1)將ReLU代替sigmoid作為CNN的激活函數,并驗證了ReLU在較深的網絡里性能優于sigmoid,有效解決了sigmoid引起的梯度彌散的問題。而且ReLU比sigmoid的學習速度更快,節省訓練時間。
2)多GPU訓練,由于以前的GPU內存(GTX580內存為3G)較小,這限制了可以在其上訓練的網絡的最大尺寸。AlexNet將網絡分布在兩個GPU上,而在訓練時GPU僅在特定的層間進行通信,從而減少性能消耗。與在單個GPU上訓練且每個卷積層的內核數量少一半的網絡相比,這個方案分別將top-1和top-5的錯誤率分別降低了1.7%和1.2%。雙GPU網絡的訓練時間比單GPU網絡的訓練時間少一點。
3)提出LRN局部響應歸一化(用于ReLU后),不同的內核計算的神經元輸出之間產生對大激活度的競爭,使得局部較大的響應值更大,而小的會變得更小,從而抑制了小的神經元,增強模型的泛化能力。響應歸一化將top-1和top-5的錯誤率分別降低了1.4%和1.2%。
4)使用重疊的最大池化代替平均池化,避免平均池化造成的模糊化效果。而且Alexnet中的步長比池化核的尺寸要小,池化層的輸出間會有重疊,這樣使特征能表現更多的內容,提高識別性能。這個方案將top-1和top-5的錯誤率分別降低了0.4%和0.3%。通常在訓練期間觀察到重疊池模型稍微難以過度擬合。
5)Dropout即以0.5的概率把每個隱藏的神經元的輸出設置為零。以這種方式“dropout”的神經元不參與正向傳遞,也不參與反向傳遞。所以每次提交輸入時,神經網絡都采樣不同的體系結構,但是所有這些體系結構共享權重。這種技術減少了神經元的復雜的共同適應,因為神經元不能依賴于特定的其他神經元的存在。注意dropout大致使收斂所需的迭代次數翻倍。
6)數據增強。因為Alexnet的參數量巨多,容易造成過擬合,通過截取,平移,翻轉還有RGB像素值集上做PCA(對于每個訓練圖像,成倍增加已有的主成分)等方法使得數據集更豐富,從而提高泛化能力。從原始圖像生成變換的圖像是在CPU上的Python代碼中生成的,而GPU正在訓練上一批圖像,這節約了時間。
總結
以上是生活随笔為你收集整理的alexnet训练多久收敛_AlexNet浅析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pandas pivot 计算占比_数据
- 下一篇: python flask分页_flask