一天搞懂深度学习—学习笔记4(knowledge and tricks)
1.ultra deep network
世界上的摩天大樓有很多,而且大家也都一直在互相攀比誰的更高。文中給出了幾個標志性建筑,Great Pyramid < Eiffel Tower < Empire State < World Trade Center < CN Tower < Burj Khalifa,有興趣可以去查查
在神經網絡的世界里,前面也提到過了,Thin and Tall會好一些,文中給出了幾個經典的CNN網絡層次圖,如下
網絡的層數越多,意味著能夠提取到不同level的特征越豐富。并且,越深的網絡提取的特征越抽象,越具有語義信息。原來的網絡,如果簡單地增加深度,會導致梯度彌散或梯度爆炸。即使通過上述方法能夠訓練了,但是又會出現另一個問題,就是退化問題,網絡層數增加,但是在訓練集上的準確率卻飽和甚至下降了。這個不能解釋為overfitting,因為overfit應該表現為在訓練集上表現更好才對。退化問題說明了深度網絡不能很簡單地被很好地優化。作者通過實驗證明:通過淺層網絡+ y=x 等同映射構造深層模型,結果深層模型并沒有比淺層網絡有等同或更低的錯誤率,推斷退化問題可能是因為深層的網絡并不是那么好訓練,也就是求解器很難去利用多層網絡擬合同等函數。 參考http://www.jianshu.com/p/e58437f39f65
2.Attention-based Model
這個地方我覺得PDF文檔寫的不怎么精細,找了一個知乎的回答,算是個學習了參考https://www.zhihu.com/question/36591394
在大部分的論文中,Attention是一個權重vector(通常是softmax的輸出),其維度等于context的長度。越大的權重代表對應位置的context越重要。不同論文對attention權重的計算方式不同,但其核心拋不開上述兩點。
這篇博文沒什么自己的內容,主要對幾個比較重要的知識點做了提及,并且給出了相應的好的解釋博文的連接。這篇加上以上三篇論文作為自己進入這個領域的理論知識點的一個歸納總結。希望自己以后多閱讀一些機器學習的論文,向前輩學習,同時多進行整理歸納。
總結
以上是生活随笔為你收集整理的一天搞懂深度学习—学习笔记4(knowledge and tricks)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: WhqDatabase 我自己用C#开发
- 下一篇: ATM + 购物商城程序