从频率角度理解为什么深度可以加速神经网络的训练
?PaperWeekly 原創 ·?作者|周瀚旭、許志欽
單位|上海交通大學
研究方向|深度學習理論
深度加速訓練的效應
近些年來,隨著深度學習的發展,其已經在圖像、語音、自然語言處理等各個不同的領域展現出了優異的性能。在運用中,人們發現,更深層的神經網絡往往比隱藏層較少的神經網絡訓練得快,也有更好的泛化性能。雖然,隨著神經網絡的加深,可能會出現梯度消失的問題,但是通過例如 Resnet 殘差的手段,不僅能解決梯度消失的問題,還能夠提升網絡的訓練速度與泛化性能。
比如何愷明在《Deep Residual Learning for Image Recognition》的實驗,由于加入了殘差塊,34 層的卷積神經網絡的泛化性和訓練速度都比 18 層的卷積神經網絡要好。
泛化的問題往往還與數據集本身有密切的關系。因此,我們首先關注為什么加深網絡可以加快訓練。為避免歧義,我們定義訓練快慢是通過看網絡達到一個固定誤差所需要的訓練步數。盡管更深的網絡每步需要的計算量更大,但這里我們先忽略這個因素。
為了研究這個問題,首先我們用一個簡單的實驗來重現這個現象。下圖是用不同層數但每層大小一致的 DNN 學習目標函數 cos(3x)+cos(5x),訓練到一個固定精度所需要的步數圖。我們發現,越深層的神經網絡,需要越少的步數,就能夠完成任務。
即使是對于這么簡單的任務,幾乎沒有文章能夠通過數學理論來解釋這樣的問題;盡管有一些工作開始分析深度線性網絡,但仍然幾乎沒有文章能夠從一個比較清晰的視角,通過實驗或理論,來解釋這樣一個非線性神經網絡的現象。
因此,即使提供一個可能的理解視角,也是十分必要的。我們工作提出了一個深度頻率原則來解釋深度帶來的加速效應。在這之前,我們首先來看一下什么叫頻率原則。
頻率原則(Frequency Principle)
頻率原則可以用一句話概括:深度學習傾向于優先擬合目標函數的低頻部分。
我們先用一個簡單的例子來理解 F-Principle。用一個深度神經網絡(DNN)去擬合如下的紅色實線函數。訓練完成后,函數能被深度網絡(藍色點)很好地擬合。
我們想要從頻域的角度,觀察 DNN 的訓練過程。如下圖動畫所示,紅色為目標函數的 FT(傅里葉變換),藍色為網絡輸出的FT,每一幀表示一個訓練步,橫坐標是頻率,縱坐標是振幅。我們發現,隨著訓練的進行,DNN 表示的函數在頻域空間顯現出了清晰的規律,即頻率從低到高依次收斂。
頻率原則雖然簡單,但它為理解深度學習的泛化以及設計高效的神經網絡結構提供了非常重要的基礎,并且現在已經有一系列理論為頻率原則提供了支撐。
深度頻率原則
接下來,我們將從頻率視角來看深度的影響。對于隱藏層 hi,它的輸入是它前一層的輸出。在神經網絡優化過程中,梯度是反向傳播的,也就是說,當我們在更新隱藏層 hi 的參數時,誤差的信號是從真實標簽和神經網絡輸出的差異開始向前傳播的。
因此,對于子網絡(從隱藏層 hi 到輸出層),它的等效目標函數是由隱藏層 hi 的前一層的輸出和真實的標簽構成。基于此,我們在分析階段將整個多層的神經網絡分成兩個部分,pre-condition component 和 learning component,并將著重分析 learning component 的等效目標函數在不同條件下的表現。注意,訓練時,我們仍然像往常一樣,訓練所有的參數。
假設兩個不同的神經網絡有相同的 learning component,即它們的最后若干層是相同的。若其中一個 learning component 的等效目標函數更加低頻,那這個神經網絡的 learning component會學得更快。
顯然,learning component 學得更快,自然整個網絡也就學得更快。特別地,當 learning component 學好的時候,整個神經網絡也就學好了。因此,這給了我們充分的理由相信,通過研究 learning component 的性質,從這個角度出發,能夠對多層神經網絡的本質窺探一二。
現在我們需要做的就是找到一個可以刻畫高維函數頻率分布的量,再利用 F-principle 低頻先收斂的特性,我們就可以研究深度帶來的效應了。因此,我們定義了 Ratio Density Function (RDF)。
本質上,我們首先通過在傅立葉空間畫半徑為 r 的球,定義目標函數在 r 球內的能量(L2 積分)占整個函數的能量比(通過高斯濾波獲得),即低頻能量比(Low frequency ratio,LFR)。這類似于概率的累積分布函數。下左圖,就是以 k??為半徑,函數的 低頻部分與高頻部分。
然后我們對 LFR 在 r 方向上求導數得到 RDF,這可以解釋為函數在每個頻率上的能量密度。下右圖即是,sin(kπx)的 RDF,1/δ 就是半徑 r,并對峰值做了歸一化。不難看出,高頻函數的峰值在 r 較大的位置,低頻函數的峰值在 r 較小的位置。因此,RDF 適合用來刻畫高維函數的頻率分布。
最后,我們需要研究 learning component 的等效目標函數的 RDF。如果 learning component 的等效目標函數的 RDF 趨近于低頻,那么通過 F-principle,我們就知道其收斂得會比較快;相反,若其趨近于高頻,則其收斂得就會比較慢。
實驗上,我們先做了關于 Resnet18 的實驗,保持全連接層不變,改變 Resnet 卷積模塊的個數,定義最后三層為 learning component。
整個訓練和往常一樣,訓練所有的參數。在下圖中,-1、-2、-3、-4 的殘差塊依次減少,不難發現,擁有更多殘差塊的網絡不僅收斂速度更快,同時泛化性能也更好。
觀察其 learning component 的等效目標函數的 RDF,我們發現,擁有更多隱藏層(也就是網絡更深)的神經網絡其 learning component 相比淺網絡會更趨于低頻,并最后保持在更加低頻處。我們得到了 Deep Frequency Principle——更深層神經網絡的有效目標函數在訓練的過程中會更趨近于低頻。
再基于 F-principle——低頻先收斂,我們就能夠得到更深層的神經網絡收斂得更快的結果。盡管頻率是一個相對可以定量和容易分析的量,但當前實驗跨越了多個不同結構的網絡,也會給未來理論分析造成困難。因此,我們后面研究單個神經網絡中的 Deep Frequency Principle。
?
于是,我們探究同一個深度神經網絡內不同隱藏層的等效目標函數的 RDF,即改變 pre-condition 和 learning component 的層數(但保持網絡的結構和總層數不變)。這個實驗是在 MNIST 上的,深度神經網絡(DNN),并取了 5 個相同大小的隱藏層。
在下圖中,我們發現,雖然初始時神經網絡更深層的等效目標函數的 RDF 聚集于較高頻處,但隨著訓練,更深層的 RDF 會快速地趨于更低頻的地方,并保持在低頻處。這也是 Deep Frequency Principle——更深層的神經網絡的有效目標函數會在訓練的過程中會更趨近于低頻。
?
在該工作中,基于傅里葉分析以及對 F-principle 的理解,我們給出了一個新的角度來處理和看待多層、深層的前饋神經網絡,即通過分成 pre-condition component 和 learning component 兩個部分,研究 learning component 的等效目標函數的 RDF,得到 Deep frequency principle,并最終提供了一種可能的角度來解釋為何多層的網絡能夠訓練得更快!相信這個工作會為未來的理論分析提供重要的實驗基礎。
?
關于作者:
周瀚旭,許志欽 上海交通大學
聯系:xuzhiqin@sjtu.edu.cn
https://ins.sjtu.edu.cn/people/xuzhiqin/
參考文獻
[1]?Deep frequency principle towards understanding why deeper learning is faster.? Zhi-Qin John Xu and Hanxu Zhou, arXiv: 2007.14313. (to apear in AAAI-2021)
[2]?Zhi-Qin John Xu; Yaoyu Zhang; Tao Luo; Yanyang Xiao, Zheng Ma , ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv:1901.06523. (2020, CiCP)
[3]?Zhi-Qin John Xu; Yaoyu Zhang; Yanyang Xiao, Training behavior of deep neural network in frequency domain, arXiv preprint arXiv: 1807.01251.?International Conference on Neural Information Processing.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的从频率角度理解为什么深度可以加速神经网络的训练的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么彩票店里面的都是店主不买彩票的呢?
- 下一篇: AI框架你只会调包,这种想法很危险!