线性Frequency Principle动力学:定量理解深度学习的一种有效模型
關于作者:本文的作者是來自上海交通大學致遠學院 08 級理科班的四位研究人員。本文由許志欽執筆,張耀宇修改,羅濤和馬征審閱校正。這個小組的研究興趣主要是深度學習理論。
深度學習的廣泛成功吸引了大量的科研人員來探索其工作原理。時至今日,深度神經網絡(DNN)的許多特性仍然令人費解,比如在模型參數遠多于訓練樣本的情況下,DNN 通常能夠較好地泛化。
為了找到分析這個問題的一種思路,我們將深度神經網絡和熱力學系統進行類比。在熱力學系統里,粒子數通常都能達到這樣的量級,因此我們幾乎不可能通過對每個粒子的運動進行準確的牛頓力學刻畫來理解整個系統的宏觀性質。
類似地,對于深度學習,在很多實用的網絡構架中,神經元數目很容易達到萬的量級,參數數目成百萬乃至上億都很常見。因此,雖然我們可以追蹤 DNN 每個參數的演化軌跡,但是仍然難以認識其背后的規律。
基于以上類比,我們可以自然地借鑒物理學的研究方法來理解深度學習。從物理的角度研究一個復雜的系統,我們通常從現象出發,通過構建一些定性乃至定量的有效模型來揭示系統演化的關鍵規律。
基于這樣一種思路,這篇文章我們從深度學習中一種廣泛存在現象——頻率原則(Frequency Principle 或 F-Principle)即 DNN 傾向于按從低頻到高頻的順序來擬合訓練數據出發,將給出一種能夠在一定情況下定量預測神經網絡學習結果的有效模型。?
我們先用一個簡單的例子來理解 F-Principle。用一個 DNN 去擬合下圖中紅色實線函數,訓練完后,DNN(藍色點)能很好地擬合該函數。
?
DNN 輸出函數在頻率空間的演化過程如下圖動畫所示,其中紅色虛線為目標函數的FT(傅里葉變換),藍色實線為 DNN 輸出函數的 FT,每一幀表示一個訓練步,橫坐標為頻率,縱坐標為振幅。容易發現,在訓練過程中,DNN 輸出函數在頻域空間有一個清晰的演化規律,即其按頻率從低到高依次收斂。
為了定量預測神經網絡學習結果,基于 F-Principle,我們對一個單隱藏層的 ReLU(激活函數)神經網絡:
注意:為了計算方便,我們對偏置項做了一點小改動。N:隱藏層神經元數目。
提出以下有效動力學模型:
h: DNN 輸出;f: 目標函數;,其中,為訓練數據點;? ?: 傅里葉變換;ξ: 頻率;N: 隱藏層神經元數目;d: 輸入維度;r: 神經元的輸出權重;w: 神經元的輸入權重;w 與 r 取初始化的值。注意模型不出現 l。時間 t 趨于無窮時,該模型的顯式解可以寫出來。
記為 Linear F-Principle(LFP)模型。模型右端系數項隨頻率ξ增加而衰減,顯式地表明低頻優先即 F-Principle。整個動力學只依賴于參數的統計性質,如參數的方差,參數整體合成的網絡輸出等,可以很好地類比于熱力學系統中密度、溫度、體積、壓強等統計量。?
下文中,我們首先用實驗來驗證這個模型的有效性。接著,我們說明模型的由來。最后,我們介紹模型衍生出的可能研究方向。
?
對于輸入維度 d=1 的情況,我們先通過合適的初始化讓項占主導。這種情況下,由于該項對比隨頻率增大衰減更快,即低頻優先級更高,模型的解比較光滑。
下圖可以看出,當隱藏層僅有五百個神經元的時候,經過訓練,深度學習的輸出(藍色)整體也比較光滑,并且基本符合 LFP 模型預測。當神經元數達到 16000 時,LFP 模型的解與 DNN 學習到的擬合曲線幾乎完全重合。
?
當我們通過特定的 DNN 參數初始化讓模型中衰減較慢的項占主導時,模型解的光滑性會低一些。如下圖所示,LFP 模型的解與 DNN 學習到的擬合曲線幾乎完全重合。該曲線接近于一個分段線性函數,在最小值處有一個明顯的尖角。
對于二維情形(d=2),我們用一個著名的 XOR 問題來檢驗 LFP 模型的有效性。訓練數據集有四個樣本點,由白色星號標記出來。訓練結束后,DNN 輸出函數構成了這四個點在二維區域 [-1,1]×[-1,1] 上的一個連續的插值函數(左圖)。中圖是 LFP 模型預測的插值函數,與左圖非常相似。兩者之間定量的比較如右圖所示。容易看出,兩者在所有測試點(1600 個均勻分布的網格點)上的值幾乎一致。
?
上述數值實驗證明,當神經元數目很大時,LFP 模型能夠非常有效地刻畫單隱藏層的神經網絡的學習結果。?
LFP 模型是基于神經網絡的一種線性化的平均場動力學得到的。其基本想法是在神經元數目趨于無窮時,DNN 可以用一個關于參數服從的概率分布的積分形式來表達(平均場表示)。
特別的,在該極限下,理論研究表明 DNN 的參數在其初始化的一個小鄰域內便能找一個全局最優解。因此,DNN 輸出函數在訓練的任意時刻都可以用其在初始值附近的一階 Taylor 展開來很好地近似。
這種情況下,我們發現刻畫網絡訓練的梯度流在傅里葉空間可以近似為一個簡潔的形式,即 LFP 模型。在近似的推導中我們假設l 滿足均勻分布。實際實驗中,l 服從其它分布的情況下,LFP 模型的預測與真實訓練結果也很靠近。?
LFP 模型為神經網絡的定量理解提供了全新的思路。首先,LFP 模型用一個簡單的微分方程有效地刻畫了神經網絡這樣一個參數極多的系統其訓練過程的關鍵特征,并且能夠精確地預測神經網絡的學習結果。因此該模型從一個新的角度建立了微分方程和神經網絡的關系。由于微分方程是一個非常成熟的研究領域,我們相信該領域的工具可以幫助我們進一步分析神經網絡的訓練行為。
其次,與統計物理類似,LFP 模型只與網絡參數的一些宏觀統計量有關,而與單個參數的具體行為無關。這種統計刻畫可以幫助我們準確理解在參數極多的情況下 DNN 的學習過程,從而解釋 DNN 在參數遠多于訓練樣本數時較好的泛化能力。
在該工作中,我們通過一個等價的優化問題來分析該 LFP 動力學的演化結果,并且給出了網絡泛化誤差的一個先驗估計。我們發現網絡的泛化誤差能夠被目標函數f本身的一種 F-principle 范數(定義為,γ(ξ) 是一個隨頻率衰減的權重函數)所控制。
值得注意的是, 我們的誤差估計針對神經網絡本身的學習過程,并不需要在損失函數中添加額外的正則項。關于該誤差估計我們將在之后的介紹文章中作進一步說明。
?
參考文獻?
主要參考文獻:?
Zhang, Y., Xu, Z.-Q. J.*, Luo, T. & Ma, Z. (2019a), ‘Explicitizing an Implicit Bias of the Frequency Principle in Two-layer Neural Networks’, arXiv:1905.10264 [cs, stat]. arXiv: 1905.10264.?
URL: http://arxiv.org/abs/1905.10264?
* Corresponding author: zhiqinxu@nyu.edu?
其它參考文獻:?
Xu, Z.-Q. J., Zhang, Y., Luo, T., Xiao, Y. & Ma, Z. (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523.?
目前有十來個組跟進了相關的研究,具體可以參見:
“F-Principle in deep learning: an overview”.?
https://cims.nyu.edu/~xzhiqin/F-Principle_summary20190607.pdf
https://cims.nyu.edu/~xzhiqin
點擊以下標題查看往期系列文章:?
從傅里葉分析角度解讀深度學習的泛化能力
F-Principle:初探理解深度學習不能做什么
F-Principle:初探深度學習在計算數學的應用
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的线性Frequency Principle动力学:定量理解深度学习的一种有效模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2019 | 旷视研究院提出T
- 下一篇: 如何独立实现一个基于知识图谱的问答系统