从傅里叶分析角度解读深度学习的泛化能力
作者丨許志欽
學校丨紐約大學阿布扎比分校博士后,紐約大學庫朗研究所訪問學者
研究方向丨計算神經科學,深度學習理論
深度學習成功地應用在很多領域,但對它的理論理解卻非常缺乏。這兩年,很多理論學家把關注點放在一個關于深度學習與傳統學習理論的悖論上。在傳統學習理論中,模型的參數越多,模型一般會更好地擬合訓練數據,但模型的泛化能力(擬合測試數據集的能力)會變差。在深度學習中,參數的數目比訓練數據集要大得多,但深度網絡(DNN)卻通常既能擬合好訓練數據,又保持良好的泛化能力。這個違反直覺的現象被大家稱為“明顯悖論” (apparent paradox)。
頻率原則(F-Principle)
最近有幾篇文章 [1,2,3] 從傅里葉分析的角度,在實驗和理論上揭示了該悖論背后的一種機制。
▲?文獻1
▲?文獻2
▲?文獻3
一般來說,在深度學習中,大家用來測試結論的例子或者是手寫數字集(MNIST),或者是圖像分類集(CIFAR)。這兩類數據集相對實際應用的數據集確實已經足夠簡單,但在分析上,它們仍是非常復雜的,因為它們的輸入維度仍然非常高(像素點的個數)。
我們可以從擬合一維函數出發考慮這個問題。訓練數據集是少數幾個均勻采樣數據點,如果用多項式去擬合,階數很高的時候(大于數據點個數),擬合的結果通常是一個能夠精確刻畫訓練數據但振蕩厲害的函數。但如果用 DNN,無論多大規模,通常學習到的曲線都是相對平坦的。因為是一維函數,所以很容易想到,振蕩和平坦可用傅里葉分析定量地刻畫。于是就自然能猜想到,DNN 在學習的時候可能更加偏愛低頻成分。
下面是一個一維函數的例子 [1](圖 1a 中的黑點),對數據作離散傅里葉變換后如圖 1b 所示,考慮圖 1b 中的頻率峰值(黑點)在訓練中的相對誤差,如圖 1c,頻率越高,收斂越慢(藍色表示相對誤差大,紅色表示相對誤差小)。頻率原則可以粗糙地表述成:DNN 在擬合目標函數的過程中,有從低頻到高頻的先后順序。(Frequency Principle or F-Principle in [1], or spectral bias in [2])
▲?圖1
F-Principle 并不是一個陌生的概念,而是我們日常生活中經常都在用的一個原則。想象一下,如果讓一個人去記住一個沒見過的東西,一般比較粗糙的輪廓信息會先被記住,然后再是很多細節。沒錯,DNN 也正是使用了這樣的一個學習過程。舉一個例子,我們來訓練一個 DNN 來記住一張圖片。DNN 的輸入是一個位置坐標 (x,y),我們希望它輸出這個位置對應的灰度值。圖 2 的一系列圖展示了不同訓練步數,DNN 學習到的圖像,正如我們前面所猜測的從粗糙的輪廓到細節的學習過程。
▲?圖2
經驗上理解深度學習的泛化能力
一般來說,“平坦”簡單的函數會比振蕩復雜的函數有更好的泛化能力。DNN 從目標函數的低頻成分開始學習。當它學到訓練數據的最高頻率的時候,此時頻率空間誤差趨近于零。因為頻率空間的誤差等于實域空間的誤差,所以它的學習也基本停止了。這樣深度學習學到的函數的最高頻率能夠被訓練數據給限制住。對于小的初始化,激活函數的光滑性很高,高頻成分衰減很快,從而使學習到的函數有更好的泛化能力。
對于低頻占優的目標函數,小幅度的高頻成分很容易受到噪音的影響。基于頻率原則,提前停止訓練(early-stopping)就能在實踐中提高 DNN 的泛化能力。
理論上理解深度學習的泛化能力
從低頻到高頻的學習原則并不總是對的,比如在文獻 [1] 中討論到的,如果目標函數是隨機數據點(頻率空間沒有低頻占優的特性),或者 DNN 的參數的初始化的值比較大,這個原則就會失效。特別是在大初始化的情況下,DNN 的泛化能力也會變差。
文獻 [2] 對 DNN 學習到的函數的頻率幅度的估計并不能解釋這些現象。特別地,對于層數和神經元數目足夠多的 DNN,文獻 [2] 給出的理論不能解釋為什么 DNN 從低頻開始學習。在文獻 [2] 中,DNN 的擬合函數的高頻成分受權重(weights)的譜范數(spectral norm)控制。對于小規模的DNN,可以經常觀察到,權重的范數隨訓練而增長,從而允許小規模的 DNN 去擬合目標函數中的高頻成分。因此,文獻 [2] 在理論上給出頻率原則的一種可能解釋。
但如文獻 [3] 的一個例子所示(下圖,圖 3a 為目標函數,圖 3b 為其離散傅里葉變換),對于層數和神經元數目足夠多的 DNN,權重的譜范數(圖 3c)基本不變。但如圖 3d 所示的頻率成分的相對誤差,四個重要的頻率峰值(圖 3b 的黑點)仍然是從低頻開始收斂。對于這種情況,文獻 [2] 對 DNN 的擬合函數的高頻成分的上限估計在訓練過程中基本不變,從而不能看出低頻到高頻學習的頻率原則。
▲?圖3. 說明:(d) 展示 (b) 中四個頻率峰值在訓練中的相對誤差
文獻 [3] 給出了能夠解釋這些問題的理論框架。從只有一層隱藏層的 DNN(sigmoid 作為激活函數)開始,在傅里葉空間分析梯度下降算法,文獻 [3] 得到損失函數 ω 在任一頻率分量上對任一參數的導數。
其中,是對應神經元的權重(weight),是關于對應神經元所有參數和頻率 ω?的一個多項式,A(ω) 是學習到的函數與目標函數的差的幅度。文獻 [3] 論述了這個表達式如何定性的推廣到一般 DNN。
上面這個式子顯示地定量地說明了在梯度下降過程中低頻成分會有更高的優先級。但同時需要注意的是,這個優先級不只是由頻率決定,它也依賴于擬合函數與目標函數的差的幅度。
這個理論分析揭示了對于低頻占優的目標函數,當 DNN 的參數是很小的數時,低頻成分會先收斂,并且在低頻成分收斂的時候,DNN 的高頻成分仍然很小。而當 DNN 擬合高頻成分的時候,已經收斂的低頻成分只會受到很小的干擾。對高頻占優的函數,整個訓練過程就會變得復雜。低頻容易受到高頻的影響,所以低頻是振蕩式的收斂,每振蕩一次,偏離的最大幅度就會下降。并且頻率越低,振蕩越頻繁(如下圖 4 所示)。
▲?圖4
對于初始化的問題,這個理論框架也給出了解釋。如果初始化權重很大,由于上式中的很大,低頻不再占優,所以頻率原則就很容易失效。并且,激活函數的高頻成分也會變大。對于那些頻率高到訓練數據也看不到的成分,因為訓練過程不能限制它們,所以在訓練完成后,它們仍然有比較大的幅度而導致 DNN 的泛化能力變差。
總結
傅里葉分析的理論框架非常好地解釋了 DNN 為什么在擁有大量參數的情況下既能學好訓練數據,又能保持好的泛化能力,簡單地說,由于頻率原則,DNN 學習到的函數的頻率范圍是根據訓練數據的需要而達到。對于那些比訓練數據的最高頻率還高的頻率成分,DNN 能保持它們幅度很小。
用傅里葉分析的角度來研究 DNN 的學習問題仍處于開始的階段,有很多有趣的問題值得繼續深入,比如更加定量地分析 DNN 的學習過程,理解層數和每層寬度對訓練的不同貢獻等等。
致謝:感謝張耀宇對本文初稿的校正和修改。
參考文獻
[1]. Zhi-Qin J. Xu, Yaoyu Zhang, Yanyang Xiao. Training behavior of deep neural network in frequency domain, arXiv preprint arXiv: 1807.01251. (May 18, 2018 submitted to NIPS, first submitted to arXiv on Jul 3, 2018)?
[2]. Nasim Rahaman, Devansh Arpit, Aristide Baratin, Felix Draxler, Min Lin, Fred A. Hamprecht, Yoshua Bengio, Aaron Courville. On the spectral bias of deep neural networks, arXiv preprint arXiv:1806.08734. (First submitted to arXiv Jun 22, 2018)?
[3]. Zhi-Qin J. Xu. Understanding training and generalization in deep learning by Fourier analysis, arXiv preprint arXiv: 1808.04295. (First submitted to arXiv on Aug 14, 2018)
點擊以下標題查看更多論文解讀:?
網絡表示學習綜述:一文理解Network Embedding
細水長flow之NICE:流模型的基本概念與實現
如何讓GAN生成更高質量圖像?斯坦福給你答案
哈佛NLP組論文解讀:基于隱變量的注意力模型
ACL2018高分論文:混合高斯隱向量文法
COLING 2018最佳論文:序列標注經典模型復現
一文解析OpenAI最新流生成模型「Glow」
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
總結
以上是生活随笔為你收集整理的从傅里叶分析角度解读深度学习的泛化能力的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第二届Byte Cup来袭,赢得2万美元
- 下一篇: “人工智能创新大讲堂”全日程发布 | 听