理解神经网络函数高频成分的收敛率界限
?作者?|?王志偉、羅濤、許志欽
單位?|?上海交通大學(xué)
神經(jīng)網(wǎng)絡(luò)的頻率原則
深度神經(jīng)網(wǎng)絡(luò)(DNN)在監(jiān)督學(xué)習(xí)問(wèn)題上展現(xiàn)出了其廣泛的應(yīng)用前景。近期的一系列的研究表明,神經(jīng)網(wǎng)絡(luò)的輸出關(guān)于頻率存在一種隱式偏差,即神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中,往往會(huì)從低頻到高頻擬合目標(biāo)函數(shù)的訓(xùn)練集,如下圖所示。我們將這一現(xiàn)象稱為頻率原則(更加詳細(xì)的介紹請(qǐng)參考?F-Principle:初探深度學(xué)習(xí)在計(jì)算數(shù)學(xué)的應(yīng)用和?F-Principle:初探理解深度學(xué)習(xí)不能做什么)。
▲ 紅色為目標(biāo)函數(shù)的傅里葉變換,藍(lán)色為 DNN 輸出的傅里葉變換,每一幀表示一個(gè)訓(xùn)練步,橫坐標(biāo)是頻率,縱坐標(biāo)是振幅。
在測(cè)試集上,從眾多滿足訓(xùn)練誤差最小的解中,過(guò)參數(shù)化的神經(jīng)網(wǎng)絡(luò)由于頻率原則會(huì)傾向于選擇低頻成分占主導(dǎo)的函數(shù),即經(jīng)過(guò) Fourier 變換后,較大的系數(shù)主要集中在低頻項(xiàng)。由于真實(shí)數(shù)據(jù)往往是低頻占主導(dǎo)的,因此神經(jīng)網(wǎng)絡(luò)在真實(shí)數(shù)據(jù)上往往具有不錯(cuò)的泛化性。
一個(gè)自然的問(wèn)題是,神經(jīng)網(wǎng)絡(luò)輸出函數(shù)的 Fourier 變換關(guān)于頻率的衰減具有什么樣的特性?能否設(shè)計(jì)算法來(lái)加速神經(jīng)網(wǎng)絡(luò)輸出函數(shù)與目標(biāo)函數(shù)的 Fourier 系數(shù)誤差隨頻率增大而衰減的速度?如果可以,最多能加速到多少?
研究這樣的問(wèn)題可以使我們更好地了解神經(jīng)網(wǎng)絡(luò)在擬合高頻函數(shù)(即 Fourier 變換后,較大的系數(shù)主要集中在高頻項(xiàng)的函數(shù))時(shí)的表現(xiàn),從而設(shè)計(jì)更加有效的算法加速高頻函數(shù)收斂,擴(kuò)大神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍。
論文標(biāo)題:
An Upper Limit of Decaying Rate with Respect to Frequency in Deep Neural Network
論文作者:
Tao Luo, Zheng Ma, Zhiwei Wang, Zhi-Qin John Xu, Yaoyu Zhang
論文鏈接:
https://arxiv.org/abs/2105.11675
Fourier域變分問(wèn)題與其適定性條件
為回答上述一系列問(wèn)題,我們?cè)O(shè)想能否從神經(jīng)網(wǎng)絡(luò)出發(fā),抽象出一個(gè)監(jiān)督學(xué)習(xí)的算法框架,通過(guò)研究該框架中輸出函數(shù)的性質(zhì)來(lái)推導(dǎo)神經(jīng)網(wǎng)絡(luò)的相關(guān)性質(zhì)。
有關(guān)研究表明,一個(gè)以 ReLU 為激活函數(shù)的兩層的無(wú)窮寬神經(jīng)網(wǎng)絡(luò)(為方便,設(shè)置初始網(wǎng)絡(luò)輸出函數(shù)為 0),其訓(xùn)練終止時(shí)的輸出函數(shù) ?滿足以下變分問(wèn)題:
其中 是數(shù)據(jù)的輸入維度, 為依賴網(wǎng)絡(luò)的初始化參數(shù)的常量, 表示的 Fourier 變換, 表示頻率。從上式可以看出,從 Fourier 域觀察神經(jīng)網(wǎng)絡(luò)的輸出,其主要影響因素是前置的復(fù)雜權(quán)重。對(duì)于高頻成分,權(quán)重很大,對(duì) 施加了更大的懲罰,因此高頻項(xiàng)的 Fourier 系數(shù)較小,從而導(dǎo)致輸出函數(shù) 低頻占優(yōu)。我們將以上公式稱之為線性頻率原則公式,其更詳細(xì)介紹可以參考 F-Principle:初探理解深度學(xué)習(xí)不能做什么。
我們所考慮的是 Fourier 變換隨頻率增大而衰減的性質(zhì),受上述線性頻率原理公式的啟發(fā),我們可以將指數(shù)設(shè)為一個(gè)待定的常數(shù)?α,由此我們得到以下變分問(wèn)題:
其中 。但實(shí)際上,上述問(wèn)題的意義是不明確的,因?yàn)槲覀儫o(wú)法在空間 逐點(diǎn)定義函數(shù)值。為解決這一困難,我們定義了一個(gè)類似于 Fourier 逆算子的線性算子,具體而言,令:
因此原本的限制條件用該算子表達(dá)應(yīng)該是:,這里 ,而 的計(jì)算事實(shí)上用的是 Fourier 域空間上的全局信息,因此,通過(guò)定義該算子,我們將原 空間上的逐點(diǎn)信息轉(zhuǎn)化為 Fourier 域空間上的全局信息,從而避免了之前無(wú)法逐點(diǎn)定義具體函數(shù)值的困難。
在該定義之下,可行的函數(shù)空間轉(zhuǎn)化為:
因此,最后我們得到以下 Fourier 域變分問(wèn)題:
這里我們用 Sobolev 范數(shù)簡(jiǎn)化了一開(kāi)始的表達(dá)式,其中 ,且
進(jìn)一步我們研究了其適定性條件,可以證明當(dāng) α<d 時(shí),該問(wèn)題沒(méi)有解;當(dāng) α>d 時(shí),該問(wèn)題的解有一定的光滑性。具體可以分為如下兩個(gè)定理:
因此,我們可以發(fā)現(xiàn),Fourier 域變分問(wèn)題這一框架下所有的算法(即取不同的 α 得到的算法,這里 α>d)輸出函數(shù)的 Fourier 變換取值量級(jí)均為 ,于是, 是神經(jīng)網(wǎng)絡(luò)輸出函數(shù)的 Fourier 變換取值的一個(gè)上界。
數(shù)值實(shí)驗(yàn)
為驗(yàn)證上述適定性條件,我們將連續(xù)的變分問(wèn)題離散化,得到以下離散變分問(wèn)題:
下圖所示的數(shù)值模擬結(jié)果分別是在不同的?α?取值下,用上述離散化方法擬合 1 維空間中 2 個(gè)點(diǎn)(左圖)和 2 維空間中 4 個(gè)點(diǎn)(右圖)得到的最終輸出圖像。其中,在 2 維情形下,為更好地觀察輸出,我們的 4 個(gè)數(shù)據(jù)點(diǎn)選在了 2 維空間的同一個(gè)截面上。
通過(guò)數(shù)值模擬,我們可以看到,當(dāng)?α>d 時(shí),輸出函數(shù)(圖中的紅線)為一個(gè)光滑輸出;而當(dāng)?α<d?時(shí),輸出函數(shù)(圖中的綠線)退化十分嚴(yán)重,即十分接近平凡解,這里平凡解指的是僅在訓(xùn)練點(diǎn)處非零,而在其他點(diǎn)函數(shù)值均為零的解。可以想象,隨著網(wǎng)格進(jìn)一步加密,2 維情形(圖 b)下的輸出函數(shù)也將退化為類似于 1 維情形(圖 a)中的平凡解。
總結(jié)
本文旨在從 Fourier 域的角度提出一套全新的、包含神經(jīng)網(wǎng)絡(luò)在內(nèi)的、更加一般的、適用于監(jiān)督學(xué)習(xí)問(wèn)題的 Fourier 域變分問(wèn)題框架,并且分析其適定性條件。
利用該框架,我們研究了神經(jīng)網(wǎng)絡(luò)函數(shù)的 Fourier 變換關(guān)于頻率的衰減性態(tài),從理論角度揭示了神經(jīng)網(wǎng)絡(luò)最終輸出函數(shù),經(jīng)過(guò) Fourier 變換后,得到的頻率函數(shù)圖像,隨著頻率的增大,該函數(shù)衰減率存在最小值。
因此可以推斷,神經(jīng)網(wǎng)絡(luò)在逐漸學(xué)習(xí)高頻的過(guò)程中有效率上限。為了加快高頻的收斂,可以先對(duì)訓(xùn)練數(shù)據(jù)做一定的處理將其變?yōu)檩^低頻的函數(shù)。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的理解神经网络函数高频成分的收敛率界限的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 等额本息还款法计算公式
- 下一篇: 公积金提取额度已满怎么办