调参,注意神经网络处于哪种相态
?PaperWeekly 原創 ·?作者|張耀宇、許志欽
單位|上海交通大學
研究方向|機器學習的基礎研究
作者按:神經網絡的現象錯綜復雜,理解其本質的一個基礎工作是研究神經網絡的訓練動力學過程有哪幾類不同的狀態并揭示它們與超參數的依賴關系,即進行相圖分析。本文介紹的工作第一次給兩層無限寬網絡畫出完整的相圖,該工作已經被 Journal of Machine Learning Research 接收。
論文標題:
Phase diagram for two-layer ReLU neural networks at infinite-width limit
論文鏈接:
https://arxiv.org/abs/2007.07497
神經網絡的初始化參數對其訓練動力學過程和泛化性能有顯著的影響。現在的理論分析通常是在一個具體的參數初始化下進行的,比如這兩年研究很多的神經正切核理論(NTK)和平均場理論(mean-field),它們研究的訓練行為是基于兩種不同尺度的參數初始化。
前者的訓練動力學近似線性,而后者則有顯著非線性。同時,也有很多其它工作研究了其它初始化下神經網絡訓練動力學的行為。一個直接的問題便是,哪些參數初始化有類似的動力學行為,哪些有本質的不同?研究這個問題可以直接幫助我們預測任意初始化下神經網絡的動力學行為特征,進而指導我們調整初始化的超參數來提升神經網絡的預測性能。
神經網絡的參數一般很多。研究這么多參數的演化問題,我們可以借鑒我們熟悉的水。一杯水含有遠超一億億個分子,我們不可能通過追蹤每個水分子的微觀運動來推測水的狀態。幸運的是,這樣的復雜高維動力系統通常呈現出高度規律的宏觀特征,可以通過測量溫度、壓強這樣的宏觀統計量來準確推測它處于液態,還是會結冰或者汽化。
理論上,在分子數目趨于無窮的熱力學極限下,水的固液氣三相涇渭分明,不同相的轉變經歷相變。這些信息都可以精確地呈現在一張以溫度和壓強為坐標的相圖中,指導我們的實踐。
▲ 來自http://chemed.chem.purdue.edu/genchem/topicreview/bp/ch14/phase.php
類似地,我們針對兩層神經網絡眾多的參數找到了合適的宏觀統計量,并在隱藏層神經元數目趨于無窮的極限下建立了清晰的相圖,劃分了不同的動力學態。具體來說,我們考慮以下兩層神經網絡:
其中 為 ReLU 函數,參數初始化服從:?
這個模型有三個自由的超參數 。當 時,這就是平均場理論研究的模型。當 時,這就是神經正切核理論研究的模型。
由于我們只關注神經網絡訓練動力學從初始到無窮時刻的軌跡而不在意時間,我們發現只需要以下兩個有效參數就可以分類神經網絡的動力學(第一個參數體現神經網絡的輸出尺度,第二個參數是輸入和輸出權重的不一致性)。
下圖是通過這兩個統計量劃分的相圖。
接下來,我們講述上面的相圖是怎么得到的。首先,我們來看一下三種不同初始化下(固定 , 分別取 0.5、1、1.75),神經網絡學習的不同結果。在下圖中,四個藍色星星是訓練點,紅色是神經網絡訓練結束后學習到的函數曲線。顯然,這三種不同初始化使得同樣的神經網絡從同樣的數據中學到了顯著不同函數。
進一步,我們觀察每個神經元學習到的特征的分布差異。實驗結果如下圖所示(d、e、f 分別對應 a、b、c)。
輸入權重 w 的方向可以看作神經元的特征(上圖橫坐標為 對應的角度,取值在 ,w 的模長 與輸出權重的長度 的乘積可以看作這個特征的幅度 (由于 ReLU 激活函數的齊次性)。
如下,我們發現對第一種情況,全體神經元特征的初始分布(青色點)和末態分布(紅色點)非常靠近,這正是 NTK 的典型特征。由于從初態到末態網絡參數改變不大,所以神經網絡在整個訓練過程中可以很好地被其在參數初值的線性展開近似。
第二種情況,初始分布和末態分布有顯著差異,特征有所聚集,這是常見的平均場理論研究的情況。第三種情況,初始分布和末態分布完全不同,特征在末態幾乎只凝聚在離散的幾個方向上。由于我們用圖片里的最大值做了歸一化,所以初始的特征幅度幾乎趨于零,即末態特征的最大幅值相對初態幾乎趨于無窮大。
仔細分析可以發現,神經網絡在整個訓練過程中是否可以用一個線性模型逼近主要取決于非線性激活函數內參數 w 的變化。只要所有神經元的 w 幾乎不變,那神經網絡就可以由其參數初值附近的線性展開近似,訓練動力學呈線性。于是,我們定義以下 的相對變化量:
?
下圖展示了 隨神經元數目增長的情況。對于第一種情況,斜率小于零,即當神經元數目無窮大的時候, 的初態和末態幾乎一樣。對于第二種情況,無論神經元數目多大, 從初態到末態的相對變化量幾乎是一個非零的常量,是一個臨界狀態。第三種情況,斜率大于零,即 的末態與初態的相對差異趨于無窮大。
接下來,我們把以上特例推廣到所有可能的 的取值。下圖展示的是不同統計量下, 的相對變化量 關于神經元數目在對數圖中的斜率 。
紅色區域斜率小于零,當神經元數目趨于無窮大,我們將這部分區域定義為線性態。藍色區域斜率大于零,當神經元數目趨于無窮大,這部分區域動力學呈強非線性。
由于參數都有如上圖第三種情況所示的凝聚現象,我們稱之為凝聚(condensed)態。而星星標出的區域正是如上圖第二種情況所示的過渡區域。虛線是我們理論上預測的分界線,與實驗完全一致。我們在 MNIST 數據上也得到了類似的結果。
最后我們對相圖中這條分界線提供一些直觀解釋,嚴格的數學理論可以參考論文 [1]。我們先考慮 的情況。神經網絡初始的輸出尺度大約是:
一般目標函數的量級是 ,所以只要 ,那么神經網絡就有機會通過對每個參數做很小的改變來擬合好目標函數。該條件等價于:
即 。接著,我們解釋 45 度斜線的來源。在神經網絡的梯度流動力學中,容易注意到 a 和 w 的演化速度和對方的大小成正比。只要 a 的演化速度遠大于 w 且整個訓練過程中遠小于 ,就能保證 w 的演化遠慢于 a。在 w 幾乎不變(即保持 的尺度)并且 a 的尺度始終遠小于 的情況下,我們有:
因為神經網絡擬合好目標函數的必要條件是其末態的輸出尺度 ,則:
對應圖中的 45 度邊界。
有了兩層神經網絡的相圖,我們就可以進一步研究神經網絡各動力學態不同的隱式正則化效應。不同的實際問題常常需要不同的隱式正則化,我們這項工作可以為實踐中通過調參定向改變神經網絡的隱式正則化提供指導意見。
在這項工作的基礎上,我們將進一步研究多層網絡的相圖,探索有限神經元數目對不同動力學態特性的影響,從而使我們對實際神經網絡的超參調節、動力學特征以及隱式正則化有更深入的理解。
作者團隊現招收數學與機器學習相關的博士后,感興趣的讀者可聯系:zhyy.sjtu@sjtu.edu.cn
參考文獻
[1] Tao Luo, Zhi-Qin John Xu, Zheng Ma, Yaoyu Zhang, Phase diagram for two-layer ReLU neural networks at infinite-width limit. arXiv:2007.07497, 2020. (Accepted by Journal of Machine Learning Research)
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的调参,注意神经网络处于哪种相态的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习之基于伪计数的探索算法
- 下一篇: 戴尔xps怎么装系统 戴尔XPS电脑系统