DNN盛行的当下,老旧的核(kernel)方法或能打开神经网络的魔盒
?作者?|?杜偉
來源?|?機器之心
重新思考「老舊的」核(kernel)方法,或許可以破解深度學習的奧秘。
在機器學習(ML)的世界,人工神經(jīng)網(wǎng)絡(ANN)越來越大的演化趨勢以及超大規(guī)模網(wǎng)絡取得的成功正在造成概念性難題。
2012 年,Hinton 及其學生 Alex Krizhevsky 設計的 AlexNet 贏得年度圖像識別競賽,它的參數(shù)量大約為 6000 萬。在訓練中對這些參數(shù)的微調(diào)使得 AlexNet 能夠識別以前從未見過的圖像。2014 年,牛津大學計算機視覺組與 DeepMind 的研究者設計的具有 1.3 億參數(shù)的 VGG 摘得了 ILSVRC2014 比賽分類項目的第二名。直到現(xiàn)在,一些人工神經(jīng)網(wǎng)絡的參數(shù)量已經(jīng)達到了數(shù)十億。
這些大規(guī)模網(wǎng)絡在圖像分類、語音識別以及語言翻譯等任務上取得了令人矚目的成功,并開始主導機器學習和人工智能領域。然而,這些網(wǎng)絡依然高深莫測,它們強大性能背后的原因也令人難以捉摸。
與此同時,大量的研究者正在證明:這些強大網(wǎng)絡的理想化版本在數(shù)學上等同于更舊、更簡單的 ML 模型——核機(kernel machine)。如果這種等同性可以擴展至理想化神經(jīng)網(wǎng)絡之外,則或許可以解釋實用性人工神經(jīng)網(wǎng)絡如何取得令人驚奇的結(jié)果。
人工神經(jīng)網(wǎng)絡的神秘性部分表現(xiàn)在它們似乎可以顛覆傳統(tǒng)機器學習理論,即極度依賴從統(tǒng)計學和概率論觀點中學習。按照一般的思維方式,包括神經(jīng)網(wǎng)絡(NN)在內(nèi)的機器學習模型經(jīng)過訓練來學習簡單數(shù)據(jù)中的模式,對新數(shù)據(jù)進行預測。這些機器學習模型在具有合適的參數(shù)量時表現(xiàn)最好。
如果參數(shù)太少,則學得的模型太簡單,并且無法捕獲訓練數(shù)據(jù)的所有細微差別。如果參數(shù)太多,則模型變得極度復雜,對訓練數(shù)據(jù)中的模式進行細粒度學習,當被要求分類新數(shù)據(jù)時則無法實現(xiàn)泛化。這種現(xiàn)象被稱為過擬合。加州大學圣迭戈分校機器學習研究者 Mikhail Belkin 教授表示,「數(shù)據(jù)過擬合與擬合不夠之間需要達到一種平衡,這種中間狀態(tài)是我們想要的。」
Mikhail Belkin
大家都說,像 VGG 這樣的深度神經(jīng)網(wǎng)絡(DNN)具有太多的參數(shù),并且應該過擬合。但事實是,這些深度神經(jīng)網(wǎng)絡并沒有。相反地,這些網(wǎng)絡向新數(shù)據(jù)的泛化得很好,直到最近,沒有人知道原因是什么。
研究者也做了很多嘗試,比如希伯來大學已故(今年 8 月離世)計算機科學家和神經(jīng)系統(tǒng)科學家 Naftali Tishby 認為,DNN 首先擬合訓練數(shù)據(jù),然后丟棄不相關信息(在信息瓶頸中),這種做法有助于它們實現(xiàn)泛化。對其他研究者則認為,這種情況并沒有出現(xiàn)在所有類型的深度神經(jīng)網(wǎng)絡中,存在著爭議。
現(xiàn)在,核機和理想化神經(jīng)網(wǎng)絡在數(shù)學上的等同性為人們理解這些過參數(shù)化的網(wǎng)絡為何以及如何得到(或收斂至)它們的解提供了線索。核機算法通過將數(shù)據(jù)映射到極高維來發(fā)現(xiàn)數(shù)據(jù)中的模式。通過研究理想化神經(jīng)網(wǎng)絡在數(shù)學上易處理的等同核機,研究者正在學習具有極高復雜度的深度網(wǎng)絡為什么在訓練過程中能夠收斂至對未見過數(shù)據(jù)泛化良好的解。
Mikhail Belkin 表示,「神經(jīng)網(wǎng)絡有幾分像魯布 · 戈德堡機械(Rube Goldberg machine)。你不清楚它的哪部分真正地重要。我認為應將它們簡化成核方法,這種方法不需要那么高的復雜度,有時使我們可以將正在運行的機器分離出來。」
追溯至 19 世紀的「核方法」
核方法或核機,依賴于一個歷史悠久的數(shù)學領域,可以追溯至 19 世紀。當時,德國數(shù)學家卡爾 · 弗里德里希 · 高斯提出了以其姓名命名的高斯核(Gaussian kernel),將一個變量 x 映射到一個與貝爾曲線(bell curve)形狀類似的函數(shù)。當 20 世紀早期英國數(shù)學家 James Mercer 將核用于解決積分方程時,核的現(xiàn)代化應用開始興起。到了 1960 年代,機器學習領域開始使用核來解決簡單分類方法無法搞定的數(shù)據(jù)。
理解核方法首先需要了解一類機器學習算法——線性分類器(linear classifier)。比如說,使用兩個維度的數(shù)據(jù)可以對貓和狗進行分類,這意味著需要兩個特征(即在 x 軸上描述的鼻子的大小以及在 y 軸上描述的耳朵的大小)來分辨出它們。我們在 xy 平面上描述標記數(shù)據(jù),其中貓屬于一個聚類,狗屬于另一個。
接著,我們可以使用標記數(shù)據(jù)來訓練一個線性分類器,以找到將貓和狗聚類分開的一條直線。該過程中包含了尋找表征這條直線的方程系數(shù)。現(xiàn)在,給定新的未標記數(shù)據(jù),則很容易就可以通過觀察目標落在直線的哪邊來分類是貓還是狗。
但是,各品種貓和狗的鼻子和耳朵大小的實際數(shù)據(jù)當然無法通過一個線性分類器來分割。在這種情況下,當數(shù)據(jù)呈現(xiàn)線性不可分時,則會被轉(zhuǎn)換或映射到更高維的空間。做到這點的一種簡單方法是將兩個特征的值相乘以創(chuàng)建第三個特征。也許鼻子和耳朵大小之間存在的一些關聯(lián)可以區(qū)分出貓和狗。
一般來說,觀察更高維空間中的數(shù)據(jù)更容易找到線性分離器(linear separator),當處于三維以及以上空間時表現(xiàn)為超平面(hyperplane)。當這個超平面被映射回更低維時,它將采用帶有曲線和搖擺的非線性函數(shù)的形式,將原始的更低維的數(shù)據(jù)分離成兩個聚類。
但是,當我們處理真實數(shù)據(jù)時,常常在計算上效率不高,有時甚至不可能在高維中找到超平面的系數(shù)。核機卻并非如此。
支持向量機的出現(xiàn)將核機推向了舞臺中心
核機有能力做到以下兩點。第一點,核機可以將低維數(shù)據(jù)集中的每個點映射到更高維中的點。這一超平面的維數(shù)可以是無限的,取決于映射本身,由此造成一個問題:找到分離超平面的稀疏包括計算每對高維特征的內(nèi)積(inner product),當數(shù)據(jù)被映射到無線維時就變得很困難。
二維和三維空間中的線性分類器。Samuel Velasco/Quanta Magazine
第二點是:給定兩個二維的數(shù)據(jù)點,核機使用一個核函數(shù)來分離出一個等于相應更高維特征的內(nèi)積的數(shù)字。關鍵是,核機算法可以使用這種技巧來找到超平面的系數(shù),并且實際上不需要踏入高維空間。
加州大學伯克利分校名譽教授 Bernhard Boser 表示,「核方法最棒的一點是所有的計算發(fā)生在低維空間中,而不用可能無限維的空間。」
20 世紀 80 年代晚期和 90 年代早期,就職于美國新澤西州霍姆德爾貝爾實驗室的 Boser 及其同事 Isabelle Guyon 和 Vladimir Vapnik 發(fā)明了一種核機——支持向量機(SVM)。自二十世紀 60 年代代以來,各種類型的核機在機器學習領域留下了它們的足跡,SVM 的出現(xiàn)使它們登上了舞臺中心,并已被證明極其強大。
到了 2000 年代早期,SVM 廣泛應用于生物信息學(比如找出不同蛋白質(zhì)序列的相似性和預測蛋白質(zhì)的功能)、機器視覺和手寫識別等多個領域。
從左至右依次為 Bernhard Boser、Isabelle Guyon 和 Vladimir Vapnik。
此后,SVM 繼續(xù)統(tǒng)治機器學習領域,直到 2012 年 AlexNet 的出現(xiàn),深度神經(jīng)網(wǎng)絡才逐漸走向成熟。隨著機器學習社區(qū)轉(zhuǎn)投人工神經(jīng)網(wǎng)絡,SVM 開始陷入困境,但它們以及其他核機仍然是強大的模型,可以教我們很多東西。例如,核機能做的不僅僅是使用核技巧來找到分離的超平面。
谷歌研究院大腦團隊研究科學家 Chiyuan Zhang 表示,「如果你有一個強大的核,則可以將數(shù)據(jù)映射到一個無限維、極其強大的核空間。你總能在這個強大的隱空間中找到一個線性分離器來分離數(shù)據(jù),并且存在無數(shù)種可能的解。」核理論不僅僅使你可以選擇任意的線性分離器,而且通過限制用于搜索的解的空間找到可能最佳的線性分離器。這類似于減少模型中的參數(shù)量來防止其出現(xiàn)過擬合,該過程被稱為正則化(regularization)。Chiyuan Zhang 想知道深度神經(jīng)網(wǎng)絡是否會做類似的事情。
深度神經(jīng)網(wǎng)絡由多層人工神經(jīng)元組成,包括一個輸入層、一個輸出層和至少一個夾在輸入與輸出層之間的隱藏層。隱藏層越多,網(wǎng)絡就越深。網(wǎng)絡的參數(shù)表征了這些神經(jīng)元之間連接強度。比如,訓練一個用于圖像識別的網(wǎng)絡包括重復地像它展示以前分類的圖像并確定其參數(shù)值,從而幫助它正確地特征化這些圖像。一旦經(jīng)過訓練,人工神經(jīng)網(wǎng)絡表征了一個將輸入(一張圖像)轉(zhuǎn)換成輸出(類別標簽)的模型。
2017 年,Chiyuan Zhang 及其同事對 AlexNet 和 VGG 等網(wǎng)絡進行了一系列實證測試,以觀察用于訓練它們的算法是否以某種方式有效地減少了可調(diào)參數(shù)的數(shù)量,從而產(chǎn)生一種隱式正則化。換句話說,訓練機制是否導致這些網(wǎng)絡無法過擬合。
該團隊發(fā)現(xiàn)結(jié)果并非如此。使用經(jīng)過巧妙操作的數(shù)據(jù)集,他們發(fā)現(xiàn) AlexNet 和其他此類人工神經(jīng)網(wǎng)絡的確出現(xiàn)了過擬合但無法泛化。但是,使用相同算法訓練的相同網(wǎng)絡無法過擬合,當給定未更改的數(shù)據(jù)時,泛化得很好。因此,這種隱式正則化不是最終的答案。他們的發(fā)現(xiàn)表明「特征化深度神經(jīng)網(wǎng)絡中的泛化需要更好的解釋」。
無限的神經(jīng)元
與此同時,研究表明,更寬的神經(jīng)網(wǎng)絡在泛化性能上與較窄的網(wǎng)絡一樣好或相對更好。這意味著或許可以采用物理學中的策略來理解人工神經(jīng)網(wǎng)絡,對此,谷歌研究院大腦團隊研究科學家 Yasaman Bahri 表示,「研究極限狀態(tài)有時可以簡化問題」。為了應對這類情況,物理學家常常通過考慮極端情況來簡化問題。例如,當系統(tǒng)中的粒子數(shù)區(qū)域無窮大時,會發(fā)生什么呢?在這些極限情況下,統(tǒng)計學影響變得更容易處理。從數(shù)學上講,如果層寬 ——單層中的神經(jīng)元數(shù)量是無限的,神經(jīng)網(wǎng)絡會發(fā)生什么呢?
1994 年,現(xiàn)為多倫多大學名譽教授的 Radford Neal 提出了這個關于具有單個隱藏層的網(wǎng)絡的確切問題。他表示,如果一個網(wǎng)絡的權重被設置或者被初始化,并具有某些統(tǒng)計學特性,則在初始化時這個網(wǎng)絡在數(shù)學上等同于一個眾所周知的核函數(shù)——高斯過程(Gaussian process)。二十多年后的 2017 年,包括 Yasaman Bahri 在內(nèi)的兩個研究小組表明,具有多個隱藏層的理想化無線寬深度神經(jīng)網(wǎng)絡也呈現(xiàn)這種屬性。
這個一個驚人的暗示。通常來說,即使一個深度網(wǎng)絡在接受訓練之后,也無法使用解析數(shù)學表達式來對未見過的數(shù)據(jù)進行預測。你只需要運行這個深度網(wǎng)絡,觀察它「說」了什么—— 就像一個黑匣子一樣。但在理想化的場景中,網(wǎng)絡在初始化相當于一個高斯過程。你可以扔掉神經(jīng)網(wǎng)絡,只訓練核機,因為你有數(shù)學表達式。
Yasaman Bahri 表示,「一旦你將它映射到一個高斯過程,則可以解析計算預測應該是什么。」這已經(jīng)是一個里程碑式的結(jié)果,但并沒有在數(shù)學上描述實踐中使用的最常見訓練形式期間會發(fā)生什么。在這種設置下,尚不清楚該解如何能夠泛化得這樣好。
梯度下降和神經(jīng)正切核
部分謎團集中在如何訓練深度神經(jīng)網(wǎng)絡上,其中涉及一種梯度下降(gradient descent)的算法。「下降」一詞表示這樣一種事實,即訓練期間,網(wǎng)絡穿越了一個復雜、高維并遍布丘陵和山谷的景觀,其中這個景觀中的每個位置都表征了網(wǎng)絡對給定參數(shù)值集合的誤差。最終,一旦參數(shù)得到適當?shù)卣{(diào)整,則人工神經(jīng)網(wǎng)絡達到一個被稱為全局最小值的區(qū)域,這意味著它盡可能接近準確地分類訓練數(shù)據(jù)。訓練一個網(wǎng)絡本質(zhì)上是優(yōu)化問題,即尋找全局最小值,訓練后的網(wǎng)絡表征一個將輸入映射到輸出的幾乎最優(yōu)函數(shù)。這個一個難以分析的復雜過程。
西雅圖華盛頓大學機器學習專家 Simon Du 表示,「沒有現(xiàn)有理論能夠保證這種情況:如果你使用梯度下降等一些廣泛使用的算法,人工神經(jīng)網(wǎng)絡可以收斂至全局最小值。」到 2018 年底,我們開始明白這樣說的原因了。
同樣地,正如重大科學進步經(jīng)常發(fā)生的那樣,根據(jù)對無限寬網(wǎng)絡的數(shù)學分析以及它們與更易理解的核機的關系,很多研究團隊同時得到了一個可能的答案。在 NeurIPS 2018 會議上,瑞士洛桑聯(lián)邦理工學院的博士生 Arthur Jacot 展示了他們的研究成果。
Arthur Jacot
雖然他們的研究在細節(jié)和框架上不同,但本質(zhì)上依然是無限寬的深度神經(jīng)網(wǎng)絡,其權重在初始化時考慮了一些統(tǒng)計學的特性,因此在初始化和整個訓練過程中都完全等同于核。關于權重的一個核心假設是:它們在訓練期間各自的變化很小,盡管無限多微小變化的影響依然顯著。
鑒于這種假設,Arthur Jacot 及其同事表明,無限寬的深度神經(jīng)網(wǎng)絡往往等同于一個在訓練期間從不變化的核。核甚至不依賴訓練數(shù)據(jù),核函數(shù)僅取決于神經(jīng)網(wǎng)絡的架構,如深度和連接類型。該團隊根據(jù)核的幾何屬性將他們的工作命名為了神經(jīng)正切核(neural tangent kernel)。
Arthur Jacot 表示,「我們知道,至少在一些情況下,神經(jīng)網(wǎng)絡可以像核方法一樣運行。這是試圖比較這些方法以理解它們的異同的第一步。」
打開神經(jīng)網(wǎng)絡魔盒的鑰匙
這個結(jié)果解釋了為什么深度神經(jīng)網(wǎng)絡,至少在這個理想的情況下,可以收斂到一個解。當我們在參數(shù)空間中查看人工神經(jīng)網(wǎng)絡 時,也就是說從參數(shù)和復雜的損失情況來看,這種收斂性很難在數(shù)學上證明。但是,由于理想化的深度網(wǎng)絡相當于一個核機,我們可以使用訓練數(shù)據(jù)來訓練深度網(wǎng)絡或核機,并且每個深度網(wǎng)絡或核機最終將找到一個將輸入轉(zhuǎn)換為輸出的近似最優(yōu)函數(shù)。
在訓練期間,由無限寬神經(jīng)網(wǎng)絡表示的函數(shù)演化與由核機表示的函數(shù)演化相匹配。在函數(shù)空間中,神經(jīng)網(wǎng)絡及其等價的核機都在某個超維空間中表現(xiàn)出一個簡單的碗狀景觀。使用梯度下降算法很容易到達碗的底部,即全局最小值。
但是,并不是每個人都認為核和神經(jīng)網(wǎng)絡之間的這種等價性適用于實際的神經(jīng)網(wǎng)絡,這些神經(jīng)網(wǎng)絡具有有限的寬度,并且其參數(shù)在訓練過程中可能會發(fā)生巨大變化。Chiyuan Zhang 認為有一些點需要聯(lián)系起來。
Belkin 認為,即使核方法是舊的理論,但研究者對它的理解還是不夠的。Belkin 的團隊已經(jīng)通過經(jīng)驗證明,核方法不會過度擬合,并且對測試數(shù)據(jù)泛化能力也不錯,此外,實現(xiàn)這種性能還不需要正則化,這類似于神經(jīng)網(wǎng)絡,與傳統(tǒng)的學習理論相反。Belkin 表示,「如果我真的了解了核方法,那么我認為這真的給了我們一把打開神經(jīng)網(wǎng)絡魔盒的鑰匙。」
研究人員不僅對核有更堅實的數(shù)學理解,可將其用作理解神經(jīng)網(wǎng)絡的類似物,而且從經(jīng)驗上講,它們比神經(jīng)網(wǎng)絡更容易使用。核并不復雜,它們不需要隨機初始化參數(shù),而且它們的性能更具可復制性。研究人員已經(jīng)開始調(diào)查現(xiàn)實網(wǎng)絡和核之間的聯(lián)系,相信他們對核的理解必將更加深刻。
Belkin 認為,即使核方法是舊的理論,它們?nèi)匀粵]有被完全理解。他表示:「如果我們建立了絕對的、完全的等價,那么我認為它將會改變整個游戲」。
原文鏈接:https://www.quantamagazine.org/a-new-link-to-an-old-model-could-crack-the-mystery-of-deep-learning-20211011/
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的DNN盛行的当下,老旧的核(kernel)方法或能打开神经网络的魔盒的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win7网络连接没了怎么办 Win7电脑
- 下一篇: u盘iso怎么装系统 U盘装系统的详细步