【深度学习】449页pdf,FaceBook称其迈出“重塑AI科学的第一步”
原文:Advancing AI theory with a first-principles understanding of deep neural networks
作者:FaceBook AI
譯者:Hugo
18 世紀末到?19 世紀初,英國人瓦特改良了蒸汽機,這也為工業革命提供了動力,并徹底改變了制造業。接下來的一個世紀,熱力學定律和統計力學原理得到發展,科學家們才能夠在理論層面上全面解釋蒸汽機的工作原理和工作過程。
當然,缺乏理論理解并沒有阻止人們對蒸汽機的改進,熱機原理的發現促使這些改進更加迅速。當科學家們掌握了統計力學之后,很快就制造出了更好、更高效的發動機。統計力學使人們認識到物質是由原子構成的,它是量子力學的發展起源,甚至也推動了我們今天使用的為計算機提供動力的晶體管的發展。
如今,人工智能正處于類似的關頭。深度神經網絡 (DNNs) 是現代人工智能研究的一部分,從某種角度來說,它目前也是一個 “黑盒子”。
盡管人工智能從業者取得了重大進展,但業界普遍認為 DNNs 過于復雜,無法從基本原理來解釋。目前的神經網絡模型在很大程度上是通過反復試驗來調整的,雖然反復試驗可以通過多年的經驗進行,但卻沒有任何統一的理論語言來描述 DNNs 及其功能。
現在,我們即將出版《深度學習理論原理:理解神經網絡的有效理論方法》(The Principles of Deep Learning Theory An Effective Theory Approach to Understanding Neural Networks)一書,該研究由 Facebook AI 研究院的 Sho Yaida、麻省理工學院和 Salesforce 的 Dan Roberts 以及普林斯頓的 Boris Hanin 共同完成。
Sho Yaida、Dan Roberts、Boris Hanin
這本書提供了一個理論框架,從第一性原理來理解 DNNs。對于人工智能從業者來說,這種理解可以顯著減少訓練這些 DNNs 所需的試錯次數。例如,它可以揭示任何給定模型的最佳超參數,而不需要經歷大量的時間和計算密集型實驗。
《深度學習理論原理》將于 2022 年初由劍橋大學出版社出版,手稿現已公開(在 “數據實戰派” 后臺回復關鍵詞 “DNN”,即可獲得 pdf 下載地址)。
斯坦福大學物理學教授 Eva Silverstein 說:“這本書提出了一種基于理論物理學中常見的擴展機器學習方法。看到這些方法在理解和改進人工智能方面的應用,將是一件令人興奮的事情?!?/p>
這只是重塑人工智能科學漫漫長路的第一步,這一項目既源自第一性原理,同時也專注于描述現實模型的實際工作方式。
如果成功的話,這種關于深度學習的普遍理論可能會讓更強大的人工智能模型成為可能,甚至可能指導我們建立一個研究智能的普遍方面的框架。
相互作用的神經元
到目前為止,試圖理解 DNNs 的理論家通常將這種網絡理想化,他們假定 DNNs 的模型每層有無限數量的神經元,即所謂的無限寬度限制。
就像理想氣體定律與真實氣體定律一樣,無限寬度的假設為理論分析提供了一個起點。但它與現實世界的深度學習模型幾乎沒有相似之處 —— 尤其是在具有 nontrivial 深度的神經網絡中,這一假設將越來越偏離準確的描述。
雖然這種無限寬度的限制有時很有用,但它過于簡單,忽略了真正 DNNs 的許多關鍵特性,而正是這些特性使 DNNs 成為了如此強大的工具。
從物理學家的角度來研究這個問題,《深度學習理論原理》通過提出一個有效的有限寬度 DNNs 理論,改進了這種無限寬度的限制。
傳統上,物理學家的目標是盡可能創建最簡單、最理想的模型,還需要包含描述現實世界所需的最小復雜性。也就是說,這需要取消無限寬度的限制,并系統地結合所有需要的修正來考慮有限寬度的影響。用物理學的語言來說,這意味著在一層和跨層的神經元之間將微小的相互作用建模。
這些聽起來像是很小的改變,但是在現有的模型和書中描述的模型之間的結果是本質上不同的。
想象一下兩個臺球同向相撞。如果使用一個類似于無限寬度限制的無交互模型來計算結果,你會發現兩個臺球正好穿過彼此,并沿各自的方向繼續運動。但很明顯,事實并非如此。兩個臺球不能占據相同的空間,所以它們會發生互相碰撞。
這些相互作用是防止我們從椅子上掉下來,穿過地板,掉向地心的原因。這些相互作用在現實生活中很重要,它們在物理中很重要,它們對 DNNs 也很重要。
考慮到神經元之間類似的相互作用,這本書的理論發現 DNNs 的真正力量 —— 它們從數據中學習世界的表達能力,與它們的長寬比 (即深度 / 寬度比) 成正比。
這一比率在無限寬模型中為零,因此這些玩具模型無法捕獲深度,而且隨著 DNNs 深度的增加,它們的描述越來越不準確。相比之下,在有限寬度的神經層中,有效的理論實際上會影響深度 —— 這對表征學習和 DNNs 的 D 至關重要。
“在物理學中,有效場論是理解粒子復雜相互作用的一種嚴謹而系統的方法,” 麻省理工學院物理學副教授、美國國家科學基金會人工智能和基本相互作用研究所主任 Jesse Thaler 說。
“令人興奮的是,我們發現了一種類似嚴謹而系統的方法,可以用于理解深層網絡的動態。受這些發展的啟發,我期待著物理和人工智能社區之間更富有成效的對話。”
探索人工智能 “黑盒子”
雖然書中描述的框架可以擴展到現代人工智能社區使用的真實世界 DNNs,并為此提供了藍圖,但書本身主要關注的是最簡單的深度學習模型 (深度多層感知器),并達到指導的目的。
應用于這種最簡單的結構,有效理論的方程可以得到系統的求解。這意味著我們可以對 DNN 在整個訓練軌跡上的行為有一個第一性原理的理解。
特別是,我們可以明確地寫下一個完全訓練過的 DNN 正在計算的函數,以便對新的測試例子進行預測。
有了這個新的有效理論,我們希望理論家們能夠推動對神經網絡的更深入、更全面的理解。雖然還有很多東西需要計算,但這項工作有可能使該領域更接近于了解這些模型的哪些特定屬性使它們能夠智能地執行計算。
我們也希望這本書能幫助人工智能社區減少有時會限制當前進展的反復試驗。
我們想幫助從業者快速設計出更好的模型,讓其發揮更高效、更好的性能,更快的完成訓練。特別是,那些設計的 DNNs 將能夠在沒有任何訓練的情況下選擇最優的超參數,并選擇最優的算法和模型架構以獲得最佳結果。
多年來,許多人認為這些問題永遠無法得到回答或解釋。《深度學習理論原理》表明,人工智能不是一門無法解釋的技術,實用的人工智能可以通過基本的科學原理來理解。
從理論走向實踐
希望這只是個開始。我們計劃繼續相關研究,將我們的理論框架擴展到其他模型架構,并獲得新的結果。在更廣泛的層面上,我們希望這本書能證明理論可以提供對實際利益的真實模型的理解。
“科學技術史上,工程制品往往是最先出現的:望遠鏡、蒸汽機、數字通信。
解釋它的功能和局限性的理論通常是后來才出現的:折射定律、熱力學和信息論。”Facebook 副總裁兼首席人工智能科學家 Yann LeCun 說道。
“隨著深度學習的出現,人工智能工程奇跡進入了我們的生活,但我們對深度學習的力量和局限性的理論理解仍然是片面的。這是最早致力于深度學習理論的書籍之一,并以連貫的方式列出了最新的理論方法和結果?!?/p>
近年來,各種實例應用推動人工智能到了新的高度,我們堅信實踐有了理論的支撐可以幫助加快人工智能研究,并可能導致發現領域,正如統計力學推動了信息時代的到來一樣,我們對此充滿期待。
Reference:
1、https://ai.facebook.com/blog/advancing-ai-theory-with-a-first-principles-understanding-of-deep-neural-networks/
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【深度学习】449页pdf,FaceBook称其迈出“重塑AI科学的第一步”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 火爆全网的迁移学习简明手册全面更新,重磅
- 下一篇: 谷歌浏览器如何更改语言