深度学习——人工神经网络再掀研究热潮
人工神經網絡起源于上世紀40年代,到今天已經70年歷史了。就像人的一生,經歷了起起落落,有過輝煌,有過黯淡,有過嘈雜,有過冷清。總體說來,過去的20年中人工神經網絡的研究不溫不火,直到最近三五年,隨著深度學習概念的提出,人工神經網絡才又重新煥發生機,甚至再度掀起研究熱潮。本文簡述一下人工神經網絡的“前世今生”,并簡單展望一下它的未來。
第一個神經元模型是1943年McCulloch和Pitts提出的,稱為threshold logic,它可以實現一些邏輯運算的功能。自此以后,神經網絡的研究分化為兩個方向,一個專注于生物信息處理的過程,稱為生物神經網絡;一個專注于工程應用,稱為人工神經網絡。本文主要介紹后者。1958年Rosenblatt提出了感知機(perceptron),它本質上是一個線性分類器,1969年Minsky和Papert寫了一本書“Perceptrons”,他們在書中指出:①??單層perceptron不能實現XOR功能;②??計算機能力有限,不能處理神經網絡所需要的長時間運行過程[1]。鑒于Minsky在人工智能領域的影響力——他是人工智能的奠基人之一,也是著名的MIT CSAIL實驗室的奠基人之一,并于1969年獲得圖靈獎——這本書令人工神經網絡的研究進入了長達10多年的“冬天”。事實上,如果把單層感知機堆成多層(稱為multilayer perceptron或MLP,如圖1所示),是可以求解線性不可分問題的,但當時缺乏有效的算法。盡管1974年哈佛大學的博士生Paul Werbos提出了比較有效的BP算法[1],但沒有引起學界的重視。直到1986年多倫多大學的Geoff Hinton等人重新發現這一算法,并在“Nature”上發表[2],人工神經網絡才再次受到重視。
圖1??多層感知機。每個神經元接受下層神經元的輸入,與對應的權值相乘并加上一個偏置,
通過sigmoid函數轉換后將值傳給上層神經元
?
與此同時,帶反饋的神經網絡開始興起,其中以Stephen Grossberg和John Hopfield的工作最具代表性。很多復雜的認知現象比如聯想記憶都可以用反饋神經網絡進行模擬和解釋。所有這些因素促成了上世紀80年代神經網絡的研究熱潮。一位在神經網絡領域非常資深的學者跟我聊天時說,在那個年代,只要你的文章跟神經網絡扯上點關系,無論什么雜志,都很容易發表。2008年左右我在清華聽了哈佛大學的一位華人學者的講座,名字我忘了,內容是關于SVM的。演講過程中他突然用英語來了一句: I really miss the happy days when I was doing researches in neural networks.?令我印象深刻。
但是BP算法在神經網絡的層數增多時很容易陷入局部最優,也很容易過擬合。上世紀90年代,Vladimir Vapnik提出了SVM,雖然其本質上是一特殊的兩層神經網絡,但因其具有高效的學習算法,且沒有局部最優的問題,使得很多神經網絡的研究者轉向SVM。多層前饋神經網絡的研究逐漸變得冷清。
直到2006年深度網絡(deep network)和深度學習(deep learning)概念的提出,神經網絡又開始煥發一輪新的生命。深度網絡,從字面上理解就是深層次的神經網絡。至于為什么不沿用以前的術語“多層神經網絡”,個人猜測可能是為了與以前的神經網絡相區分,表示這是一個新的概念。這個名詞由多倫多大學的Geoff Hinton研究組于2006年創造[3]。事實上,Hinton研究組提出的這個深度網絡從結構上講與傳統的多層感知機沒有什么不同,并且在做有監督學習時算法也是一樣的。唯一的不同是這個網絡在做有監督學習前要先做非監督學習,然后將非監督學習學到的權值當作有監督學習的初值進行訓練。這個改變其實對應著一個合理的假設。我們用P(x)表示用無監督學習對網絡進行預訓練得到的數據的一種表示,然后用有監督學習對網絡進行訓練(如BP算法),得到P(Y|X),其中Y?為輸出(比如類別標簽)。該假設認為P(X)的學習有助于P(Y|X)的學習。這種學習思路相對于單純的有監督學習而言有助于降低過擬合的風險,因為它不僅學習了條件概率分布P(Y|X),還學習了X?和Y?的聯合概率分布。關于預訓練有助于深度學習的原因還有其他解釋,其中最直接的解釋是預訓練將網絡參數訓練到一組合適的初始值,從這組初始值出發會令代價函數達到一個更低的值,但Erhan等人的實驗證明并不一定是這樣的[4]。事實上,他們發現不做預訓練,網絡能在訓練數據集上收斂到更低的誤差值,但在測試集上表現卻不好,即出現過擬合,如圖2所示。
圖2一個深度網絡在訓練集和測試集上的negative log-likelihood(nll)[4]。從左至右分別表示網絡有1、2、3層。 從圖中看出,相對于有預訓練過程,雖然沒有預訓練過程時訓練數據集上的nll值可以更低,但測試數據集上的nll值卻更高
?
由上可以看出,深度網絡從結構上講不是一件新事物,它的興起主要歸功于學習方法的變革。那么,Hinton研究組到底提出了一個什么樣的學習方法呢?這要從受限玻爾茲曼機(RBM,restricted Boltzmann Machine)講起。
RBM是一個單層的隨機神經網絡(通常我們不把輸入層計算在神經網絡的層數里),如圖3所示,本質上是一個概率圖模型。輸入層與隱層之間是全連接,但層內神經元之間沒有相互連接。每個神經元要么激活(值為1)要么不激活(值為0),激活的概率滿足sigmoid函數。RBM的優點是給定一層時另外一層是相互獨立的,那么做隨機采樣就比較方便,可以分別固定一層,采樣另一層,交替進行。權值的每一次更新理論上需要所有神經元都采樣無窮多次以后才能進行,即所謂的contrastive divergence (CD)算法,但這樣計算太慢,于是Hinton等人提出了一個近似方法,只采樣n次后就更新一次權值,即所謂的CD-n?算法[5]。
圖3??RBM的結構示意
?
學好了一個RBM模型后,固定權值,然后在上面壘加一層新的隱層單元,原來RBM的隱層變成它的輸入層,這樣就構造了一個新的RBM,然后用同樣的方法學習它的權值。依此類推,可以壘加多個RBM,構成一個深度網絡(如圖1所示)。令RBM學習到的權值作為這個深度網絡的初始權值,再用BP算法進行學習。這就是深度信念網絡的學習方法。
圖4的左邊給出一個例子[6]。這個網絡有4層,將一個高維的圖像信號壓縮到30維,即最頂層的神經元個數為30。我們還可以將這個網絡對稱展開,從30維回到原來的高維信號,這樣就有了一個8層的網絡(見圖4的中間)。如果該網絡用于信號壓縮,那么可以令該網絡的目標輸出等于輸入,再用BP算法對權值進行微調(見圖4的右邊)。
圖4??一個深度信念網絡的例子[6]
?
這項工作重新燃起了學術界對于神經網絡的熱情,一大批優秀的學者加入到深層神經網絡的研究中來,尤其是蒙特利爾大學的Bengio研究組和斯坦福大學的Ng研究組。從提出的模型種類上分析,Bengio研究組的一個重要貢獻是提出了基于自編碼器(auto-encoder)的深度學習網絡。自編碼器與RBM的激活函數都是sigmoid函數,學習原則也是一致的,都可以看成是最大化數據的似然概率,只是實現方式不同。而Ng研究組的一個重要貢獻是提出了一系列基于稀疏編碼的深層學習網絡。他們的工作延伸了深層網絡的定義:在同一個網絡中,不同層之間的學習方式可以是不一樣的。
值得強調的是,在2006年之前也有一個學習效率非常高的深度網絡(從歷史的角度可能稱為多層神經網絡更為合適)——卷積神經網絡。這個網絡由紐約大學的Yann LeCun于1998年提出[7],并在圖像分類(包括手寫體認別、交通標志識別等)中得到了很多應用。比如在IJCNN2011年的交通標志識別競賽中,一組來自瑞士的研究者使用基于卷積神經網絡的方法一舉奪魁。這個網絡本質上是一個多層感知機(如圖5所示),那為什么它能夠成功呢?人們分析關鍵可能在于它所采用的局部連接和分享權值的方式,一方面減少了的權值的數量;另一方面降低了過擬合的風險。近年來,人們發現如果卷積神經網絡先進行無監督學習,再進行有監督學習,效果會更好。
圖5??卷積神經網絡示意[8]
?
與Hinton一樣,LeCun也是一個對神經網絡異常癡迷的人,在幾乎所有人都放棄了神經網絡的時候,他們一直堅持著。
學術界對神經網絡的再度熱情迅速感染了工業界,一些嗅覺敏銳的公司迅速跟進。2010年,微軟雷德蒙研究院的Deng Li博士與Hinton合作發現深層網絡可顯著提高語音識別的精度[8]。這項成果被微軟亞洲研究院進一步深化,他們建立了一些巨大的神經網絡,其中一個包含了6600多萬神經連結(如圖6所示),這是語音識別研究史上最大的同類模型。該模型在Switchboard標準數據集的識別錯誤率比最低錯誤率降低了33%!要知道,在語音識別領域,這個數據集上的最低的錯誤率已多年沒有更新了。為此,Deng Li?博士還接受了《紐約時報》的專訪。關于這項工作的臺前幕后,微軟亞洲研究院在人人網上有一篇日志[2], 里面有詳細介紹。
圖6??一個結合了深度網絡的語音識別模型[8]
?
谷歌研究院也迅速加入到神經網絡的研究中來。通過與Ng研究組合作,谷歌的研究人員建立了一個巨大的深度網絡[9],見圖7,共有10億個參數要學習,堪稱史上最大的神經網絡。他們用了2000臺機器共32000個核訓練了1周,在ImageNet數據集上得到的分類準確率比當前最好的結果提高了70%!這項工作在《紐約時報》、《BBC》、《TIMES》等新聞媒體上進行了廣泛報道。
圖7??一個深度自編碼器的子網絡[9]。多個同樣的子網絡需要壘加在一起
?
總而言之,深度學習這個概念目前炙手可熱,得到了學術界和工業界的廣泛認可,大批學者正從不同的領域趕來湊熱鬧,ICML、NIPS、IEEE Trans. PAMI等著名會議和期刊上的相關論文越來越多。從目前的情況看,這場聲勢浩大的盛宴至少要持續好幾年。
最后,針對深度網絡未來幾年的可能動向簡單談談個人看法。我認為至少以下兩個方面值得重視。
首先,如何在深度網絡中加入反饋連接以提高性能。現有的深度網絡中只有前饋連接沒有反饋連接,這與真實的神經網絡不同。反饋神經網絡由于其動態過程比較復雜,沒有一般規律可循,訓練算法一般不具普適性,往往要針對不同的網絡設計不同的算法。更糟的是,相對于近年來興起的其他機器學習方法,這些學習算法效果不好,也不具有數據的可擴展性,無法很好地適應當前網絡時代下的大數據處理需求。近年來這方面也有一些重要進展,比如蓄水池網絡和回聲狀態網絡[10],其基本思想是將權值分為兩部分,一部分有復雜的前饋、反饋連接,權值固定,不需要學習;另一部分連接比較簡單(比如只有線性前饋),只學這部分權值。但是如何將這個思想用到深度網絡中去提高性能還是一個正在探索的問題。
第二,硬件與軟件的配合。目前絕大多數深度網絡都需要進行大量的計算,并行化必不可少。這一點其實很自然,因為畢竟大腦對信息的處理基本是并行的。并行的一種方式是機器的并行,像谷歌2012年在ICML上發表的工作那樣[9];另一種方式是使用GPU并行。顯然后者對于個人研究者而言更加經濟可行。但目前編寫GPU代碼對于大部分研究人員來講還是比較費時費力,這有賴于硬件廠商和軟件廠商通力合作,為業界提供越來越傻瓜的編程工具。
參考文獻:
[1]?Werbos P J. Beyond regression: new tools for prediction and analysis in the behavioral sciences[D].??Boston:?Harvard?University, 1974.
[2]??Rumelhart D, Hinton G, Williams R. Learning representations by back-propagating errors[J]. Nature, 1986, 323:533–536.
[3]??Hinton G E, Osindero S, Teh Y-W. A fast learning algorithm for deep belief nets[J].? Neural Computation,2006,18: 1527-1554.
[4]??Erhan D, Bengio Y, Courville A, et al.? Why does unsupervised pre-training help deep learning?[J].? Journal of Machine Learning Research, 2010,11:625-660.
[5]??Hinton G E. Training products of experts by minimizing contrastive divergence[J].? Neural Computation, 2002,14: 1771-1800.
[6]??Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786):504-507.
[8]??LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proc of the IEEE, 1998, 86(11): 2278-2324.
[7]??Dahl G, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J].? IEEE Transactions on Audio, Speech, and Language Processing, 2012,20(1):30-42.
[8]??Le Q, Ranzato M, Monga R, et al. Building high-level features using large scale unsupervised learning[C]//ICML2012. Edinburgh:[s.n.],2012:81-88.
[9]??Jaeger H, Haas H.? Harnessing nonlinearity: predicting chaotic systems and saving energy in wireless communication[J]. Science, 2004,304:78-80.
?
作者簡介:?胡曉林,清華大學計算機科學與技術系、智能技術與系統國家重點實驗室教師,研究方向為人工神經元網絡、神經與認知計算,E-mail:xiaolin.hu@gmail.com
總結
以上是生活随笔為你收集整理的深度学习——人工神经网络再掀研究热潮的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图像的几何不变矩
- 下一篇: MSRCR(Multi-Scale Re