Hinton最新访谈丨他如何看待谷歌胶囊网络专利、神经科学以及下一代AI?
本文作者:林檎、Hugo
Geoff Hinton 是公認的深度學習先驅。2018 年,他與 Yoshua Bengio、Yann LeCun 共同獲得了圖靈獎。而在這之前的一年,他提出了一個想法 —— 膠囊網絡(Capsule Network)。這是卷積神經網絡的替代方案,它考慮了物體在 3D 世界中的姿勢,嘗試彌補當今計算機視覺軟件學習能力上的不足,比如學會從不同的角度來識別同一個物體。
從那之后, Hinton 在學術界的公開活動有所沉寂,直到 2020 年。2020 年 12 月,在 NeurIPS 上,他的團隊介紹了一項堆疊式膠囊自動編碼器(stacked capsule autoencoders)相關的研究成果。更早之前 2 月的 AAAI 會議上,他談到,膠囊網絡是無監督學習的關鍵。4 月,Hinton 又重新提出了將反向傳播作為人類大腦中的一種學習功能,并介紹了近似反向傳播的算法 —— 用活動差異表示神經梯度(neural gradient representation by activity differences,簡稱 NGRAD)。
近日,在播客節目 Eye on AI 中,受到播客主理人、紐約時報資深記者 Craig Smith 的邀請,Hinton 進一步分享了他對于膠囊網絡、下一代神經網絡 SimCLR 框架以及 NGRAD 這三大技術成果的一系列思考?!皵祿崙鹋伞?將 Hinton 的主要觀點整理如下:
談關于膠囊網絡和膠囊自動編碼器
提出膠囊網絡之后,它已經有所改變,而且更多的變化正在發生。
最初,我們用的是監督式學習,我們認為這樣很容易讓它運轉起來,盡管我并不相信監督式學習。而在去年,我們換成了無監督學習,改用 Set Transformers。
膠囊網絡做的是通過識別部分和部分之間的關系來識別整個物體。
如果你看到一個可能是眼睛的東西,以及一個可能是鼻子的東西,前者對應一個臉部的位置,后者對應一個臉部的位置。如果它們指向的臉的位置達成某種一致,那么你就會判斷,嘿,它們的關系是正確的,可以做一張臉,所以我們將實例化一張臉。我們將激活臉部膠囊。
這里面有各種問題。其中一個問題是,你是否嘗試在有監督或無監督的情況下訓練它,使用無監督會更好,因為這樣就不需要標簽。但是另一個問題,如果你看到比如說直線線條中有一個圓狀物,你不知道它是左眼還是右眼,或者是汽車的前輪后輪。
所以,要為該圓狀物可能對應的各種存在 vote。
現在發生的情況是,每一個更高級別的膠囊都會得到一大堆 votes,幾乎所有都是錯誤的。但是有一種方法可以糾正這種情況,那就是說,如果有其他膠囊喜歡這個 vote,如果有其他膠囊可以利用這個 vote,成為這個對象的一部分,那么就把這個 vote 導向到那里,而不是這里。
這就是動態路徑選擇(dynamic routing)的想法。嘗試讓所有的錯誤的 votes 去到它們可以作為正確 votes 的地方。
這是很復雜的工作。我們在堆疊膠囊自動編碼器中使用的替代方法是,如果你發現了一些部件,假設是一個圓形、一個三角形和一個矩形,你并不知道它們是誰的部件,它們可能是很多很多東西的一部分。你要做的是讓它們相互作用一下,利用它們之間的空間關系,讓每個部分更加確信自己是什么樣的部分。所以,如果你是一個圓,有一個三角形作為一個鼻子出現在你右邊的位置,如果你是一個左眼,那么格外確認這一點。而這正是 transformers 非常擅長的地方。
在語言的情況下, transformers 對詞語片段有一個表示。例如,“may” 這個詞恰好是一個完整的單詞, transformers 不知道它表示 “愿意”、“應該” 的意思,還是像 “六月” 和 “七月” 一樣表示一個月份。transformers 所做的是,讓這個片段的表示與其他片段的表示相互作用。如果句子中還有另一個片段,比如說 “六月”,那么 “may” 就更像是在說一個月份。而如果有另一個片段是,“會” 或 “應該”,“may” 就會更像一種情態動詞。經過幾層之后,這些片段可以消除歧義。也就是說,每個片段都意味著什么是可知的。
在語言中,這意味著對這個詞存在著一個上下文敏感的表達,它在不同的意義之間消除了歧義。在視覺上,如果有一個圓,你想知道這個圓是眼睛,還是汽車的輪子,通過零件之間的相互作用,就可以做到這一點。在堆疊式膠囊自動編碼器中,我們就是這么做的。
我們用第一層的各個部分讓它們相互作用。因此,它們對自己是哪類事物的哪一部分會更有信心。一旦對自己是什么樣的一部分更有信心,它們就會投票決定自己可能是什么樣的一部分,就能得到更具體、更有信心的 votes。
而且不會有很多瘋狂的 votes。一旦你確信一個圓圈可能是左眼,它就不會投票贊成成為汽車的后輪。這意味著容易找到集群。我們做到了這一點,而不是試圖通過監督學習,通過貼標簽。堆疊式膠囊自動編碼器學會了創造善于重構部分的整體。這就是無監督學習。
至于膠囊網絡專利的問題,我不知道申請專利的全部動機。但我認為,谷歌對通過專利賺錢不感興趣。專利法保護的是第一個申請專利的人,不是第一個發明的人。所以,申請專利,只是為了保護。
談 SimCLR 框架
SimCLR 框架所要做的是說,我想學習用一種方式來表示一幅圖像的一個局部,使同一幅圖像的其他局部具有相似的表示。所以,你要做的是,先截取一幅圖像,然后再截取另一幅圖像。
再來一個神經網絡,把它們轉換成向量表示,轉換成神經活動的模式。我們希望這些模式是相似的。如果它們來自同一個圖像,你必須使它們相似;如果它們來自不同的圖像,你必須使它們不同。這就是對比學習。
事實上,與這個想法相關的第一個研究,是我在 1993 年與 Sue Becker 合作的研究,然后是我在 2002 年的研究。但我們從來沒有真正讓它在圖像上起到很好的作用,其他人在 2018 年重新提出了這個想法,并讓對比學習在大規模圖像數據上發揮作用。后來 Google lab in Toronto 的 Ting Chen 讓這個想法達到了新的高度。
一旦你有了這個圖像局部的表征,或者,這個神經網絡可以把這個局部轉換成一個表征,這樣你就可以得到相似的表征,兩個局部來自同一圖像,那么你就可以用這些表征來嘗試識別圖像中的物體是什么。這個階段是監督學習,但這不需要深深度網絡。
而我們的想法是,通過使用深度網絡來進行無監督學習,嘗試為同一圖像的兩個不同的 patch 獲得相同的表征或非常相似的表征。而對于不同圖像的局部,則有不同的表示。像 Ting 用的是 ResNet,就直接學習把這些沒有額外隱藏層的表征變成類標簽。這就叫線性分類器。
它里面沒有隱藏層。而且效果非常好。我們通過純無監督學習得到的,基于這些表征的線性分類器,沒有標簽知識的線性分類器,現在在 ImageNet 上和有監督的方法一樣好。前提是對于無監督學習,我們使用更大的 ResNet。如果你在 ImageNet 上使用標準大小的 ResNet,會有一定的錯誤率。
談大腦中的反向傳播與神經科學
神經科學家一直非常懷疑大腦是否存在類似反向傳播的機制。
其中一個大問題是,大腦是如何傳遞神經梯度的?因為在反向傳播中,無論誤差函數是什么,都需要根據誤差的梯度來改變權重。它的原理是用神經活動的變化率來表示誤差。
這很好理解,因為它可以有兩個標志,也就是說,神經活動可以上升也可以下降,所以可以用這兩個標志來表示誤差。這也暗示了使用神經梯度的學習規則,一種叫做脈沖時間依賴的可塑性( spike timing dependent plasticity,STDP)的機制。也就是說,當改變突觸強度時,它會隨著誤差導數的變化而變化。
這意味著根據突觸后活動性的變化率來改變它,即突觸前活動乘以突觸后活動的變化率。這就是 STDP。事實上,我很久以來一直在建議使用神經活動差異。
我和 James McClelland 在 1987 年有一篇論文,提出神經活動的時間差異可以用作誤差導數。那是在發現脈沖時間依的可塑性之前。到 2005 年,我又對活動差異產生了興趣。最近,人們已經成功地讓它發揮了作用。
到現在,我還是有點懷疑。我認為大腦可以做反向傳播,如果它想的話。大腦有點笨拙,我現在對此持懷疑態度,因為我認為反向傳播算法對大腦來說太適合了。大腦實際上處理的問題與大多數神經網絡處理的問題非常不同。
大多數神經網絡想要獲得大量用有限的參數來表示的知識,例如,10 億個參數。對于大腦來說,這參數太小了。這是大概一立方毫米的大腦所擁有的參數的數量。我們的大腦有無數的參數。
但是,大腦無法進行很多訓練。因為我們只能活十億秒或二十億秒。
所以,我們的大腦擁有大量的參數但是沒有太多的經驗。而大部分神經網絡能接受大量的訓練,但是沒有太多的參數?,F在,如果有很多很多的參數卻沒有多少訓練數據,我認為就需要做一些不同于反向傳播算法的事。
我對可以讓這種活動差異法很好地工作的方法很感興趣。這種方法試圖在自頂向下表示和自底向上表示之間產生一致性。比如說,如果你已經有了一些零件的層次結構,你就能通過查看圖像在不同的級別將部件實例化。
然后從高級別的部分,從上到下預測低級別的部分。你希望看到的是自頂向下的預測(取決于較大的上下文)與自下而上的零件提取(取決于較小的上下文)之間的一致性。所以,從圖像的局部區域中提取一部分,從這些部分中,你可以預測整體。從整體上,你自上而下地預測各個部分。但這些對部分的預測需要使用更多的信息,因為它們是基于整體的,所以需要的信息也更多。
你想要的是,自頂向下的預測和自底向上提取之間的一致性。而且,你希望它是特別一致的。你真正想要的是在同一幅圖像上,它們是一致的,但在不同的圖像上它們是不一致的。所以,如果從一張圖片和自上而下的預測或另一張圖片中提取部分,它們應該是不一致的。
這就是 SimCLR 中的對比學習。但它也提出了一種不同于反向傳播的大腦學習算法。我非常興奮。它不像反向傳播那樣有效,但它更容易植入大腦,因為你不需要反向傳播很多層。
只需要比較自上而下的預測和自下而上的預測。我稱它為 back relaxation。而且,在許多步驟中,它將向后獲取信息,但是在試用中不會向后獲取信息。反向傳播會在一幅圖像的單個表示上通過多層網絡向后發送信息,而 back relaxation 每次僅將其返回到一層,并且它需要對同一圖像進行多次表示才能完全返回。
因此,我對這種 back relaxation 算法真的很感興趣,這或許可以解釋大腦如何進行多層網絡的學習。但是后來我發現那種純粹的、貪心的自下而上學習算法也差不多。我沒有足夠仔細地進行控制。我在 2006 年引入的自底向上算法實際上可以很好地解決此問題。
這讓我感到非常失望。我仍然想看看我是否可以使 back relaxation 算法比貪心的自下而上算法更好。
人們喜歡這種自上而下的預測,并使其與自下而上的提取相一致。你會希望這比一次一層地訓練一堆自動編碼器要好。否則就不值得這么做,訓練一堆自動編碼器,每次隱藏一層,結果證明是很好的。
最近在這些大型神經網絡中發生的事情是,深度學習在 2006 年左右真正開始發展,我們發現如果訓練一堆自動編碼器或受限玻爾茲曼機器時,一次一層微調它,它能工作得很好。
這讓神經網絡再次運轉起來。然后人們做了像演講這樣的事情。在 ImageNet 上,他們說不需要預先訓練,不需要訓練這些自動編碼器,可以在監督下訓練它。
這在一段時間內是沒問題的。但是當得到更大的數據集和更大的網絡時,人們又回到了無監督的預訓練。這就是 Bert 所做的。Bert 是無人監督的預訓練。GPT-3 使用無監督的預訓練。這一點現在很重要。我們確實需要一些無監督學習算法。但是無監督學習算法現在變得更加復雜。
計算神經科學的巨大成功是利用 Rich Sutton 等人在時間差異方面所做的工作,并將其與大腦和多巴胺的實驗研究聯系起來。尤其是 Peter Dayan,他非常重要地展示了理論學習算法和大腦中實際發生的事情之間的關系。但這是關于強化學習的。
我認為強化學習是錦上添花。大部分的學習都是無監督學習。你必須了解世界是如何運作的,但不是通過強化信號來了解。你不會想通過蹩腳的方法來學習視覺。你要學習用其他的方法來做視覺。
我人生的主要目標是了解大腦是如何工作的,而所有這些試圖了解大腦是如何工作的技術,并不能解釋真正的大腦是如何工作的。它是有用的副產品。
但這不是我真正想要的。
膠囊網絡、SimCLR、NGRAD 會 “合并” 嗎?
如果你的研究已經有一段時間了,你會有很多關于事物應該如何發展的深刻直覺,然后你會有一些特定的項目,這些特定的實例也會與這些直覺相結合。通常看起來很獨立的項目最終會合并。但就目前而言,膠囊網絡的工作有些不同。盡管這三個都可以合并在一起。
如果我們能從上到下的預測和從下到上的預測在一個對比的意義上一致,也就是說,它們對相同的圖像很一致,對不同的圖像很不同,這將適合堆疊式膠囊自編碼器。
但它也是一個對比學習的例子,就像 SimCLR 一樣。這也可以解釋大腦如何學習多層網絡。所以很明顯,我和很多人一樣,想找出所有問題的解決方案。只是,我們得更現實一點,我們只能了解其中的一部分,不可能一下子得到所有的東西。
堆疊膠囊自動編碼器的一個重要動機是,它會有更像我們用的表示方式。
一個經典的例子是,如果有一個旋轉了 45 度的正方形,你有兩種完全不同的方式來感知它。一個是傾斜的正方形,另一個是直立的菱形。這取決于你使用的表示方式。卷積網絡沒有兩種不同的表示方式。
它們只有一種表示。為了得到兩種不同的表示方式,你需要一個參照系。我們感知的一個非常強烈的特征是,我們給事物強加了參照系并根據這些參照系來理解它們。如果強加一個不同的框架,那么對事情的理解就會完全不同。
這是制作堆疊膠囊自動編碼器的主要動機之一。它也是一個計算機圖形處理算法。所以,在計算機圖形學中,你用一個特定的坐標系來代表一個房子。然后相對于那個坐標系,你才能知道窗戶和門的位置。
這就是我們在神經網絡中需要的表現方式,如果神經網絡在表達對象方面更像我們的話。目前深度神經網絡非常擅長分類,它們的分類方式與人類完全不同。所以,他們更依賴于紋理之類的東西。
它們可以看到各種我們不敏感的復雜紋理。這就是為什么會有這種情況,兩個東西在我們看來完全不同,但在神經網絡看來是相似的。
Refrence:
https://www.eye-on.ai/
關于數據實戰派
數據實戰派希望用真實數據和行業實戰案例,幫助讀者提升業務能力,共建有趣的大數據社區。
總結
以上是生活随笔為你收集整理的Hinton最新访谈丨他如何看待谷歌胶囊网络专利、神经科学以及下一代AI?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android控件Recy,Androi
- 下一篇: 移动通信核心网技术总结(四)IMS的网络