基于自编码器的表征学习:如何攻克半监督和无监督学习?
選自NeurIPS 2018
作者:Michael Tschannen等
機器之心編譯
參與:Panda
蘇黎世聯邦理工學院和谷歌大腦團隊研究者的 NeurIPS 2018 會議貝葉斯深度學習(Bayesian Deep Learning)研討會論文《Recent Advances in Autoencoder-Based Representation Learning》系統性地介紹了基于自編碼器的表征學習的最新進展。
為了將人工智能應用于從世界收集的大量無標注數據,一大關鍵難題是要能僅用少量監督或無監督的學習方法來學習有用的表征。盡管在數據上學習到的表征的有用性顯然很大程度上取決于其所針對的最終任務,但仍可想見有些表征的性質可同時用于很多真實世界任務。在一篇有關表征學習的開創性論文中,Bengio et al. [1] 提出了這樣一組元先驗(meta-prior)。這些元先驗來自對世界的一般性假設,比如解釋性元素的層次化組織形式或解離性(disentanglement)、半監督學習的可能性、數據在低維流形上的匯集、可聚類性、時間和空間一致性。
近段時間,研究者們已提出了多種基于自編碼思想的(無監督)表征學習算法;這種思想的目標是學習從高維觀察到低維表征空間的映射,使得可通過低維的表征(近似地)重建出原來的觀察。盡管這些方法有各不相同的目標和設計選擇,但我們認為這篇論文介紹的所有方法本質上都隱式或顯式地圍繞著來自 Bengio et al. [1] 的一個元先驗。
鑒于上游表征學習任務本質上的無監督性,表征學習步驟中強制執行的元先驗的特性能決定所得到的表征對真實世界最終任務的有用程度。因此,為了強制執行給定的元先驗,需要理解哪種模型和哪種通用技術針對哪種元先驗是有用的。在這篇論文中,我們提供了一種統一視角,其中包含大多數已提出的模型并給出了它們與 Bengio et al. [1] 中提出的元先驗的關系。我們在表 1 中總結了近期在元先驗方面的研究工作。
表 1:根據 [1] 中的用于表征學習的元先驗分組的方法。盡管很多方法都直接或間接地解決了多個元先驗,但我們僅考慮了每種方法中最顯著的目標。注意,本質上所有方法都會強制使用低維和流形結構等元先驗。
Bengio et al. [1] 的元先驗。元先驗有關于這個世界的非常通用的前提條件,因此也被認為可用于范圍廣泛的下游任務。我們簡要地總結了我們審閱過的方法所針對的最重要的元先驗。
解離性:假設數據是基于互相獨立的因素(這些因素內部也存在一定的變化范圍)生成的,比如目標圖像中的目標方向和光照條件,作為一個元先驗,解離性更傾向于用表征中不同的獨立變量表示這些因素。這樣應該就能得到數據的簡潔的抽象表示,從而可用于各種下游任務并有望提升樣本效率。
解釋性因素的層次化組織形式:這一元先驗背后的直觀知識是這個世界可以被描述為越來越抽象概念的層次結構。比如自然圖像可以在不同層次的粒度上根據圖中的目標進行抽象的描述。給定目標,可由目標的屬性給出更具體的描述。
半監督學習:半監督學習思想是在監督學習任務和無監督學習任務之間共享表征,這通常會帶來協同效應:盡管有標注數據點的數量通常過小,不足以學習得到優良的預測器(也沒有優良的表征),但與無監督目標一起聯合訓練能讓監督任務學習到可泛化的表征,同時監督任務還能引導表征學習過程。
聚類結構:很多真實世界數據集都有多類結構(比如具有不同目標類別的圖像),這些結構可能具有各不相同的與類別有關的因素(這些因素內部也存在一定的變化范圍)。這種結構可由隱含混合模型學習得到,其中每種混合組分都對應一種類別,并且其分布也能建模該類別之中的因素的變化情況。這能自然地得到具有聚類結構的表征。
平滑度(smoothness)與時間空間的一致性等非常通用的概念并不特定于無監督學習,并且可在大多數實際設置中使用(比如有助于預測器平滑度的權重衰減,以及用于獲取圖像數據中空間一致性的卷積層。我們將在第 7 節討論大多數方法使用的隱式監督。
用于強制執行元先驗的機制。我們識別出了以下三種強制執行元先驗的機制:
編碼分布的正則化(第 3 節)。
編碼和解碼分布或模型族的選擇(第 4 節)。
靈活的表征的先驗分布的選擇(第 5 節)。
比如,編碼分布的正則化通常被用于促進使用解離后的表征。另外,以一種層次化的方式分解編碼和解碼分布讓我們可以將層次結構施加到表征上。最終,可使用一種更加靈活的先驗(比如一種混合分布)來促進可聚類能力。
圖 1:圖(a)說明了編碼器、解碼器和先驗分布在隱含(表征/代碼)空間上指定的變分自編碼器(VAE)框架。編碼器是將輸入映射到表征空間(推理),而解碼器則是根據表征重建原輸入。編碼器應該滿足該隱含空間上的某些結構(比如應該是解離的)。圖(b)展示了在 MNIST 數據集上訓練后的具有二維隱含空間的自編碼器。左圖中的每個點都對應于一個數字的表征(原來有 784 個維度),右圖是重建出的數字。
可以看到,這個案例中的隱含表征是有聚類的(多種風格的同一數字在 L2 距離上很接近,而在每一組中,位置都對應于數字的旋轉)。
在開始我們的概述之前,我們在第 2 節給出了理解變分自編碼器(VAE)[25, 26] 所需的主要概念、本論文中考慮過的大多數基礎方法以及用于估計概率分布之間的散度的多種技術。然后我們會在第 3 節詳細討論基于正則化的方法,在第 4 節介紹依賴結構化的編碼和解碼分布的方法,在第 5 節介紹使用結構化先驗分布的方法。我們在第 6 節通過概述跨領域表征學習 [27-29] 等相關方法而進行了總結。最后,我們在第 7 節通過 Alemi et al. [30] 的數據率-失真(rate-distortion)框架評判了無監督表征學習并探討了其意義。
論文:基于自編碼器的表征學習近期進展(Recent Advances in Autoencoder-Based Representation Learning)
論文地址:https://arxiv.org/abs/1812.05069
摘要:在很少或沒有監督的情況下學習有用的表征是人工智能領域的一大關鍵挑戰。我們以基于自編碼器的模型為核心,對表征學習的最新進展進行了深度概述。為了組織這些結果,我們使用了據信對下游任務有用的元先驗,比如特征的解離性和層次結構。具體而言,我們揭示了三種強制實現這些屬性的主要機制:(1)正則化(近似的或聚合的)后驗分布,(2)分解編碼和解碼分布,(3)引入一個結構化的先驗分布。盡管已有一些有希望的結果,但隱式或顯式的監督仍然是一個關鍵推動因素,所有現有方法都使用了較強的歸納偏置且有建模方面的假設前提。最后,我們還通過數據率-失真理論對基于自編碼器的表征學習進行了分析,并確定了下游任務相關先驗知識可用量與該表征在該任務中的有用程度之間的明確權衡。
表 2:選擇了不同正則化方法 和 的研究概述。[5] 中的學習目標是指定的。大多數方法都使用了多變量標準正態分布作為先驗(更多詳情見附錄表 3)。最后一列「Y」表示是否使用了監督:√ 表示需要標簽,O 表示標簽是可選擇使用的(從而實現監督或半監督學習)。注意某些正則化算法經過了簡化。
圖 3:不同正則化算法的示意圖概述。大多數方法都側重于正則化聚合的后驗,而在測量先驗的分歧的方法各有不同。表 2 提供了更多細節,深度討論見第 3 節。
圖 5:圖(a)展示了一個帶有層次編碼分布和 PixelCNN 解碼分布的 VAE 示例,圖(b)給出了不同模型所用的分解方法概況。我們表示編碼(ENC)和解碼(DEC)分布的結構的方式為:H 表示層次,A 表示自回歸,(默認)是全連接或卷積的前饋式神經網絡。我們表示后驗部分的方式為:N 表示多變量標準正態分布,C 表示類別式,M 表示混合分布,G 表示圖模型,L 表示學習得到的先驗。最后一列「Y」表示是否使用了監督。
圖 6:圖(a)展示了一個帶有多模態連續或離散先驗(每個先驗都會產生一個不同的模型)的 VAE 示例。圖(b)給出了不同模型使用的先驗的概況。
圖 7:圖(a)展示了 [30] 的數據率-失真權衡,其中 D 對應 (β-)VAE 目標中的重建項,R 對應 KL 項。圖(b)展示了 [10,9] 中的監督式案例的一個相似的權衡。如圖(c)所示,不能反映所學到的表征對未知下游任務的有用程度。?
本文為機器之心編譯,轉載請聯系本公眾號獲得授權。
?------------------------------------------------
加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com
投稿或尋求報道:content@jiqizhixin.com
廣告 & 商務合作:bd@jiqizhixin.com
總結
以上是生活随笔為你收集整理的基于自编码器的表征学习:如何攻克半监督和无监督学习?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用外观判断论文好坏?这位顶会领域主席的论
- 下一篇: 理解随机森林:基于Python的实现和解