NeurIPS 2019|腾讯AI Lab详解入选论文,含模仿学习、强化学习、自动机器学习等主题...
感謝閱讀騰訊 AI Lab 微信號第 89 篇文章。本文將解讀騰訊 AI Lab 入選 NeurIPS 2019 的 14 篇論文。
第 33 屆神經信息處理系統大會(NeurIPS 2019)將于當地時間 12 月 8 – 14 日在加拿大溫哥華舉辦。該會議的目標是促進有關神經信息處理系統的生物學、技術、數學和理論方面的研究交流。伴隨著人工智能與機器學習領域的飛速發展,作為領域頂級學術會議之一的 NeurIPS 今年會議的論文投稿數量又創造了新的記錄:本屆會議共收到有效提交論文 6743 篇(相比去年增長近 39%),其中 1428 篇被接收,接受率為 21.17%。
騰訊公司今年共有 18 篇論文入選,引領國內產業界;其中來自騰訊 AI Lab 的論文共 14 篇,涉及強化學習、模仿學習、網絡結構優化、計算機視覺和語義分割等多個研究主題。本文將匯總介紹騰訊 AI Lab 入選 NeurIPS 2019 的論文。
一、模仿學習
模仿學習是指通過演示的范例進行學習的方法。今年騰訊 AI Lab有一篇與模仿學習相關的論文入選,提出了一種基于觀察進行模仿學習的新方法。
1.? 通過最小化逆動力學分歧來實現從觀察中模仿學習
Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement
論文:
https://papers.nips.cc/paper/8317-imitation-learning-from-observations-by-minimizing-inverse-dynamics-disagreement
本文由騰訊 AI Lab、清華大學以及 MIT-IBM Watson AI Lab 合作完成,是 NeurIPS 2019 的 Spotlight 論文之一。
本文主要討論了如何在只提供專家狀態演示(缺乏專家動作演示)下的模仿學習,即從觀測中學習(LfO:Learning from Observations)。不同于從完備專家演示中學習(LfD:Learning from Demonstration),LfO 在利用更多形式的數據(比如視頻,以往方法是無法使用這些數據)方面更具有實用性。同時,因為專家演示信息的不完備,所以實現 LfO 更加具有挑戰性。這篇文章從理論和實踐的角度討論了 LfD 和 LfO 的不同。研究者從數學上證明:在 GAIL 的建模下,LfD 和 LfO 的差別實際上就是智能體和專家的逆運動模型的不一致性。更重要的是,這個差別的一個上界可以通過無模型的最大化熵來實現。作者將這種方法稱為「逆動力學分歧最小化(IDDM)」,通過最小化 LfO 與 LfD 的區別來增強 LfO 的性能。大量實驗表明,這種新方法相比傳統 LfO 方法更有優勢。
IDDM算法
二、強化學習
強化學習是近年來大放異彩的機器學習技術之一,基于這種技術開發的人工智能模型已經在圍棋、撲克、視頻游戲和機器人等領域取得了非常多的里程碑式的進步。騰訊 AI Lab的 NeurIPS 2019 入選論文中有三篇與強化學習有關,這三篇論文針對不同方向的任務分別提出了兩種不同的新的算法以及一種新的多智能體學習策略。
1.基于課程引導的后驗經驗回放算法
Curriculum-guided Hindsight Experience Replay
論文:
https://papers.nips.cc/paper/9425-curriculum-guided-hindsight-experience-replay
本文由騰訊AI Lab/Robotics X主導,與華盛頓大學合作完成。在存在稀疏獎勵的強化學習中,后驗經驗回放(HER)能夠通過將失敗經驗的實現狀態視為偽目標來從失敗中學習。但是并非所有失敗的經歷對于學習都同樣有用,因此使用所有失敗經驗的效率不高。
因此,本文提議:1)根據與真實目標的接近程度和對各種偽目標的探索好奇心,自適應地選擇失敗經驗;2)逐漸改變選擇指標中目標臨近度和多樣性的比例:本文采用類似人的學習的策略,即在早期階段提高好奇心,之后又將重心轉向臨近度。這種「目標和好奇心驅動的課程學習」就引出了「課程指導的后驗經驗回放(CHER)」。該算法可以在強化學習過程中通過對失敗經驗選擇而實現自適應,動態地控制探索與開發的權衡。實驗結果表明,在具有挑戰性的機器人環境(比如機器手轉球等)中,CHER可以進一步提升當前最佳表現。
CHER算法
2.LIIR:多智能體學習中實現對個體即時內在獎勵值的學習
LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning.
論文:
https://papers.nips.cc/paper/8691-liir-learning-individual-intrinsic-reward-in-multi-agent-reinforcement-learning
本文由騰訊AI Lab/Robotics X主導,與倫敦大學學院和羅徹斯特大學合作完成。在協作式多智能體強化學習(MARL)的場景中,環境的獎勵值通常是回饋給整個多智能體團隊的,這就產生了一個難題:如何通過整體團隊的獎勵值對每一個不同的智能體進行差異化和多樣性的鼓勵。
針對這一問題,本文提出了一種元學習的方法,即對每一個智能體學習一個虛擬的內在獎勵值,但同時整體的學習目標仍然是優化團隊的總體獎勵。每一個智能體的虛擬即時獎勵值都不相同,從而可以激勵不同的智能體采取多樣的有利于團隊的行為。
具體來說,每一個特定的智能體的即時內在獎勵涉及到為該智能體計算一個明確的代理評估函數,從而為其個體策略更新提供指示。同時,參數化的即時獎勵函數也會得到更新,以最大化團隊在環境中的預期累積獎勵,因此這種方法的目標與原始 MARL問題的目標是一致的。這種新方法稱為 LIIR。在《星際爭霸 2》上的實驗結果表明,通過學習多智能體的即時獎勵可以激勵多智能體產生有效并且多樣的行為。
多智能體強化學習設置中的 LIIR 方法概況
3.? 散度增強的策略優化算法
Divergence-Augmented Policy Optimization
論文:?
https://papers.nips.cc/paper/8842-divergence-augmented-policy-optimization
本文由騰訊AI Lab與虎牙AI、香港中文大學、香港科技大學合作完成。在深度強化學習問題中,策略優化方法需要處理函數近似以及離線數據的使用問題。常用的策略梯度算法不能很好地處理離線數據,導致過早收斂和不穩定等問題。這篇論文介紹了在重復使用離線數據時能穩定策略優化訓練的方法。主要思想是引入現有的策略和產生離線數據的行為策略之間的Bregman散度來保證安全的策略更新。本文的Bregman散度不只是加在兩個策略的動作分布上,同時還考慮了兩者狀態分布上的散度,從而導出了本文的散度增強公式。在 Atari游戲上的實驗說明在數據不足情況下,重復利用離線數據很有必要,而本文提出的方法可以比其它深度強化學習SOTA算法取得更好的效果。
散度增強的策略優化算法
三、自動機器學習與網絡優化
騰訊 AI Lab 也在機器學習的基礎方法上努力探索。今年入選 NeurIPS 的論文中有 5 篇與自動機器學習和網絡優化有關,其中包括對網絡架構和超參數的優化方法以及用于復合優化問題的新方法,另外還有一篇論文提出了用于分布式環境的通信優化方案——文中提出了 3 個針對不同方面的用以實現高效通信的分布式優化算法。
1.? 用于復合優化問題的隨機方差下降原始-對偶算法
Stochastic Variance Reduced Primal Dual Algorithms for Empirical Composition Optimization
論文:
https://papers.nips.cc/paper/9180-stochastic-variance-reduced-primal-dual-algorithms-for-empirical-composition-optimization
代碼:
https://github.com/adidevraj/SVRPDA
本文由騰訊AI Lab主導,與佛羅里達大學合作完成。研究了通用的復合優化問題,在這個問題中樣本平均不僅出現在非線性損失函數的里面和外面。很多機器學習問題均可以表述成這一類通用復合優化問題,因此高效求解這類問題具有很重要的實際應用意義。然而這類問題無法直接用隨機梯度下降算法直接求解。
為了解決這個問題,本文現將原始的最小化問題等價表述成一個最小-最大化問題,這一等價變換可以將非線性損失函數里面的樣本平均交換到外面去。充分挖掘了問題內在的結構之后,本文提出了一種隨機原始-對偶算法SVRPDA-I來高效求解這個問題。同時本文對算法進行了全面的理論分析,推導了收斂速度、計算復雜度和存儲復雜度,并證明了算法的線性收斂速度。
此外,本文還提出了一個近似算法SVRPDA-II,可以極大降低算法的存儲復雜度(極大降低內存使用量),同時僅有很小的性能損失。在實際任務上的實驗結果表明新提出的算法在性能上顯著超過了現有的其他算法。
SVRPDA-I
SVRPDA-II
2.? 通過分布遷移進行超參數優化
Hyperparameter Learning via Distributional Transfer
論文:
https://papers.nips.cc/paper/8905-hyperparameter-learning-via-distributional-transfer
本文由騰訊AI Lab主導,與牛津大學合作完成。貝葉斯優化是一種用于超參數優化的流行技術。但是即使在先前所解決任務與當前任務類似的情況下,貝葉斯優化通常也需要進行昂貴的初始探索。不同于傳統的貝葉斯優化,本文提議了一種新的改進思路:基于這些任務的訓練數據集所學到的分布表示而跨任務地遷移超參數對模型性能影響的知識。具體來說,該方法引入了一個超參數和數據表示的聯合高斯過程來遷移歷史任務超參數優化的知識,進而對新任務上的超參數優化起到熱啟動的效果。與現有基準相比,新提出的方法具有更快的收斂速度。在某些情況下,新算法僅需要迭代幾次即可。
基于分布的貝葉斯優化算法
3. ?NAT:用于獲得精確且緊湊型架構的神經網絡架構變形器
NAT: Neural Architecture Transformer for Accurate and Compact Architectures
論文:
https://nips.cc/Conferences/2019/Schedule?showEvent=13305
本文由騰訊AI Lab主導,與華南理工大學合作完成。現有的神經網絡架構基本都是手動設計的或者通過某些神經網絡架構搜索方法得到的。但是,即使是精心設計的架構也仍然可能包含許多不重要的或冗余的計算模塊或計算操作。這不僅會導致大量的內存消耗和計算成本,而且會使模型性能降低。因此,有必要在不引入額外計算成本的情況下優化已有神經網絡架構內部的操作以提高性能。不幸的是,這樣的約束優化問題是NP難的。
所以,本文將該問題簡化為一個利用馬爾可夫決策過程來自動優化神經網絡架構的問題。針對該問題,本文提出一個名為神經網絡架構變形器的算法。它可以將冗余操作替換為計算效率更高的操作。所研發的算法適用于對多種人工設計的以及網絡架構自動搜索方法得到的網絡架構的優化,并在兩個標準數據集(即CIFAR-10和ImageNet)上進行了廣泛實驗。結果表明通過所提方法變形所得的架構顯著優于其原始形式和通過其他現有方法優化所得的架構。
NAT的訓練方法
4.? 基于雙重量化高效通信的分布式優化方法
Double Quantization for Communication-Efficient Distributed Optimization
論文:
https://papers.nips.cc/paper/8694-double-quantization-for-communication-efficient-distributed-optimization
本文由騰訊AI Lab與清華大學交叉信息研究院合作完成。在大規模分布式優化過程中,模型參數與梯度的同步通信往往是限制其訓練效率的性能瓶頸。本文提出了一種雙重量化的通信機制,同時對模型參數與梯度進行壓縮以提升訓練效率。具體的,本文從異步通信、梯度稀疏化以及基于動量項的加速策略三個方面,分別設計了高效通信的分布式優化算法:低精度的 AsyLPG、Sparse-AsyLPG、Accelerated AsyLPG。本文也給出了嚴格的理論保證。實驗結果表明,本文提出的算法可以在精度無損的前提下,有效降低數據傳輸量,顯著優于其它僅進行模型參數或者梯度量化的分布式優化方法。
AsyLPG算法
Sparse-AsyLPG算法
Accelerated AsyLPG算法
5.? 基于隨機遞歸梯度下降的有效率的光滑非凸隨機復合優化
Efficient Smooth Non-Convex Stochastic Compositional Optimization via Stochastic Recursive Gradient Descent.
論文:
https://papers.nips.cc/paper/8916-efficient-smooth-non-convex-stochastic-compositional-optimization-via-stochastic-recursive-gradient-descent
本文由騰訊AI Lab與密蘇里科技大學、羅切斯特大學、北京大學合作完成。在很多重要的機器學習任務如強化學習、投資組合管理等,隨機復合優化有廣泛的使用場景。隨機復合優化問題的目標函數常態為兩個隨機函數的數學期望之合,其比vanilla隨機優化問題更具有挑戰性。
在本論文中,作者研究一般光滑非凸設定下的隨機復合優化。作者使用一個最近提出的思想-隨機遞歸梯度下降,設計出一個稱為SARAH-Compositional的新算法。作者也為隨機復合優化證明了一個銳利的IFO復雜度上界:在有限合情況下,該上界為$O((n+m)^{1/2}\varepsilon^{-2})$;在在線學習情況下,該上界為$\varepsilon^{-3}$。作為一項重要的理論性的結果,該復雜度為非凸隨機復合優化的所有存在的IFO復雜度之最優。數值實驗證明了論文中所提算法與其相關理論的優越性能。
SARAH-Compositional算法
四、語義分割
騰訊 AI Lab 還有 3 篇論文與語義分割相關,其中一篇研究的是使用圖卷積網絡的點云語義分割;另一篇為圖像語義分割提出了一種新的非監督式域自適應方法。
1.? 基于上下文信息的點表示挖掘局部和全局結構信息的點云語義分割
Exploiting Local and Global Structure for Point Cloud Semantic Segmentation with Contextual Point Representations
論文:
https://papers.nips.cc/paper/8706-exploiting-local-and-global-structure-for-point-cloud-semantic-segmentation-with-contextual-point-representations
代碼:
https://github.com/fly519/ELGS
本文由騰訊AI Lab與深圳大學合作完成。本文提出了一種新型的點云語義分割模型。該模型基于上下文點云表示,可同時挖掘點云中的局部和全局結構。具體來說,本文通過對點本身及其上下文點信息設計了一種新穎的門控融合來豐富每個點的表示。然后,基于豐富點的表示,我們提出了一個新穎的圖點云網模塊(GPM),依靠圖注意力模型動態地組成和更新局部點云結構內的每個點表示。最后,利用空間和通道的注意力模型,挖掘點云的全局結構信息,從而為每個點生成最終的語義標簽。在公共點云數據庫(即S3DIS和ScanNet數據集)上的大量結果證明了新提出的模型的有效性,并且結果也優于最先進的方法。相關研究代碼已發布。
新提出的用于點云分割的模型,該模型由三個完全耦合的組件構成。其中 Point Enrichment組件不僅會考慮點本身,而且還會考慮其上下文的點信息,以便豐富其語義表示。Feature Representation組件使用了的傳統的編碼器-解碼器架構,為每個點學習特征表示。具體來說,新提出的 GPM可通過一個 GAB模塊動態地組成和更新每個點表示。Prediction 組件則同時使用通道和空間的注意力模型,進而融合全局結構信息預測每個點的語義標簽。
2.? 用于語義分割的基于類別錨點引導的非監督式域自適應
Category Anchor-Guided Unsupervised Domain Adaptation for Semantic Segmentation
論文:
https://papers.nips.cc/paper/8335-category-anchor-guided-unsupervised-domain-adaptation-for-semantic-segmentation
代碼:
https://github.com/RogerZhangzz/CAG_UDA
本文由騰訊AI Lab與優必選悉尼大學人工智能中心合作完成。非監督的域自適應(UDA)之目的是提升一個特定學習模型從一個源域運用到一個目標域的推廣能力。用戶一般沒有額外的精力去標注目標域的樣本,因此UDA將顯得非常有意義。然而,數據分布的差異或者域遷移/差異將不可避免地損害UDA的性能。雖然在匹配兩個不同域的邊際分布上有一些研究進展,但由于運行了類別未知的特征對齊,訓練出的分類器會傾向于源域的特征,而對目標域的樣本做出錯誤預測。
在本論文中,作者為圖像語義分割提出一個新的類別錨點引導的UDA模型(CAG-UDA)。該模型可顯式地運行類別可知的特征對齊,進而同步學習出共享的鑒別性強的特征與分類器。具體而言,源域特征的類別質心首先被用做引導的錨點,用來確定目標域的活躍特征并賦予它們偽標簽。然后,作者使用一個基于錨點的像素級的距離損失和一個鑒別性損失分別推動類別內特征更近和類別間特征更遠。最后,作者設計了一個階段性的訓練機制,用以降低累積的預測誤差和逐步使模型更加適應目標域。在兩個圖像語義遷移分割的任務上,作者驗證了所提出的CAG-UDA方法,結果表明新方法的性能超過當前業內最先進的方法。相關研究代碼已發布。
CAG-UDA 模式示意圖
五、其他研究
以上研究之外,騰訊 AI Lab 還有 3 篇論文對其他(但并非不重要)的研究主題進行了探索。其中一篇提出了一種動態時間規整網絡,可幫助更好地提取時間序列數據中的特征;另一篇則探索了通過使用對抗樣本來提升跨模態哈希神經網絡的魯棒性。最后一篇則是視覺和語言結合方面的研究,提出了通過自然語言定位視頻中語義上相關的片段的新機制
1.DTWNet:一種動態時間規整網絡
DTWNet: A DynamicTime Wrapping Network
論文:
https://papers.nips.cc/paper/9338-dtwnet-a-dynamic-time-warping-network.pdf
本文由騰訊AI Lab主導,與康涅狄格大學合作完成。深度神經網絡在處理時間序列數據時,傳統的閔可夫斯基距離不適合作為反應序列相似度的損失函數,而動態時間規整算法(DTW)可以更好地計算序列距離,因此可以用作深度網絡中的損失函數和特征提取算子。
本文提出了一種新的估計方法,使得DTW在作為算子時可以估計輸入的梯度,從而實現神經網絡中的反向傳播。該方法首次分析了DTW作為損失函數的函數形態和應用梯度下降法的收斂性,并且首次提出了基于部分序列匹配的DTW梯度更新算法。實驗結果表明,該方法作為一種新的特征抽取手段,可以更好地提取時間序列數據中的特征。此外,本文提出的梯度估算方法在實驗中展現了良好的收斂性。本文也創造性地提出了該方法在數據分解上的拓展性應用。
針對一個分類任務的 DTWNet訓練過程
2.? 使用對抗樣本的跨模態學習
Cross-Modal Learning with Adversarial Samples.
論文:
https://papers.nips.cc/paper/9262-cross-modal-learning-with-adversarial-samples
本文由騰訊AI Lab主導,與西安電子科技大學、匹茲堡大學合作完成。隨著深度神經網絡的快速發展,已經誕生了大量的深度跨模態分析方法,而且這些方法也在醫療AI等領域得到了廣泛的應用。但是,最近關于深度神經網絡的魯棒和穩定性研究發現:樣本的一個微小更改(即對抗樣本,甚至人類肉眼完全無法察覺)就能輕易騙過一個主流的深度神經網絡而造成性能的巨大下降。因此,對抗樣本是當前跨模態分析研究探索的一大障礙。
在本論文中,作者提出了一種新的跨模態學習方法,稱為CMLA,該方法是首個構造并學習出了多模態數據中的對抗樣本的方法。。在基于跨模態哈希的檢索任務上,新提出的CMLA方法表現出了很好的性能。在兩個跨模態基準數據集上的實驗論證表明:CMLA創造的對抗樣本能快速地騙過一個目標跨模態哈希網絡,另一方面也能通過繼續的對抗訓練提升該目標跨模態哈希網絡的魯棒性。
用于跨模態哈希學習的 CMLA的流程圖
CMLA算法
3.? 用于視頻自然語言定位的語義條件動態調制機制
Semantic Conditioned Dynamtic Modulation for Temporal Sentence Grounding in Videos
論文:
https://papers.nips.cc/paper/8344-semantic-conditioned-dynamic-modulation-for-temporal-sentence-grounding-in-videos
代碼:
https://github.com/yytzsy/SCDM
本文由騰訊AI Lab主導,與清華大學合作完成。視頻中自然語句定位任務的目標是檢測和定位一個目標視頻片段,使得該片段在語義上與給定的句子語義相對應。現有方法主要通過在句子和候選視頻片段之間匹配和對齊語義來解決該任務,而忽略了句子信息在時間上的關聯和組成視頻內容中起到的重要作用。
本文提出了一種新穎的語義條件動態調制(SCDM)機制,該機制依賴于句子語義來調制時間域卷積運算,以便隨著時間的推移更好地關聯和組成與句子相關的視頻內容。更重要的是,提出的SCDM針對各種視頻內容動態地執行,從而在句子和視頻之間建立更精確的匹配關系,進而提高了時間上的定位精度。在三個公共數據集上進行的大量實驗表明,新提出的模型優于已有的方法,說明了SCDM能夠更好地關聯和定位相關視頻內容以進行時間域文本定位。相關研究代碼已發布。
該模型由三個完全耦合的組件構成。Multimodal Fusion 組件會以細粒度的方式融合整個句子和每個視頻片段。基于融合后的表示,Semantic Modulated Temporal Convolution 組件會在時間卷積過程中將與句子相關的視頻內容相關聯,其中新提出的 SCDM會根據句子來動態地調制時間特征圖。最后,Position Prediction 組件會基于已調制的特征輸出候選視頻片段的位置偏移量和重疊分數。
* 歡迎轉載,請注明來自騰訊AI Lab微信(tencent_ailab)
總結
以上是生活随笔為你收集整理的NeurIPS 2019|腾讯AI Lab详解入选论文,含模仿学习、强化学习、自动机器学习等主题...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浅谈微视推荐系统中的特征工程
- 下一篇: 把你的 VS Code 打造成 C++