南栖仙策强化学习突破发表NeurIPS 2020论文
深度強化學習實驗室
官網:http://www.neurondance.com/
作者:俞揚
編輯:DeepRL
什么是強化學習
2016 年AlphaGo不僅掀起了人工智能的浪潮,也將一個以往關注度不高的技術——推到聚光燈下。
廣為人知的人臉識別等技術背后的深度學習,通常需要開發者準備好大量打了標注的圖像,作為訓練數據。
強化學習與之不同,不需要訓練數據,而是身處一個環境中。類似于動物處在自然環境中,強化學習需要不斷與環境交互,并從中學習。強化學習研究常用的環境,就是各種各樣的游戲。
強化學習方法簡單、有效且通用,在許多游戲環境中都取得了超越人類的決策水平,被DeepMind認為是實現通用人工智能的一種重要途徑。
除了打游戲,強化學習能解決其他問題嗎
在強化學習的訓練過程中,需要不斷地嘗試,來發現潛在的獎勵與懲罰。而在真實場景中的錯誤決策,通常會造成不良的實際影響,例如成本增加、經驗虧損、甚至發生災難性后果。例如,在自動駕駛游戲中,可以讓智能體完全自主地駕駛車輛,通過不斷試錯學會如何開車,而在真實道路環境中學習,試錯過程意味著導致嚴重的財產、生命損失,這是不可接受的。
更甚的是,當前的強化學習方法,往往需要數以萬計以上的的試錯,使得強化學習算法直接應用于解決真實問題變得遙不可及。
面對強化學習這個前景廣闊但又困難重重的方向,南棲仙策將焦點放在虛擬環境的構建上。如果有那么一個如同游戲一樣的虛擬環境,并且在虛擬環境中的決策效果近似真實業務中的決策效果,那不就可以發揮強化學習的能力了嗎!
構建虛擬環境的困境
構建虛擬環境,一條技術路線是靠人工編碼來實現。但這既不符合對于通用人工智能的追求,在實際項目中,也會導致實施成本高昂和實施周期冗長的不足。
因此,如何從真實場景的歷史數據中自動還原出接近場景的虛擬環境,這一問題具有極大的研究和應用價值。這一技術路線自然也經歷了長期的探索,“基于模型的強化學習”這一領域即是希望能夠從數據上學習到有效的環境模型。
然而,長期的研究給出了悲觀的結論:從數據上學習到的模型難以準確呈現實際場景的決策效果。也因此,導致目前國際上的主流技術路線遵循“不要遠離數據”的思路,然而這樣的思路,同樣會導致難以獲得超越數據的決策結果。
那么,能不能在環境模型的學習上有所突破呢?
從模仿學習入手
模仿學習是直接從專家演示數據中進行學習的方法。這里,專家示例指的是最優(或近似最優)策略。專家演示數據由最優策略采集得到,這部分決策行為數據包含了一些場景下的最優動作,質量較高,模仿學習也因此被認為是可以降低樣本復雜度的一個手段。
在初版AlphaGo和AlphaStar成功背后的一個重要技術就是模仿學習,即從人類頂尖選手的對弈數據中進行學習,學到的策略作為強化學習初始化的策略。除此之外,模仿學習的另一個重要應用是:有些場景中(比如自動駕駛)決策行為的獎勵函數很難定義,但是有一些高質量的決策示例(比如人類開車的視頻),可以被用來模仿和生成和專家類似的決策行為。
然而,直接使用深度學習方法從專家數據中進行監督學習(在強化學習領域又稱行為克隆,Behavioral Cloning;簡稱BC)),往往效果不佳,因為環境模型中的轉移概率函數(或智能體策略)通常比深度學習中的數據分布函數要復雜得多,目前的普遍認知是,強化學習環境產生的數據具有時序性,直接使用監督學習會累積復合誤差(Compounding Errors),直觀解釋如圖 1 所示,每往前走一步,都會產生誤差,走得越多,累積誤差越大,導致在長時序的決策任務上,監督學習模仿的環境模型使用效果不佳。盡管該觀點提供了非常直觀的解釋,但遺憾的是,該觀點在理論上對誤差的性質還缺少清晰的解釋,以及需要使用什么方法來進行模仿學習可以取得更小的誤差都是未解之謎。
圖 1 監督學習復合誤差示例圖。紅色為專家策略運行得到的軌跡,黑色為學得策略運行得到軌跡,隨時間移動,二者之間差異越來越大
降低模仿學習誤差
在 NeurIPS2020 [1] 的論文中,我們在無限決策長度的馬爾科夫決策過程(Markov Decision Process)上,對模仿學習的誤差進行了分析,其中決策長度由1/(1-γ)來衡量;γ∈(0-1)是 MDP 中的折扣系數,通常用來權衡當前行為(短期動作)和將來行為(長期動作)的回報,γ通常取值為0.99, 0.999, 0.9999等接近1的值,γ越大說明決策越長,也就越關注長期回報。
我們先分析了兩類著名的模仿學習算法:行為克隆(BC) [2] 和生成對抗式模仿學習(Generative Adversarial Imitation Learning,簡稱 GAIL) [3]。在學習專家策略時的誤差。BC 的目標是最小化策略模型在每個狀態上輸出的動作和專家之間動作之間的 KL 散度;GAIL 利用生成對抗思想,使用生成器(Generator)G,并額外引入判別器(Discriminator)D,用 D 來判斷G 生成的軌跡與專家軌跡之間的相似度,簡化后目標函數分別如下:
分析結果表明,BC 的值函數誤差關于 1/(1-γ)是二次的,如以下Theorem 1所示。也就是說,BC對于環境模型的誤差會隨著步長的增加平方級放大。
而GAIL的值函數的誤差關于 1/(1-γ)是線性的,如下Leamma 1所示
因此,GAIL 得到的策略,其累積誤差比 BC 更小。γ通常趨近于 1,例如,當γ=0.99 時,BC 的值函數誤差大約是 GAIL 方法的 100 倍(通常在長序列決策任務,或者獎勵稀疏場景下,γ取值比0.99更大)。
由于 GAIL 的模仿目標是在 “軌跡” 層面(與之相反,BC的目標是在 “動作” 層面),即 GAIL 更關注整條專家示例的動作序列,BC 關注專家的單一動作,因此通過 GAIL 學習出來的策略,其決策質量關于決策長度的依賴更好。因此,在決策長度比較大的任務下面,智能體如果不能完美地模仿專家的話,通過 GAIL 準則學習到的策略一般會比 BC 好,而且兩個算法的差距,會隨著決策長度的增大而增大。除此之外,我們還分析了有限樣本下的泛化性能,感興趣的讀者可以閱讀原文。
從模仿專家,到模仿環境
模仿專家只是學習如何做出近似最優策略軌跡上的動作,不涉及學習環境模型。然而我們注意到,環境和策略的角色可以顛倒,即環境叫做策略、策略叫做環境,同時將狀態與決策也顛倒稱呼,就可以得到“對耦”強化學習問題。在這個對耦問題中,環境函數就是原任務的策略函數,而策略函數就是原任務的環境函數。
由此可見,模仿策略的技術用在對耦任務上,即是在原任務中模仿環境,即學習環境模型。
當我們用深度學習監督式的學習環境,則與BC模仿策略相似,也能得到類似的結論,如Lemma 3所示
即策略的長期回報誤差關于模型學習的誤差是平方級放大。這也是以往的環境模型一直難以有效學習的關鍵原因。
而當我們使用GAIL進行環境的學習時,可以看到,在環境誤差?這一項上面,GAIL的值函數的誤差關于1/(1-γ)依然是線性的,
因此,本文在理論上回答了,在學習環境模型時,使用 GAIL 類的方法,最終的性能會好于 BC 的模型。
為了方便理解,我們也給出了基于生成式環境學習的算法示意圖。
使用算法 1,我們也在三個公認的 MuJoCo 機器人仿真環境中進行了驗證。從圖 2結果中可見,基于GAIL學習出來的環境模型,策略評估的誤差會更小,質量更好。
圖 2 MuJoCo 仿真環境驗證結果。使用 GAIL 學習的環境模型(紅色)與使用 BC 學習的環境模型(綠色)在策略評估時有更小的誤差
未來可期
學習一個有用的環境模型,是一種通往高效強化學習的基本途徑,學到的模型不僅僅可降低決策模型的訓練成本(for cheap training),還給元強化學習(meta-RL)提供重要支撐,也是解決現實中決策任務的關鍵。
實際上南棲仙策的“虛擬淘寶” [4]、“虛擬出行平臺” [5] 等工作,都從歷史數據中基于生成對抗學習模擬了環境模型,作為模擬環境用于強化學習訓練。
本文從值函數的誤差界角度進行分析,首次從理論上證明了使用 GAIL 類型的模仿學習方法去學習環境模型,比傳統 BC 方法有更小的誤差,也為現實中的決策策略學習提供了指導思路。
[1] Xu, Tian, Ziniu Li, and Yang Yu. "Error Bounds of Imitating Policies and Environments."?Advances in Neural Information Processing Systems?33 (2020)
[2] Pomerleau, Dean A. "Efficient training of artificial neural networks for autonomous navigation."?Neural computation?3.1 (1991): 88-97.
[3] Ho, Jonathan, and Stefano Ermon. "Generative adversarial imitation learning."?Advances in neural information processing systems. 2016.
[4] Shi, Jing-Cheng, et al. "Virtual-taobao: Virtualizing real-world online retail environment for reinforcement learning."?Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.
[5] Shang, Wenjie, et al. "Environment Reconstruction with Hidden Confounders for Reinforcement Learning based Recommendation."?Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.
完
總結1:周志華 || AI領域如何做研究-寫高水平論文
總結2:全網首發最全深度強化學習資料(永更)
總結3:??《強化學習導論》代碼/習題答案大全
總結4:30+個必知的《人工智能》會議清單
總結5:2019年-57篇深度強化學習文章匯總
總結6:? ?萬字總結 || 強化學習之路
總結7:萬字總結 || 多智能體強化學習(MARL)大總結
總結8:深度強化學習理論、模型及編碼調參技巧
完
第96篇:??值分布強化學習(Distributional RL)總結
第95篇:如何提高"強化學習算法模型"的泛化能力?
第94篇:多智能體強化學習《星際爭霸II》研究
第93篇:MuZero在Atari基準上取得了新SOTA效果
第92篇:谷歌AI掌門人Jeff Dean獲馮諾依曼獎
第91篇:詳解用TD3算法通關BipedalWalker環境
第90篇:Top-K Off-Policy? RL論文復現
第89篇:騰訊開源分布式多智能TLeague框架
第88篇:分層強化學習(HRL)全面總結
第87篇:165篇CoRL2020 accept論文匯總
第86篇:287篇ICLR2021深度強化學習論文匯總
第85篇:279頁總結"基于模型的強化學習方法"
第84篇:阿里強化學習領域研究助理/實習生招聘
第83篇:180篇NIPS2020頂會強化學習論文
第82篇:強化學習需要批歸一化(Batch Norm)嗎?
第81篇:《綜述》多智能體強化學習算法理論研究
第80篇:強化學習《獎勵函數設計》詳細解讀
第79篇:?諾亞方舟開源高性能強化學習庫“刑天”
第78篇:強化學習如何tradeoff"探索"和"利用"?
第77篇:深度強化學習工程師/研究員面試指南
第76篇:DAI2020 自動駕駛挑戰賽(強化學習)
第75篇:Distributional Soft Actor-Critic算法
第74篇:【中文公益公開課】RLChina2020
第73篇:Tensorflow2.0實現29種深度強化學習算法
第72篇:【萬字長文】解決強化學習"稀疏獎勵"
第71篇:【公開課】高級強化學習專題
第70篇:DeepMind發布"離線強化學習基準“
第69篇:深度強化學習【Seaborn】繪圖方法
第68篇:【DeepMind】多智能體學習231頁PPT
第67篇:126篇ICML2020會議"強化學習"論文匯總
第66篇:分布式強化學習框架Acme,并行性加強
第65篇:DQN系列(3):?優先級經驗回放(PER)
第64篇:UC Berkeley開源RAD來改進強化學習算法
第63篇:華為諾亞方舟招聘 || 強化學習研究實習生
第62篇:ICLR2020- 106篇深度強化學習頂會論文
第61篇:David Sliver 親自講解AlphaGo、Zero
第60篇:滴滴主辦強化學習挑戰賽:KDD Cup-2020
第59篇:Agent57在所有經典Atari 游戲中吊打人類
第58篇:清華開源「天授」強化學習平臺
第57篇:Google發布"強化學習"框架"SEED RL"
第56篇:RL教父Sutton實現強人工智能算法的難易
第55篇:內推 || ?阿里2020年強化學習實習生招聘
第54篇:頂會?|| 65篇"IJCAI"深度強化學習論文
第53篇:TRPO/PPO提出者John Schulman談科研
第52篇:《強化學習》可復現性和穩健性,如何解決?
第51篇:強化學習和最優控制的《十個關鍵點》
第50篇:微軟全球深度強化學習開源項目開放申請
第49篇:DeepMind發布強化學習庫 RLax
第48篇:AlphaStar過程詳解筆記
第47篇:Exploration-Exploitation難題解決方法
第46篇:DQN系列(2): Double DQN 算法
第45篇:DQN系列(1): Double Q-learning
第44篇:科研界最全工具匯總
第43篇:起死回生|| 如何rebuttal頂會學術論文?
第42篇:深度強化學習入門到精通資料綜述
第41篇:頂會征稿 || ?ICAPS2020:?DeepRL
第40篇:實習生招聘 || 華為諾亞方舟實驗室
第39篇:滴滴實習生|| 深度強化學習方向
第38篇:AAAI-2020 || 52篇深度強化學習論文
第37篇:Call For Papers# IJCNN2020-DeepRL
第36篇:復現"深度強化學習"論文的經驗之談
第35篇:α-Rank算法之DeepMind及Huawei改進
第34篇:從Paper到Coding, DRL挑戰34類游戲
第33篇:DeepMind-102頁深度強化學習PPT
第32篇:騰訊AI Lab強化學習招聘(正式/實習)
第31篇:強化學習,路在何方?
第30篇:強化學習的三種范例
第29篇:框架ES-MAML:進化策略的元學習方法
第28篇:138頁“策略優化”PPT--Pieter Abbeel
第27篇:遷移學習在強化學習中的應用及最新進展
第26篇:深入理解Hindsight Experience Replay
第25篇:10項【深度強化學習】賽事匯總
第24篇:DRL實驗中到底需要多少個隨機種子?
第23篇:142頁"ICML會議"強化學習筆記
第22篇:通過深度強化學習實現通用量子控制
第21篇:《深度強化學習》面試題匯總
第20篇:《深度強化學習》招聘匯總(13家企業)
第19篇:解決反饋稀疏問題之HER原理與代碼實現
第18篇:"DeepRacer" —頂級深度強化學習挑戰賽
第17篇:AI Paper | 幾個實用工具推薦
第16篇:AI領域:如何做優秀研究并寫高水平論文?
第15篇:DeepMind開源三大新框架!
第14篇:61篇NIPS2019DeepRL論文及部分解讀
第13篇:OpenSpiel(28種DRL環境+24種DRL算法)
第12篇:模塊化和快速原型設計Huskarl DRL框架
第11篇:DRL在Unity自行車環境中配置與實踐
第10篇:解讀72篇DeepMind深度強化學習論文
第9篇:《AutoML》:一份自動化調參的指導
第8篇:ReinforceJS庫(動態展示DP、TD、DQN)
第7篇:10年NIPS頂會DRL論文(100多篇)匯總
第6篇:ICML2019-深度強化學習文章匯總
第5篇:深度強化學習在阿里巴巴的技術演進
第4篇:深度強化學習十大原則
第3篇:“超參數”自動化設置方法---DeepHyper
第2篇:深度強化學習的加速方法
第1篇:深入淺出解讀"多巴胺(Dopamine)論文"、環境配置和實例分析
總結
以上是生活随笔為你收集整理的南栖仙策强化学习突破发表NeurIPS 2020论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [大学物理实验-4]弦上驻波实验
- 下一篇: 闲得蛋疼的众人本着科学的态度亲身实践“为