NeurIPS 2020 | 一种基于动作采样的简单高效的正则化强化学习方法
編者按:現(xiàn)有的強(qiáng)化學(xué)習(xí)方法通常通過(guò)熵正則化的方式控制最優(yōu)策略的隨機(jī)性,以保證訓(xùn)練過(guò)程中的良好探索以及目標(biāo)策略的魯棒性。然而,熵正則化的強(qiáng)化學(xué)習(xí)方法通常會(huì)面臨表達(dá)能力有限的策略結(jié)構(gòu)和復(fù)雜低效的訓(xùn)練過(guò)程之間的兩難選擇。為了解決上述問(wèn)題,MIRA Lab 提出了一類基于動(dòng)作采樣的正則化強(qiáng)化學(xué)習(xí)方法。該類方法能夠廣泛兼容各種復(fù)雜的策略結(jié)構(gòu),同時(shí)具有計(jì)算簡(jiǎn)單高效的特點(diǎn)。實(shí)驗(yàn)結(jié)果表明,除了兼容性和計(jì)算效率,我們提出的方法在多個(gè)連續(xù)控制任務(wù)中也取得了超越現(xiàn)有方法的樣本效率。原論文標(biāo)題為《Promoting Stochasticity for Expressive Policies via a Simple and Efficient Regularization Method》,由王杰教授指導(dǎo) MIRA Lab 的周祺、匡宇飛等人發(fā)表于 NeurIPS 2020。
? ?
論文標(biāo)題:
Promoting Stochasticity for Expressive Policies via a Simple and Efficient Regularization Method
論文鏈接:
https://proceedings.neurips.cc//paper/2020/file/9cafd121ba982e6de30ffdf5ada9ce2e-Paper.pdf
代碼鏈接:
https://github.com/MIRALab-USTC/RL-ACED
引言
近年來(lái),強(qiáng)化學(xué)習(xí)算法在游戲智能、機(jī)器人控制等領(lǐng)域取得了令人矚目的成果。一般而言,強(qiáng)化學(xué)習(xí)算法分為 model-based 類方法和 model-free 類方法。model-based 類方法通常具有更高的樣本效率,但相對(duì)而言實(shí)現(xiàn)較為復(fù)雜,也常常會(huì)引入額外的預(yù)測(cè)誤差。我們 MIRA Lab 的周祺等同學(xué)在 AAAI 2020 的工作 [1] 中通過(guò)引入 函數(shù)的不確定度來(lái)度量該誤差并緩解其對(duì)策略優(yōu)化帶來(lái)的影響,取得了良好的實(shí)驗(yàn)效果(相關(guān)代碼實(shí)現(xiàn)參見(jiàn) github 鏈接)。
https://github.com/MIRALab-USTC/RL-POMBU
相較于 model-based 類方法,model-free 類方法的實(shí)現(xiàn)和分析往往都相對(duì)簡(jiǎn)單。在 model-free 強(qiáng)化學(xué)習(xí)方法中,我們需要最大化累積回報(bào)的期望,因此最后習(xí)得的策略往往接近于一個(gè)確定性策略。然而,相比于確定性策略,隨機(jī)策略更有利于探索未知環(huán)境,且在環(huán)境參數(shù)發(fā)生變化時(shí)具有更好的魯棒性 [2,3],因此我們更希望訓(xùn)練得到的策略是隨機(jī)策略。
為了促進(jìn)策略的隨機(jī)性,過(guò)往工作使用了熵正則化方法。該類方法在最大化累積獎(jiǎng)勵(lì)的同時(shí),最大化動(dòng)作分布的熵。如,soft Q-learning [4] 和 SAC [3,5] 使用 Shannon 熵作為正則項(xiàng);sparse PCL [6] 和 TAC [7] 使用 Tsallis 熵作為正則項(xiàng)。
然而,在考慮連續(xù)的工作空間時(shí),熵正則化的強(qiáng)化學(xué)習(xí)方法會(huì)陷入「表達(dá)能力有限的簡(jiǎn)單策略」與「復(fù)雜低效的訓(xùn)練過(guò)程」之間的兩難選擇。例如,SAC 往往使用簡(jiǎn)單的高斯分布表示策略,而 soft Q-learning 需要復(fù)雜低效的采樣和推理過(guò)程來(lái)優(yōu)化策略。
為解決以上問(wèn)題,我們提出了一類新的正則化方式。進(jìn)而,1) 在使用復(fù)雜策略時(shí)也能高效地估計(jì)該正則項(xiàng)的值;2) 該正則項(xiàng)能夠廣泛兼容一般的策略結(jié)構(gòu)。
背景介紹
我們考慮動(dòng)作空間連續(xù)的馬爾可夫決策過(guò)程,該過(guò)程可用五元組 表示,其中 為相應(yīng)的狀態(tài)空間和動(dòng)作空間, 為狀態(tài)轉(zhuǎn)移函數(shù), 為獎(jiǎng)勵(lì)函數(shù), 為折扣因子。此外,我們用 表示策略在狀態(tài) 下對(duì)應(yīng)的動(dòng)作分布。
在正則化強(qiáng)化學(xué)習(xí)框架中,需要在標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)的基礎(chǔ)上增加一項(xiàng)關(guān)于策略的正則項(xiàng) [8]。此時(shí),其目標(biāo)函數(shù)變?yōu)?#xff1a;
這里 為正則項(xiàng)所占權(quán)重的超參。相應(yīng)地,該目標(biāo)函數(shù)下的 值函數(shù)和 值函數(shù)定義為:
在基于熵的正則化強(qiáng)化學(xué)習(xí)方法里, 通常為策略在該狀態(tài)下的動(dòng)作分布的 Shannon 熵或者 Tsallis 熵。
熵正則方法的局限性
在考慮連續(xù)的工作空間時(shí),熵正則化的強(qiáng)化學(xué)習(xí)方法會(huì)陷入「表達(dá)能力有限的簡(jiǎn)單策略」與「復(fù)雜低效的訓(xùn)練過(guò)程」之間的兩難選擇。具體地,熵正則項(xiàng)往往具有以下形式:
其中 表示動(dòng)作?在給定狀態(tài) 時(shí)的概率密度。該形式的正則項(xiàng)會(huì)導(dǎo)致
熵正則的估計(jì)需要計(jì)算所選動(dòng)作的概率密度(probability density),而使用復(fù)雜策略時(shí)其計(jì)算往往低效繁瑣。例如,使用標(biāo)準(zhǔn)化流(normalizing flow)表征策略時(shí) [9],需要額外的串行過(guò)程計(jì)算概率密度;通過(guò)集成多個(gè)概率分布來(lái)表示策略時(shí),需要計(jì)算每個(gè)分布的概率密度再進(jìn)行平均。
熵正則的定義往往需要?jiǎng)幼鞣植季哂羞B續(xù)的累積分布函數(shù),而使用復(fù)雜策略時(shí)該函數(shù)可能并不連續(xù)。例如,使用基于狄拉克混合分布(Dirac mixture)表征策略 [10] 時(shí),其動(dòng)作的累積分布函數(shù)是階梯狀的不連續(xù)函數(shù);使用噪聲網(wǎng)絡(luò)(noisy network)表征策略時(shí),由于 Relu 激活函數(shù)的影響,動(dòng)作分布的累積分布函數(shù)也可能出現(xiàn)不連續(xù)的情況。
基于樣本的正則化方法
為了解決熵正則項(xiàng)的一系列不足,我們提出了基于樣本的正則化方法(Sample Based Regularization:SBR)。本章節(jié)中,我們將描述其定義,給出具體的實(shí)例,并簡(jiǎn)單討論該正則項(xiàng)的性質(zhì)。
4.1 正則項(xiàng)的表達(dá)式
基于樣本的正則項(xiàng)具有如下形式:
我們之所以將其稱為基于樣本的正則項(xiàng),是因?yàn)?strong>我們可以僅使用動(dòng)作的采樣估計(jì)該正則項(xiàng)的取值,而不要求概率密度函數(shù)存在或可計(jì)算。具體地,我們使用如下的無(wú)偏估計(jì):
這里 為從分布 中采樣的動(dòng)作個(gè)數(shù),是人為設(shè)定的超參。基于樣本的正則項(xiàng)中, 用于度量動(dòng)作之間的相互影響。為了促進(jìn)策略的隨機(jī)性,我們通過(guò)其鼓勵(lì)動(dòng)作之間相互遠(yuǎn)離;而上式中的 用于引導(dǎo)動(dòng)作朝某種先驗(yàn)分布聚集。同時(shí)該項(xiàng)可以避免在前一項(xiàng)的作用下所有動(dòng)作都分布于動(dòng)作空間的邊界。
4.2 基于廣義能量距離的實(shí)例
4.2.1 廣義能量距離
上節(jié)中我們給出了基于樣本的正則項(xiàng)的表達(dá)式,在本節(jié)中,我們將基于廣義能量距離給出上述正則項(xiàng)的一系列具體實(shí)例。
我們首先介紹廣義能量距離。廣義能量距離(generalized energy distance, GED)在統(tǒng)計(jì)推斷中常被用來(lái)度量?jī)蓚€(gè)概率分布之間的一致性 [11]。假設(shè) 為兩個(gè)概率分布,廣義能量距離 定義為:
這里 為滿足一定條件的非負(fù)函數(shù),其部分實(shí)例可參考下表1:
▲ 表1:函數(shù) 的部分實(shí)例
進(jìn)一步地,我們可以定義:
這里 為分布 在其取值空間中第 維的邊緣分布。同樣地,在對(duì)動(dòng)作分布進(jìn)行一定限制的情況下, 是一個(gè)描述概率分布之間距離的度量。
4.2.2 兩個(gè)實(shí)例
我們注意到,分布 的 Shannon 熵滿足:
其中, 為 KL 散度,u 是一個(gè)均勻分布,C 是常數(shù)項(xiàng)。也就是說(shuō),添加熵正則項(xiàng)實(shí)際是鼓勵(lì)縮小動(dòng)作分布與均勻分布之間的差異。因此,我們定義正則項(xiàng):
其中距離 可以取 或 。此時(shí),正則項(xiàng)具有 SBR 的形式。具體對(duì)應(yīng)關(guān)系如表2:
▲ 表2:基于廣義能量距離導(dǎo)出的 SBR 實(shí)例
上表中的兩類正則項(xiàng)實(shí)例的詳細(xì)理論分析,以及其在單狀態(tài)搖臂機(jī)問(wèn)題中的可視化展現(xiàn),請(qǐng)參考本論文原文 3.2~3.5 節(jié)。
基于能量距離的 actor-critic 算法
基于上文中的正則項(xiàng)實(shí)例,我們提出了基于廣義能量距離的強(qiáng)化學(xué)習(xí)算法:Actor Critic with generalized Energy Distance (ACED)。該方法使用 作為正則項(xiàng),其算法流程與 SAC 基本一致。
但不同于 SAC 算法,ACED 算法具有如下特點(diǎn):1) 對(duì)動(dòng)作分布的類型幾乎沒(méi)有任何限制,能夠廣泛地兼容各種不同的策略結(jié)構(gòu);2) 正則項(xiàng)值的估計(jì)基于動(dòng)作的采樣,不需要概率密度值的顯式計(jì)算,因此能夠顯著提升復(fù)雜策略下正則項(xiàng)值的計(jì)算效率。
實(shí)驗(yàn)結(jié)果
(注:本節(jié)僅選取部分實(shí)驗(yàn)結(jié)果,更詳細(xì)的結(jié)果請(qǐng)參考本論文原文第 5 節(jié)。)
6.1 算法性能比較
我們?cè)?6 個(gè)不同的 MuJoCo 仿真控制任務(wù)下比較了 ACED 算法與 SAC [5]、TD3 [12]、DDPG [13] 等算法的性能差異,實(shí)驗(yàn)結(jié)果如下圖。在絕大多數(shù)任務(wù)中,ACED 算法取得了優(yōu)于基準(zhǔn)算法的性能。
? ?
▲ 圖1:6個(gè)不同任務(wù)下ACED算法與SAC、TD3、DDPG等算法的性能比較
6.2 算法效率比較
我們同樣比較了 ACED 算法(使用基于廣義能量距離的正則項(xiàng))和 SAC 算法(使用基于 Shannon 熵的正則項(xiàng))在不同策略結(jié)構(gòu)下的計(jì)算效率,實(shí)驗(yàn)結(jié)果如下表3。可以看出,ACED 算法在計(jì)算正則項(xiàng)時(shí)增加動(dòng)作采樣數(shù)不會(huì)明顯增加計(jì)算開(kāi)銷;且在使用更為復(fù)雜的策略結(jié)構(gòu)時(shí),ACED 算法相比 SAC 算法在計(jì)算效率上具有明顯優(yōu)勢(shì)。
▲ 表3:不同策略結(jié)構(gòu)、不同動(dòng)作采樣數(shù)下 ACED 算法與 SAC 算法的性能比較。表中所列時(shí)間為 步訓(xùn)練用時(shí),SG 為基于高斯分布的策略,NF 為基于標(biāo)準(zhǔn)化流網(wǎng)絡(luò)的策略
6.3 對(duì)比和消融實(shí)驗(yàn)
最后,我們對(duì) ACED 算法進(jìn)行了詳細(xì)的對(duì)比和消融實(shí)驗(yàn)。我們首先考慮不同的超參數(shù),即使用不同數(shù)量的動(dòng)作采樣估計(jì)正則項(xiàng)(如圖2.a),我們發(fā)現(xiàn) ACED 算法對(duì)動(dòng)作采樣數(shù)不敏感,即使在 的情況下算法的表現(xiàn)仍然很好;接著我們對(duì)比了使用/不使用正則項(xiàng)時(shí)的性能(如圖2.b),實(shí)驗(yàn)證明基于樣本的正則項(xiàng)在不同策略結(jié)構(gòu)下都有助于提升學(xué)習(xí)效率;最后我們對(duì)比了在正則項(xiàng)中使用不同的函數(shù) 對(duì)性能的影響差異(如圖2.c),結(jié)果顯示選擇合適的函數(shù) 對(duì) ACED 算法的性能較為重要。
▲ 圖2:ACED算法的各項(xiàng)參數(shù)的詳細(xì)的對(duì)比和消融實(shí)驗(yàn),所有實(shí)驗(yàn)結(jié)果均基于 HalfCheetah-v2 任務(wù)。圖中 SAC-MAX 為 SAC 算法在 步訓(xùn)練中的最佳性能;圖 2.b 中 DM、NN、GM 分別對(duì)應(yīng)狄拉克混合策略、基于噪聲網(wǎng)絡(luò)的策略、基于生成模型的策略;圖 2.c 中,log、power-0.25、power-0.5、interal_energy 分別對(duì)應(yīng)正則項(xiàng)使用 、、 以及僅包含 的正則項(xiàng)
總結(jié)
在本文中,我們提出了一種基于動(dòng)作采樣的正則項(xiàng) SBR,并基于廣義能量距離(GED)給出了該正則項(xiàng)的一系列實(shí)例。SBR 作為熵正則的一種替代方案,能夠廣泛兼容各種復(fù)雜的策略結(jié)構(gòu),并具備計(jì)算高效、樣本效率高等諸多優(yōu)勢(shì)。然而,“是否還能找到其他更好的 SBR 實(shí)例?”,“廣義能量距離能否應(yīng)用于強(qiáng)化學(xué)習(xí)的其他任務(wù)?”,這些問(wèn)題仍待進(jìn)一步解決和完善,我們也歡迎大家進(jìn)行相關(guān)研究和討論。
關(guān)于作者
周祺,2019年畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,獲得工學(xué)學(xué)士學(xué)位。現(xiàn)于中國(guó)科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系的 MIRA Lab 實(shí)驗(yàn)室攻讀研究生,師從王杰教授。研究興趣包括強(qiáng)化學(xué)習(xí)與機(jī)器博弈。目前已發(fā)表論文包括:
1. Qi Zhou, Houqiang Li, and Jie Wang. Deep Model-Based Reinforcement Learning via Estimated Uncertainty and Conservative Policy Optimization. In AAAI, 2020.
2. Qi Zhou, Yufei Kuang, Zherui Qiu, Houqiang Li, and Jie Wang. Promoting Stochasticity for Expressive Policies via a Simple and Efficient Regularization Method. In NeurIPS, 2020.
參考文獻(xiàn)
[1] Qi Zhou, Houqiang Li, and Jie Wang. Deep Model-Based Reinforcement Learning via Estimated Uncertainty and Conservative Policy Optimization. In AAAI, 2020.
[2] Wenhao Yang, Xiang Li, and Zhihua Zhang. A regularized approach to sparse optimal policy in reinforcement learning. In NeurIPS, 2019.
[3] Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, and Sergey Levine. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In ICML, 2018.
[4] Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, and Sergey Levine. Reinforcement learning with deep energy-based policies. In ICML, 2017.
[5] Tuomas Haarnoja, Aurick Zhou, Kristian Hartikainen, George Tucker, Sehoon Ha, Jie Tan, Vikash Kumar, Henry Zhu, Abhishek Gupta, Pieter Abbeel, et al. Soft actor-critic algorithms and applications. arXiv preprint, 2018.
[6] Yinlam Chow, Ofir Nachum, and Mohammad Ghavamzadeh. Path consistency learning in tsallis entropy regularized mdps. In ICML, 2018.
[7] Kyungjae Lee, Sungyub Kim, Sungbin Lim, Sungjoon Choi, and Songhwai Oh. Tsallis reinforcement learning: A unified framework for maximum entropy reinforcement learning. arXiv preprint, 2019.
[8] Geist, Matthieu, Bruno Scherrer, and Olivier Pietquin. A Theory of Regularized Markov Decision Processes. In ICML, 2018.
[9] Bogdan Mazoure, Thang Doan, Audrey Durand, R Devon Hjelm, and Joelle Pineau. Leveraging exploration in off-policy algorithms via normalizing flows. arXiv preprint, 2019.
[10] Yunhao Tang and Shipra Agrawal. Discretizing continuous action space for on-policy optimization. arXiv preprint, 2019.
[11] L Baringhaus and C Franz. Rigid motion invariant two-sample tests. Statistica Sinica, 2010.
[12] Scott Fujimoto, Herke Van Hoof, and David Meger. Addressing function approximation error in actor-critic methods. In ICML, 2018.
[13] Timothy P Lillicrap, Jonathan J Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. Continuous control with deep reinforcement learning. arXiv preprint, 2015.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的NeurIPS 2020 | 一种基于动作采样的简单高效的正则化强化学习方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 安装pe硬盘启动不了系统怎么办 pe硬盘
- 下一篇: 为什么大家都在吹捧Python?