算法学习(二十)——GAE
全稱是generalized advantage estimator,幾乎所有最先進的policy gradient算法實現里面都使用了該技術,適合高維狀態,一般都是PPO+GAE。
該算法主要改進在于對A的估計。
優勢函數可以寫成如下:
?一步的優勢函數進一步展開為:
?其中V 的值都是估計的,因此A的估計存在偏差。
優勢函數的2步估計及無窮步估計分別為:
?可以看到,隨著步數的增加,V的比重逐漸減少,所以不準確的影響也在逐漸減少。
GAE的方法是改進對優勢函數的估計,將偏差控制到一定的范圍內。其方法是對優勢函數進行多步估計,并將這些多步估計利用衰減因子進行組合。具體是這樣做的:
當λ=0時,GAE的形式就是TD誤差的形式,有偏差,但方差小。?λ=1時就是蒙特卡洛的形式,無偏差,但是方差大。
?
所以我們就可以選個合適的λ值來對偏差和方差做一個權衡了。進而去估計最終的策略梯度。
其實就是PG類算法增加了一個超參數,可以更精確手動調參了。
參考:
Actor-Critic算法小結 - 知乎閑言碎語:上周末圓滿完成第二次線下培訓課程,為了優化課程,著實花費了不少心血,包括自己動手開發了配套的代碼程序,重新做了新的ppt……, 雖然很累,但看到參加的同學反映收獲很大,這些工作也算是值了?,F在…https://zhuanlan.zhihu.com/p/29486661GAE——泛化優勢估計 - 知乎GAE主要是講對優勢函數At如何進行估計,網上講這篇的很少,看著是相當地累了。。 1 Introduction在RL中,最大化policy的reward期望,一個關鍵問題是 動作與最終的獎勵 往往具有較大的 時間延遲,在RL中這個問題被…https://zhuanlan.zhihu.com/p/356447099
總結
以上是生活随笔為你收集整理的算法学习(二十)——GAE的全部內容,希望文章能夠幫你解決所遇到的問題。