强化学习(十三) 策略梯度(Policy Gradient)
在前面講到的DQN系列強化學習算法中,我們主要對價值函數進行了近似表示,基于價值來學習。這種Value Based強化學習方法在很多領域都得到比較好的應用,但是Value Based強化學習方法也有很多局限性,因此在另一些場景下我們需要其他的方法,比如本篇討論的策略梯度(Policy Gradient),它是Policy Based強化學習方法,基于策略來學習。
本文參考了Sutton的強化學習書第13章和策略梯度的論文。
1. Value Based強化學習方法的不足
DQN系列強化學習算法主要的問題主要有三點。
第一點是對連續動作的處理能力不足。DQN之類的方法一般都是只處理離散動作,無法處理連續動作。雖然有NAF DQN之類的變通方法,但是并不優雅。比如我們之前提到的經典的冰球世界(PuckWorld) 強化學習問題,具體的動態demo見這里。環境由一個正方形區域構成代表著冰球場地,場地內大的圓代表著運動員個體,小圓代表著目標冰球。在這個正方形環境中,小圓會每隔一定的時間隨機改變在場地的位置,而代表個體的大圓的任務就是盡可能快的接近冰球目標。大圓可以操作的行為是在水平和豎直共四個方向上施加一個時間乘時長的力,借此來改變大圓的速度。假如此時這個力的大小和方向是可以靈活選擇的,那么使用普通的DQN之類的算法就不好做了。因為此時策略是一個有具體值有方向的力,我們可以把這個力在水平和垂直方向分解。那么這個力就是兩個連續的向量組成,這個策略使用離散的方式是不好表達的&#x
總結
以上是生活随笔為你收集整理的强化学习(十三) 策略梯度(Policy Gradient)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(十二) Dueling DQN
- 下一篇: 强化学习(十四) Actor-Criti