强化学习算法Policy Gradient
生活随笔
收集整理的這篇文章主要介紹了
强化学习算法Policy Gradient
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1 算法的優缺點
1.1 優點
在DQN算法中,神經網絡輸出的是動作的q值,這對于一個agent擁有少數的離散的動作還是可以的。但是如果某個agent的動作是連續的,這無疑對DQN算法是一個巨大的挑戰,為了解決這個問題,前輩們將基于值的方法改成了基于策略的方法,即輸出動作的概率。
1.2 缺點
策略梯度算法應用未來損失的return作為更新迭代的依據,即在一個回合過后,在這一回合中,若執行的某一動作的動作價值R大,則會加在下一回合選擇這一動作的概率,反之,若執行的某一動作的動作價值R小,則會在下一回合選擇這一動作的概率減小。因此,要想用return做為預測動作概率的神經網絡更新的依據,就必須先擁有一個決策鏈,才能將return計算出來,因此每一個更新是在一個回合結束后才能更新一個。更新的速率比較慢
2 算法的流程
2.1 算法的整體邏輯
? 2.2 算法的更新邏輯
?
轉載于:https://www.cnblogs.com/swenwen/p/10722851.html
總結
以上是生活随笔為你收集整理的强化学习算法Policy Gradient的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用Spring工厂模式管理多个类实现同
- 下一篇: 为什么Node约定,回调函数的第一个参数