【David Silver强化学习公开课】-3:DP
生活随笔
收集整理的這篇文章主要介紹了
【David Silver强化学习公开课】-3:DP
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一、一些概念
MDP的兩個規劃問題:
- 預測,給定MDP和策略π,求出價值函數vπvπ
- 控制,給定MDP,求出最佳價值函數v?v?和最佳策略π?π?
Policy Evaluation策略評估:
給定一個策略,從v0v0,v1v1一直求到vπvπ,第k步求出的狀態價值函數,通過Bellman期望方程可以求出k+1步的狀態價值函數。這樣一直迭代下去,最終狀態價值函數會收斂,完成對策略π的評估。
Policy Iteration策略迭代:
- 1.評估策略,使用策略評估的方式更新價值函數;
- 2.改進策略,根據上一步的價值函數,用貪心原則更新策略;
- 3.迭代上兩步,直到找到最優策略π,也就找到了最優價值函數v.
價值迭代:
- 按照bellman最優方程,每個循環計算(更新)價值函數;
- 沒有顯式的策略,貪心的計算方式在最優方程中,更為直接。
值迭代的一些擴展,比如in-place(不存儲舊的狀態價值函數,狀態的價值函數更新后立刻可以被用于其他狀態價值函數的更新),使用Bellman誤差(新價值與舊價值的差值)決定狀態更新的優先級。
DP的時間開銷比較大,而且無論價值迭代還是策略迭代都需要知道R和轉移矩陣P,那么就需要對模型有比較深的了解,下一講將會介紹一種開銷更低而且是model-free的方法:采樣。
參考
- https://zhuanlan.zhihu.com/p/21378532
總結
以上是生活随笔為你收集整理的【David Silver强化学习公开课】-3:DP的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: David Silver强化学习公开课】
- 下一篇: 【David Silver强化学习公开课