强化学习note2——value iteration和policy iteration的区别,MC和TD的区别
value iteration和policy iteration的區別
value iteration: ①多次迭代Bellman最優等式和Bellman等式,等價值函數收斂后,②再用價值函數帶入貝爾曼等式得到動作價值函數,策略就從最大的動作價值函數選取。(策略沒有參與)
policyiteration:①隨機選取一個策略policy,用這個policy對Bellman等式進行多次迭代計算直到價值函數收斂,②再用價值函數求得動作價值函數,策略就從最大的動作價值函數選取。③然后用新的策略再進入①計算。
對①②③進行多次迭代直到策略收斂。(策略一直參與)
MC和TD的區別
MC:基本的MC算法是采集n條軌跡,假設計算s1狀態的價值函數,先取某一條軌跡中的n個不同時刻s1狀態的回報相加再除以n就得到這條軌跡上s1狀態的價值函數,然后按此方法計算其他軌跡的s1狀態的價值函數,這樣就得到n個s1狀態的價值函數,最后取平均值即可。
TD:增量型MC算法的變種,它相較于增量型MC算法,不需要agent與環境交互直到得到一條完整的軌跡,它只需要與環境進行一次交互得到一個Rt+1R_{t+1}Rt+1?,然后采用DP算法進行迭代計算。
value iteration,policy iteration和MC,TD的區別
value iteration,policy iteration:不僅可以用來對價值函數進行估值,但是需要知道model;還能得到相應的最優的策略
MC,TD:只是用來對價值函數進行估值,不需要知道model
總結
以上是生活随笔為你收集整理的强化学习note2——value iteration和policy iteration的区别,MC和TD的区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习note1——马尔科夫奖励过程M
- 下一篇: git将远端分支拉取合并下来