强化学习3——有模型(Model-base)与无模型(Model-free)RL的区别
文章目錄
- 強化學(xué)習(xí)——有模型(Model-base)與無模型(Model-free)RL
- Model-base RL
- Model-free RL
- 有模型與無模型預(yù)測和控制的方法
- 預(yù)測之間的區(qū)別
- 控制之間的區(qū)別
強化學(xué)習(xí)——有模型(Model-base)與無模型(Model-free)RL
Model-base RL
? 在這個過程中,agent 沒有跟環(huán)境進(jìn)行交互,環(huán)境的所有信息(轉(zhuǎn)移概率和價值函數(shù)都給了,不需要自己探索)都具有了。
Model-free RL
? 在這個過程中,agent沒有環(huán)境的信息,需要跟環(huán)境進(jìn)行交互,采集到很多的軌跡數(shù)據(jù),agent 從軌跡中獲取信息來改進(jìn)策略,從而獲得更多的獎勵。
? 與環(huán)境交互獲得的軌跡如下
有模型與無模型預(yù)測和控制的方法
有模型(MDP):
? 預(yù)測:動態(tài)規(guī)劃DP
? 控制:policy iteration;value iteration
無模型:
? 預(yù)測:MC;TD
? 控制:Sarsa;Q-learning;
預(yù)測之間的區(qū)別
DP和MC區(qū)別:
DP需要更新所有軌跡,需要知道環(huán)境;MC只需要更新該狀態(tài)下的一條軌跡,不需要知道環(huán)境;
TD和MC區(qū)別:
TD只走一步狀態(tài)值就更新;MC全部走完狀態(tài)值更新
bootstrapping 的意思就是我們基于之前估計的量來估計一個量。
控制之間的區(qū)別
policy iteration;value iteration和Sarsa;Q-learning;
? 有模型的policy iteration;value iteration是通過求狀態(tài)價值函數(shù)計算狀態(tài)動作價值函數(shù),通過使用狀態(tài)動作價值函數(shù)來對策略進(jìn)行max改善。
? 無模型的Sarsa;Q-learning使用計算出的Q函數(shù)直接改善,這是因為沒有環(huán)境所以求不出狀態(tài)價值函數(shù)。
總結(jié)
以上是生活随笔為你收集整理的强化学习3——有模型(Model-base)与无模型(Model-free)RL的区别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最优化——分析线性规划的对偶问题的等价性
- 下一篇: 最优化——对偶问题的性质(弱对偶性,强对