强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)
文章目錄
- 前言
- 無模型控制
- 問題
- 思路
- 方法
- On-Policy learning
- MC
- Sarsa
- Off-policy learning
- Q-learning
- On-Policy learning 和 Off-policy learning的區別
前言
本文是學習周博雷老師的強化學習課程的心得體會。
雷大佬的GItHub
無模型控制
問題
? 當我們不知道 MDP 模型的情況下,如何優化價值函數,得到最佳的策略。
思路
? 這里和有模型的控制策略的估計有一個不同是,我們這里使用MC方法來估算Q函數。其余的和無模型的控制是一樣的。
? 大概思路是:初始化一個Q和π\piπ,然后不停的迭代更新Q和π\piπ。注意這里與有模型的控制的區別是,我們直接迭代的Q而不是V,(這是因為沒有模型)。
方法
On-Policy learning
? On-Policy就是使用同一個police,在迭代中不斷的更新。
MC
? 步驟1:通過MC方法估計Q-table;
? MC方法的精髓是采樣,這里利用??GreedyExploration\epsilon-Greedy Exploration??GreedyExploration方法進行采樣,選取每一步的動作。
? 步驟2:根據估計出的Q-table改善π\piπ;
具體步驟如下:
具體算法如下:
Sarsa
? sarsa是將control loop中的MC換成TD。
Off-policy learning
? Off-policy learning有兩個policy,一個探索policy和一個目標policy,我們用探索policy進行采樣計算Q,然后用算出的Q來更新目標policy。
? 優點:
Q-learning
On-Policy learning 和 Off-policy learning的區別
On-Policy learning:
? 始終只有一個policy,只是在迭代中不停的更新。
? 學出的策略比較保守。
Off-policy learning:
? 這里有一個探索policy和一個目標policy,我們用探索policy進行采樣計算Q,然后用算出的Q來更新目標policy。
? 學出的策略比較激進。
sarsa和Q-learning的區別:
總結
以上是生活随笔為你收集整理的强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最优化——线性规划总结2(单纯形法问题总
- 下一篇: 线性规划总结3——单纯形法和对偶单纯形法