强化学习笔记: generalized policy iteration with MC
強化學習筆記: MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客
強化學習筆記:Q-learning_UQI-LIUWJ的博客-CSDN博客
????????在policy iteration中,我們根據給定的當前的 policy π?來估計價值函數;得到估計的價值函數后,通過 greedy 的方法來改進它的算法。
? ? ? ? 但是對于model-free 的MDP,我們并不知道它的獎勵函數和狀態轉移,所以就沒法估計它的Q函數。
1廣義policy iteration
針對上述情況,我們引入了廣義的 policy iteration 的方法。
我們對 policy evaluation 部分進行修改:用 MC 的方法代替 DP 的方法去估計 Q 函數。?
?算法通過 MC 的方法產生了很多的軌跡,每個軌跡都可以算出它的價值。然后,我們可以通過 average 的方法去估計 Q 函數。
當得到 Q 函數后,就可以通過 greedy 的方法去改進它。
1.1 MC with ε-Greedy Exploration
1.1.1?ε-greedy
?
????????為了確保 MC 方法能夠有足夠的探索,我們使用了 ε-greedy exploration。
????????ε-greedy?的意思是說,我們有1?ε?的概率會按照 Q-function最大來決定 action,通常ε?就設一個很小的值,?比如1?ε?可能是 90%,也就是 90% 的概率會按照 Q-function最大 來決定 action(exploitation),但是你有 10% 的機率是隨機的(exploration)。
????????通常在實現上ε?會隨著時間遞減。在最開始的時候。因為還不知道那個 action 是比較好的,所以你會花比較大的力氣在做 exploration。
????????接下來隨著訓練的次數越來越多。已經比較確定說哪一個 Q 是比較好的。你就會減少你的 exploration,你會把ε?的值變小,主要根據 Q-function最大來決定你的 action,比較少做 random,這是ε-greedy。
1.1.2?MC with ε-Greedy Exploration
?可以看出來,和強化學習筆記:Q-learning_UQI-LIUWJ的博客-CSDN博客?中的MC沒有太大的區別,唯一區別就是episode怎么采樣的問題
1.1.3? 策略提升定理
?
總結
以上是生活随笔為你收集整理的强化学习笔记: generalized policy iteration with MC的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习笔记:Q-learning :t
- 下一篇: 强化学习笔记:Sarsa算法