强化学习笔记:Sarsa算法
生活随笔
收集整理的這篇文章主要介紹了
强化学习笔记:Sarsa算法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1 Sarsa(0)
Sarsa算法和TD類似,只不過TD是更新狀態的獎勵函數V,這里是更新Q函數強化學習筆記:Q-learning :temporal difference 方法_UQI-LIUWJ的博客-CSDN博客
| TD | |
| Sarsa |
?該算法由于每次更新值函數需要知道當前的狀態(state)、當前的動作(action)、獎勵(reward)、下一步的狀態(state)、下一步的動作(action),即 (St?,At?,Rt+1?,St+1?,At+1?)?這幾個值 ,由此得名?Sarsa?算法。
?2 n-step Sarsa
?3 與環境交互
?????????右邊是環境,左邊是 agent 。
????????我們每次跟環境交互一次之后呢,就可以 learn 一下,向環境輸出 action,然后從環境當中拿到 state 和 reward。
????????Agent 主要實現兩個方法:
- 一個就是根據 Q 表格去選擇動作,輸出 action。
- 另外一個就是拿到 (St?,At?,Rt+1?,St+1?,At+1?)?這幾個值去更新我們的 Q 表格。
4 Sarsa on-policy
????????Sarsa 是一種 on-policy 策略。
?
????????Sarsa 優化的是它實際執行的策略,它直接拿下一步會執行的 action (At+1) 來去優化 Q 表格,所以 on-policy 在學習的過程中,只存在一種確定的策略,它用這種確定的策略去做 action 的選取,也用一種這種確定的策略去做優化。
總結
以上是生活随笔為你收集整理的强化学习笔记:Sarsa算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习笔记: generalized
- 下一篇: MAS 714 笔记20:规约和SAT