强化学习7——基于环境模型的RL方法
觀周博雷老師課程有感
文章目錄
- 何為模型
- 如何學到模型
- 模型的種類
- Table lookup Model
- 尋找最優策略算法
- value-base Dyna算法
- policy-base 算法
- 環境模型
何為模型
我們通常假設狀態轉移和價值之間是獨立的
如何學到模型
通過環境交互,behavior policy采樣一系列狀態轉移{S1,A1,R2,…,ST},使用監督的辦法學習狀態轉移和價值函數。
模型的種類
Table Lookup Model
Linear Expectation Model
Linear Gaussian Model
Gaussian Process Model
Deep Belief Network Model …
Table lookup Model
就是數數,是說采樣了若干條軌跡,先計算有多少個(s,a)狀態對,然后再分別計算這些狀態對中轉移到某個狀態s’的個數和得到的獎勵總和,在用這些個數和獎勵總和除以狀態對數得到概率轉移模型和獎勵模型。
尋找最優策略算法
???在基于環境的RL中,我們把采樣來源分為Real experience和Simulated experience,Real experience來源于真實模型即環境,Simulated experience來源于我們學習的模型。
value-base Dyna算法
??Dyna算法是從環境學習到一個模型,然后在真實模型和學習到的模型中學習價值函數。
policy-base 算法
??與控制論緊密相關,例如下面這個算法:
這里第二步是通過強監督訓練來找到模型f(s,a),然后第三步用LQR可以求解最優的軌跡。
改進1:
執行第三步(算法1中)得到動作,得到{s,a,s’}加入集合D中繼續優化模型,一直如此形成一個循環。
為了克服漂移,偏離最優軌跡。
改進2:
第三步得到動作(算法1中)后,我們只執行一步,得到的狀態價值對加入集合D中,然后再重復第三步(算法1中),還是執行第一步,并加入集合D,依次循環。
改進1中在優化模型之前就執行第三步的操作,這就導致一開始就離我們的最優軌跡非常遠。
最后得到學習模型和策略相結合的算法:
環境模型
大型神經網絡,線性高斯動態函數。
總結
以上是生活随笔為你收集整理的强化学习7——基于环境模型的RL方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器人学中的一些概念3——雅克比矩阵
- 下一篇: 汉诺塔游戏的python实现——递归函数