HJB方程简述
參考資料:維基的哈密頓-雅克比-貝爾曼方程條目。有條件的同學可以自行查看,效果比本文要好一些。文末也會給出相關更深入的資料供大家學習。
作為強化學習的一個基礎思想,HJB方程從大框架概述了控制優化的方向。這里對其推導與應用進行簡述。
定義如下變量:為過程價值函數,其中S(t)為在t時刻的狀態函數,A(t)為在t時刻的動作函數。
為在t時刻狀態為S(t)的終點值函數。
我們可以定義如下過程:在[0,T]時間段,最終值函數的表現形式如下:
?而我們的優化目標就是保證右端公式的最小化。
HJB偏微分形式推導:
考慮如下表達形式:
?
?對右端的進行泰勒展開,可得到以下形式:
?與上式聯立可消去,然后去除dt,可得如下優化形式:
?JCB方程微分形式推導得證。
如何求解:
一般采用逆向歸納法,即從t=T推導至t=0,利用動態規劃的思想求解。
?HJB方程相關資料:
鏈接:https://pan.baidu.com/s/1pBom-F4cLqHVA3_u3XSOyA?pwd=4s5e
提取碼:4s5e
總結
- 上一篇: hjb
- 下一篇: HJB方程的一些简单理解和过程推导