當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习—— TD算法（Sarsa算法+Q-learning算法）

發(fā)布時間：2025/3/21 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习—— TD算法（Sarsa算法+Q-learning算法）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

強化學(xué)習(xí)—— TD算法（Sarsa算法+Q-learning算法）

1. Sarsa算法
- 1.1 TD Target
- 1.2 表格形式的Sarsa算法
- 1.3 神經(jīng)網(wǎng)絡(luò)形式的Sarsa算法
2. Q-learning算法
- 2.1 TD Target
- 2.2 表格形式的Q-learning算法
- 2.3 神經(jīng)網(wǎng)絡(luò)形式的Q-learning算法（DQN）
3. Saras和Q-learning的區(qū)別
4. Multi-step TD Target
- 4.1 Sarsa的Multi-step TD Target
- 4.2 Q-learning的Multi-step TD Target

1. Sarsa算法

1.1 TD Target

回報函數(shù)的定義為:
$Ut=Rt+γRt+1+γ2Rt+2+???Ut=Rt+γ(Rt+1+γRt+2+???)Ut=Rt+γUt+1U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\cdot \cdot \cdot\\ U_t=R_t+\gamma (R_{t+1}+\gamma R_{t+2}+\cdot \cdot \cdot)\\ U_t = R_t+\gamma U_{t+1}$
假設(shè)t時刻的回報依賴于t時刻的狀態(tài)、動作以及t+1時刻的狀態(tài)： $Rt←(St,At,St+1)R_t \gets (S_t,A_t,S_{t+1})$
則動作價值函數(shù)可以定義為： $Qπ(st,at)=E[Ut∣at,st]Qπ(st,at)=E[Rt+γUt+1∣at,st]Qπ(st,at)=E[Rt∣at,st]+γE[Ut+1∣at,st]Qπ(st,at)=E[Rt∣at,st]+γE[Qπ(St+1,At+1)∣at,st]Qπ(st,at)=E[Rt+γQπ(St+1,At+1)]Q_\pi(s_t,a_t)=E[U_t|a_t,s_t]\\ Q_\pi(s_t,a_t)=E[R_t+\gamma U_{t+1}|a_t,s_t]\\Q_\pi(s_t,a_t)=E[R_t|a_t,s_t]+\gamma E[U_{t+1}|a_t,s_t]\\ Q_\pi(s_t,a_t)=E[R_t|a_t,s_t]+\gamma E[Q_\pi(S_{t+1},A_{t+1})|a_t,s_t]\\ Q_\pi(s_t,a_t) = E[R_t + \gamma Q_\pi(S_{t+1},A_{t+1})]$
依據(jù)蒙特卡洛近似： $yt=rt+γQπ(st+1,at+1)y_t= r_t + \gamma Q_\pi(s_{t+1},a_{t+1})$
TD學(xué)習(xí)的目標： $yt≈Qπ(st,at)y_t \approx Q_\pi(s_t,a_t)$

1.2 表格形式的Sarsa算法

學(xué)習(xí)動作價值函數(shù) $Qπ(s,a)Q_\pi(s,a)$
假設(shè)動作和狀態(tài)的數(shù)量有限。
則需要學(xué)習(xí)下列表格信息：

S\A

a_1

a_2

a_3

a_4

…

$s_1$	$Q_{11}$	…
$s_2$		…
$s_3$		…
$s_4$		…
…		…

計算步驟為：

觀測到一個transition，即：

s_t,a_t,r_t,s_{t+1})

依據(jù)策略函函數(shù)對動作進行抽樣：

at+1～π(?∣st+1)a_{t+1}\sim \pi(\cdot|s_{t+1})

查表得到TD Target：

yt=rt+γQπ(st+1,at+1)y_t = r_t+\gamma Q_\pi(s_{t+1},a_{t+1})

TD error為：

δt=Qπ(st,at)?yt\delta_t=Q_\pi(s_t,a_t)-y_t

更新表格：

Qπ(st,at)←Qπ(st,at)?α?δtQ_\pi(s_t,a_t)\gets Q_\pi(s_t,a_t) - \alpha \cdot \delta_t

1.3 神經(jīng)網(wǎng)絡(luò)形式的Sarsa算法

用神經(jīng)網(wǎng)絡(luò)近似動作價值函數(shù)： $q(s,q;W)～Qπ(s,a)q(s,q;W)\sim Q_\pi(s,a)$
神經(jīng)網(wǎng)絡(luò)作為裁判去評判動作
參數(shù)W需要學(xué)習(xí)
TD Target為： $yt=rt+γ?q(st+1,at+1;W)y_t = r_t+\gamma \cdot q(s_{t+1},a_{t+1};W)$
TD error為： $δt=q(st,at;W)?yt\delta_t = q(s_t,a_t;W)-y_t$
loss 為: $12?δt2\frac{1}{2}\cdot \delta_t^2$
梯度為: $δt??q(st,at;W)?W\delta_t \cdot \frac{\partial q(s_t,a_t;W)}{\partial W}$
進行梯度下降： $W←W?α?δt??q(st,at;W)?WW\gets W - \alpha \cdot \delta_t \cdot \frac{\partial q(s_t,a_t;W)}{\partial W}$

2. Q-learning算法

Q-learning用來學(xué)習(xí)最優(yōu)動作價值函數(shù)： $Qπ?(s,a)Q_\pi^\star (s,a)$

2.1 TD Target

$Qπ(st,at)=E[Rt+γ?Qπ(St+1,At+1)]Q_\pi(s_t,a_t) = E[R_t+\gamma \cdot Q_\pi(S_{t+1},A_{t+1})]$
將最優(yōu)策略函數(shù)計為： $π?\pi^\star$
則： $Q?(st,at)=Qπ?(st,at)=E[Rt+γ?Qπ?(St+1,At+1)]Q^\star(s_t,a_t)=Q_{\pi^\star}(s_t,a_t)= E[R_t+\gamma \cdot Q_{\pi^\star}(S_{t+1},A_{t+1})]$
t+1時刻的動作按下式進行計算： $At+1=argmaxaQ?(st+1,a)A_{t+1}=\mathop{argmax}\limits_{a} Q^\star (s_{t+1},a)$
則最優(yōu)動作價值函數(shù)可作如下近似： $Q?(st,at)=E[Rt+γ?maxaQ?(St+1,a)]≈rt+maxaQ?(st+1,a)Q^\star(s_t,a_t)=E[R_t+\gamma \cdot \mathop{max}\limits_{a}Q^\star(S_{t+1},a)]\\ \approx r_t+\mathop{max}\limits_{a}Q^\star(s_{t+1},a)$

2.2 表格形式的Q-learning算法

S\A

a_1

a_2

a_3

a_4

…

$s_1(找出此行最大的Q)$	$Q_{11}$	…
$s_2$		…
$s_3$		…
$s_4$		…
…		…

計算步驟為：

觀測到一個transition，即：

s_t,a_t,r_t,s_{t+1})

TD Target為：

yt=rt+maxaQ?(st+1,a)y_t=r_t+\mathop{max}\limits_{a}Q^\star(s_{t+1},a)

TD error為：

δt=Q?(st,at)?yt\delta_t=Q^\star(s_t,a_t)-y_t

更新表格：

Q?(st,at)←Q?(st,at)?α?δtQ^\star(s_t,a_t)\gets Q^\star(s_t,a_t) - \alpha \cdot \delta_t

2.3 神經(jīng)網(wǎng)絡(luò)形式的Q-learning算法（DQN）

觀測到一個transition，即：

s_t,a_t,r_t,s_{t+1})

TD Target為：

yt=rt+maxaQ(st+1,a；W)y_t=r_t+\mathop{max}\limits_{a}Q(s_{t+1},a；W)

TD error為：

δt=Q(st,at；W)?yt\delta_t=Q(s_{t},a_t；W)-y_t

參數(shù)更新：

W←W?α?δt??Q(st,at;W)?WW\gets W - \alpha \cdot \delta_t \cdot \frac{\partial Q(s_t,a_t;W)}{\partial W}

3. Saras和Q-learning的區(qū)別

Sarsa學(xué)習(xí)動作價值函數(shù)：

Qπ(s,a)Q_\pi(s,a)

Actor-Critic中的價值網(wǎng)絡(luò)為用Sarsa訓(xùn)練的

Q-learning訓(xùn)練最優(yōu)動作價值函數(shù):

Q?(s,a)Q^\star(s,a)

4. Multi-step TD Target

one-step僅使用一個reward： $r_t$
multi-step 使用m個reward： $r_t,r_{t+1},...,t_{t+m-1}$

4.1 Sarsa的Multi-step TD Target

$yt=∑i=0m?1λirt+i+λmQπ(st+m,at+m)y_t = \sum_{i=0}^{m-1}\lambda^i r_{t+i} + \lambda^mQ_\pi(s_{t+m},a_{t+m})$

4.2 Q-learning的Multi-step TD Target

$yt=∑i=0m?1λirt+i+λmmaxaQ?(st+m,a)y_t = \sum_{i=0}^{m-1}\lambda^i r_{t+i} + \lambda^m\mathop{max}\limits_{a}Q^\star(s_{t+m},a)$
本文為參考B站學(xué)習(xí)視頻書寫的筆記！
by CyrusMay 2022 04 08

我們在小孩和大人的轉(zhuǎn)角
蓋一座城堡
——————五月天（好好）——————

總結(jié)

以上是生活随笔為你收集整理的强化学习—— TD算法（Sarsa算法+Q-learning算法）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python——xpath
下一篇：强化学习—— 经验回放（Experien