當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CS229 Lecture 20

發(fā)布時間：2023/12/20 编程问答 18 豆豆

生活随笔收集整理的這篇文章主要介紹了 CS229 Lecture 20 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

CS229 Lecture 20

POMDPs(Partially Observed MDPs)
Policy search
Reinforce
Pagasus
conclusion

回顧

$s_{t+1}=As_t+Ba_t+w_t$

$y_t=Cs_t+v_t$

$A_{t+1}:a_{t+1}=L_ts_t$

在LQR問題中，因為噪聲等因素的存在無法觀測到真實狀態(tài) $s_t$ ，只能通過混雜著噪聲的觀察狀態(tài) $y1，y2,?,yty_1，y_2,\cdots,y_t$ 來得出下一步的動作。首先需要得出對 $s_t$ 的最佳估計 $s_{t|t}$ ，通過Kalman Filter可以得出 $st∣y1,y2,?,yt～N(st∣t,Σt∣t)s_{t|y_1,y_2,\cdots,y_t}\sim N(s_{t|t},\Sigma_{t|t})$ ,然后通過 $a_t:=L_t,s_{t|t}$ 。

POMDPs

部分觀測馬爾可夫決策過程定義為一個元組 $(S,A,Y,{Psa},O,T,T)(S,A,Y,\{P_{sa}\},\mathcal{O},T,T)$ ,其中 $Y$ 是所有可能觀測值的集合， $Os\mathcal{O}_s$ 是觀測所屬的分布,每次觀測中在 $s_t$ 下觀測為 $y_t$ 服從 $yt～Osty_t\sim \mathcal{O}_{st}$ 。

Policy search

$policysearchpolicy\,\,\,search$ 和之前LQR方式不同在于，之前通過最大化值函數(shù) $V?V^{\star}$ 進而得出最佳的 $π?\pi^{\star}$ 。這里的 $policysearchpolicy\,\,\,search$ 是直接對 $p o l i c y$ 進行選取。

定義 $Π\Pi$ 為 $p o l i c y$ 的合集，需要在 $Π\Pi$ 中搜索到好的 $π\(zhòng)pi$ ,其中 $π∈Π\pi\in \Pi$ ,這里十分類似于在最前面學習的監(jiān)督學習，在假設集合 $H\mathcal{H}$ 中搜索到一個好的假設。

定義一個隨機 $p o l i c y$ 為一個 $π:S×A→R\pi:S\times A\rightarrow \mathbb{R}$ 的函數(shù)，這里 $π(s,a)\pi(s,a)$ 是在狀態(tài) $s$ 下采取動作 $a$ 的概率。注 $∑π(s,a)=1,π(s,a)≥0\sum\pi(s,a)=1,\,\,\pi(s,a)\ge0$ 。

課上使用 $PolicysearchPolicy\,\,search$ 的例子：假設一個倒立擺，其中擺與垂線的夾角為 $?\phi$ 小車的位置為 $x$ ,現(xiàn)在小車無非兩個選擇向左運動或者向右運動。假設向右運動為 $a_1$ ，向左為 $a_2$ 。假設有： $πθ(s,a1)=11+e?θTs,πθ(s,a2)=1?11+e?θTs\pi_{\theta}(s,a_1)=\frac{1}{1+e^{-\theta^Ts}},\,\,\,\pi_{\theta}(s,a_2)=1-\frac{1}{1+e^{-\theta^Ts}}$ 。這里 $s=[1xx˙??˙]s=\\\left[ \begin{matrix}1 \\ x \\ \dot{x} \\ \phi \\ \dot{\phi} \end{matrix} \right]$ , $θ=[00010]\theta=\left[ \begin{matrix} 0 \\ 0 \\ 0 \\ 1 \\ 0 \end{matrix} \right]$ ，那么 $p(a=a1)=11+e?θTs=11+e??p(a=a_1)=\frac{1}{1+e^{-\theta^Ts}}=\frac{1}{1+e^{-\phi}}$ 。下圖就是小車向右運動和夾角 $?\phi$ 的關系。例如當夾角為正時，我們需要向右移動以保證倒立擺不倒下。

實際上我們的目標是最大化預期回報 $max?θE[R(s0,a0)+?+R(sT,at)∣πθ,s0]\max_{\theta}E[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]$

注：當動作是多個離散的選擇是可以選擇 $s o f t m a x$ 函數(shù)，動作是連續(xù)的可以選取動作的密度函數(shù)。

Reinforce algorithm

假設 $s_0$ 是一個固定的初始狀態(tài)，我們的期望是： $max?θE[R(s0,a0)+?+R(sT,at)∣πθ,s0]\max_{\theta}E[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]$

其中回報的期望為：

$E[R(s0,a0)+?+R(sT,at)∣πθ,s0]=∑s0,a0,s1,?,stp(s0,a0,s1,?,st)[R(s0,a0)+?+R(sT,at)∣πθ,s0]=∑s0,a0,s1,?,stp(s0)πθ(s0,a0)ps0,a0(s1)πθ(s1,ai)?πθ(st,at)[R(s0,a0)+?+R(sT,at)∣πθ,s0]E[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]\\ =\sum_{s_0,a_0,s_1,\cdots,s_t}p(s_0,a_0,s_1,\cdots,s_t)[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]\\ =\sum_{s_0,a_0,s_1,\cdots,s_t}p(s_0)\pi_{\theta}(s_0,a_0)p_{s_0,a_0}(s_1)\pi_{\theta}(s_1,a_i)\cdots\pi_{\theta}(s_t,a_t)[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]$

算法的流程為：
$L o o p$ ??{

???? 抽樣 $s0,a0,s1,a1,?,st,ats_0,a_0,s_1,a_1,\cdots,s_t,a_t$
???? 計算收益 $=[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]$
???? 更新 $θ\theta$ 的方式為： $θ:=θ+α[?θπθ(s0,a0)πθ(s0,a0)+?+?θπθ(sT,aT)πθ(sT,aT)]?payoff\theta:=\theta+\alpha[\frac{\nabla_{\theta}{\pi_{\theta}(s_0,a_0)}}{\pi_{\theta}(s_0,a_0)}+\cdots+\frac{\nabla_{\theta}{\pi_{\theta}(s_T,a_T)}}{\pi_{\theta}(s_T,a_T)}]*payoff$
}

上述算法之所以使用梯度上升的方式更新 $θ\theta$ 見下面推導：

鏈式求導原則
$ddθf(θ)g(θ)h(θ)=f′(θ)g(θ)h(θ)+f(θ)g′(θ)h(θ)+f(θ)g(θ)h′(θ)\fracze8trgl8bvbq{d\theta}f(\theta)g(\theta)h(\theta)=f^{'}(\theta)g(\theta)h(\theta)+f(\theta)g^{'}(\theta)h(\theta)+f(\theta)g(\theta)h^{'}(\theta)$

我們的目的是使得期望回報最大因此我們對回報的期望求導：
$?θE[payoff]=∑s0,a0,s1,?,st[p(s0)(?θπθ(s0,a0))ps0,a0(s1)πθ(s1,ai)?πθ(st,at)+p(s0)πθ(s0,a0)ps0,a0(s1)(?θπθ(s1,a1))?πθ(st,at)+p(s0)πθ(s0,a0)ps0,a0(s1)πθ(s1,ai)?(?θπθ(st,at))]?payoff=∑s0,a0,s1,?,stp(s0)πθ(s0,a0)ps0,a0(s1)πθ(s1,ai)?πθ(st,at)?[?θπθ(s0,a0)πθ(s0,a0)+?+?θπθ(sT,aT)πθ(sT,aT)]?payoff=∑s0,a0,s1,?,stp(s0,s1,?,st,at)?[?θπθ(s0,a0)πθ(s0,a0)+?+?θπθ(sT,aT)πθ(sT,aT)]?payoff=E[?θπθ(s0,a0)πθ(s0,a0)+?+?θπθ(sT,aT)πθ(sT,aT)]?payoff\nabla_{\theta}E[\,payoff]\\ =\sum_{s_0,a_0,s_1,\cdots,s_t}[p(s_0)(\nabla_{\theta}{\pi_{\theta}(s_0,a_0)})p_{s_0,a_0}(s_1)\pi_{\theta}(s_1,a_i)\cdots\pi_{\theta}(s_t,a_t)+p(s_0)\pi_{\theta}(s_0,a_0)p_{s_0,a_0}(s_1)(\nabla_{\theta}{\pi_{\theta}(s_1,a_1)})\cdots\pi_{\theta}(s_t,a_t)+\\ p(s_0)\pi_{\theta}(s_0,a_0)p_{s_0,a_0}(s_1)\pi_{\theta}(s_1,a_i)\cdots(\nabla_{\theta}\pi_{\theta}(s_t,a_t))]*payoff\\ =\sum_{s_0,a_0,s_1,\cdots,s_t}p(s_0)\pi_{\theta}(s_0,a_0)p_{s_0,a_0}(s_1)\pi_{\theta}(s_1,a_i)\cdots\pi_{\theta}(s_t,a_t)*[\frac{\nabla_{\theta}{\pi_{\theta}(s_0,a_0)}}{\pi_{\theta}(s_0,a_0)}+\cdots+\frac{\nabla_{\theta}{\pi_{\theta}(s_T,a_T)}}{\pi_{\theta}(s_T,a_T)}]*payoff\\ =\sum_{s_0,a_0,s_1,\cdots,s_t}p(s_0,s_1,\cdots,s_t,a_t)*[\frac{\nabla_{\theta}{\pi_{\theta}(s_0,a_0)}}{\pi_{\theta}(s_0,a_0)}+\cdots+\frac{\nabla_{\theta}{\pi_{\theta}(s_T,a_T)}}{\pi_{\theta}(s_T,a_T)}]*payoff\\ =E[\frac{\nabla_{\theta}{\pi_{\theta}(s_0,a_0)}}{\pi_{\theta}(s_0,a_0)}+\cdots+\frac{\nabla_{\theta}{\pi_{\theta}(s_T,a_T)}}{\pi_{\theta}(s_T,a_T)}]*payoff$

在POMDPs也可以使用 $policysearchpolicy\,\,\,search$ ，假設有 $s$ 的近似值 $s^\hat{s}$ (可以通過Kalman Filter 計算 $s^=st∣t\hat{s}=s_{t|t}$ )。如 $πθ(s^,a)=11+e?θs^\pi_{\theta}(\hat{s},a)=\frac{1}{1+e^{-\theta \hat{s}}}$

Pegasus

Pegasus是Policy Evaluation of Gradient And Search Using Scenarios的縮寫。我們一般馬爾可夫的過程是 $s0?π(s0)s1?π(s1)s2?π(s2)s3??π(sT?1)sTs_0 \stackrel{\pi(s_0)}\longrightarrow s_1 \stackrel{\pi(s_1)}\longrightarrow s_2 \stackrel{\pi(s_2)} \longrightarrow s_3\cdots \stackrel{\pi(s_{T-1})}\longrightarrow s_T$ ,在實際應用中一般會創(chuàng)建一個模擬來模擬輸入 $s_t$ 和 $s_t$ 得到 $s_{t+1}$ 的過程，我們一般假設 $s_{t+1}=As_t+Ba_t+w_t$ 可以知道每次模擬器生產 $s_{t+1}$ 的時候都帶有隨機噪聲，那么當我們在 $p o l i c y$ 搜索時候，如果 $p o l i c y$ 不同且 $w_t$ 的噪聲每次還有很大差異就很難找到最優(yōu)的 $p o l i c y$ ，因此此時存在多個變化的量，無法根據(jù)最大回報來得出最佳的 $p o l i c y$ 。因為我們的模擬器因為要模擬噪聲，那么每次都會生成隨機數(shù)來實現(xiàn)，即使是相同的策略，得出的回報也會不同。我們需要做的就是在每個場景固定一組隨機數(shù)，基于這個隨機數(shù)場景計算各個 $p o l i c y$ 的回報，然后平均多個隨機數(shù)序列場景然后評估出最佳的 $p o l i c y$ 。這就是Pegasus名字的由來。

一般來說直接的決策(如：自動駕駛、倒立擺)使用 $p o l i c y s e a r c h$ 比較好，而對于前面的決策對后續(xù)回報有影響的(如：圍棋、俄羅松方塊)最好選擇值迭代方式找到最佳的 $p o l i c y$

注：pegasus 請參見Lecture 20 48分～65分的講解

結論

CS229 2008系列完結！

總結

以上是生活随笔為你收集整理的CS229 Lecture 20的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

Lecture

上一篇： SOC与SIP小芯片两种IP互联技术
下一篇： APP Icon