强化学习1——策略,价值函数,模型
文章目錄
- 強化學(xué)習(xí)——概述
- 組成
- 策略:行為函數(shù)
- 價值函數(shù):狀態(tài)和行為的得分
- 模型:整個世界的表達
強化學(xué)習(xí)——概述
組成
策略:行為函數(shù)
? 分為兩種:
? 概率型策略:從策略π\(zhòng)piπ中,按照概率π(a∣s)=P(at=a∣st=s)\pi(\mathrm{a} \mid \mathrm{s})=\mathrm{P}\left(\mathrm{a}_{\mathrm{t}}=\mathrm{a} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right)π(a∣s)=P(at?=a∣st?=s)采樣一個a。
? 確定型策略:從策略π\(zhòng)piπ中,選擇一個最大概率的策略a?=arg?max?aπ(a∣s)a^{*}=\arg \max _{a} \pi(a \mid s)a?=argmaxa?π(a∣s)
價值函數(shù):狀態(tài)和行為的得分
? 已知π\(zhòng)piπ的時候能得到多少獎勵(期望平均值)
? 分為兩種:
? 狀態(tài)價值函數(shù):衡量一個狀態(tài)的價值(其實是一個狀態(tài)采取所有行為后的一個價值的期望值)
vπ(s)?Eπ[Gt∣St=s]=Eπ[∑k=0∞γkRt+k+1∣St=s],for?all?s∈Sv_{\pi}(s) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s\right], \text { for all } s \in \mathcal{S}vπ?(s)?Eπ?[Gt?∣St?=s]=Eπ?[∑k=0∞?γkRt+k+1?∣St?=s],?for?all?s∈S
? Q-函數(shù):衡量一個狀態(tài)采取一個動作后的價值(是強化學(xué)習(xí)的一個目標(biāo),最高的Q-函數(shù)值對應(yīng)的a就是最有策略采取的動作)
qπ(s,a)?Eπ[Gt∣St=s,At=a]=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a]q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s, A_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s, A_{t}=a\right]qπ?(s,a)?Eπ?[Gt?∣St?=s,At?=a]=Eπ?[∑k=0∞?γkRt+k+1?∣St?=s,At?=a]
模型:整個世界的表達
? 預(yù)測下一個環(huán)境(世界,狀態(tài))
? 兩部分組成:
? 1 狀態(tài)s采取了一個策略a,有多少概率到達s′s^{\prime}s′。
? 2 狀態(tài)s采取了一個策略a,能得到多大的獎勵
Predict?the?next?state:?Pss′a=P[St+1=s′∣St=s,At=a]Predict?the?next?reward:?Rsa=E[Rt+1∣St=s,At=a]\begin{aligned} &\text { Predict the next state: } \mathcal{P}_{s s^{\prime}}^{a}=\mathbb{P}\left[S_{t+1}=s^{\prime} \mid S_{t}=s, A_{t}=a\right]\\ &\text { Predict the next reward: } \mathcal{R}_{s}^{a}=\mathbb{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a\right] \end{aligned} ??Predict?the?next?state:?Pss′a?=P[St+1?=s′∣St?=s,At?=a]?Predict?the?next?reward:?Rsa?=E[Rt+1?∣St?=s,At?=a]?
總結(jié)
以上是生活随笔為你收集整理的强化学习1——策略,价值函数,模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 线性规划——规范型,标准型,基阵、基本解
- 下一篇: 最优化——单纯形法学习心得