强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业
1. 離散動(dòng)作 vs 連續(xù)動(dòng)作
個(gè)人理解:
- 離散:可數(shù)(整數(shù)表示的)
- 連續(xù):不可數(shù)(小數(shù)/浮點(diǎn)數(shù)表示的)
2. DDPG
這里一共有四個(gè)網(wǎng)絡(luò),Q網(wǎng)絡(luò)以及它的target_Q網(wǎng)絡(luò),策略網(wǎng)絡(luò)以及它的target_P網(wǎng)絡(luò),兩個(gè)target是為了穩(wěn)定計(jì)算,每隔一段時(shí)間復(fù)制一下參數(shù),投入到評(píng)估網(wǎng)絡(luò)使用。
- target_Q是為了穩(wěn)定計(jì)算Q_target中的 Q w ˉ ( s ′ , a ′ ) Q_{\bar{w}}(s^{'},a^{'}) Qwˉ?(s′,a′),而其中的 a ′ = μ θ ( s ′ ) a^{'}=\mu_{\theta}(s^{'}) a′=μθ?(s′)則是由策略網(wǎng)絡(luò)里的那個(gè)target_P網(wǎng)絡(luò)來(lái)穩(wěn)定計(jì)算的。
- Q w ˉ ( s ′ , a ′ ) Q_{\bar{w}}(s^{'},a^{'}) Qwˉ?(s′,a′) 這里的w加了一個(gè)橫線就是為了和前面的那個(gè)區(qū)分開。
- 策略網(wǎng)絡(luò)對(duì)應(yīng)的是model.py中的演員Actor類(ActorModel),有一個(gè)policy函數(shù),
- Q網(wǎng)絡(luò)對(duì)應(yīng)的是評(píng)論家類(CriticModel類),有一個(gè)value函數(shù)
DQN里是硬更新,每次直接把 Q w Q_w Qw?網(wǎng)絡(luò)的所有參數(shù)全部給 Q w ˉ Q_{\bar{w}} Qwˉ?, μ θ \mu_{\theta} μθ?同理。
而DDPG采取的是一種更為平滑的方式,軟更新,每次只更新一點(diǎn)點(diǎn)。如公式所示,用了一個(gè) τ \tau τ,來(lái)控制每次 w w w或者 θ \theta θ更新的幅度。
也是為了讓Q網(wǎng)絡(luò)這個(gè)參數(shù)的更新更加穩(wěn)定(屬于工程/代碼上的一種小trick吧)
3. 大作業(yè)
https://github.com/PaddlePaddle/RLSchool也是百度做的一個(gè)環(huán)境,目前暫時(shí)只有電梯環(huán)境和四軸飛行器這兩個(gè)環(huán)境。
4. 創(chuàng)意賽
相關(guān)的代碼實(shí)現(xiàn):
在PaddleRL課程頁(yè)面的討論區(qū):終極復(fù)現(xiàn)項(xiàng)目 提交區(qū)(討論請(qǐng)移步灌水區(qū)~)
【參考環(huán)境】
- 1星環(huán)境:簡(jiǎn)單的彈跳和接球游戲:
https://github.com/shivaverma/Orbit - 2星環(huán)境:GYM環(huán)境 Box2D (需要安裝 box2d-py):
https://gym.openai.com/envs/#box2d - PyGame游戲環(huán)境(含F(xiàn)lappy Bird):
https://github.com/ntasfi/PyGame-Learning-Environment - 3星環(huán)境:GYM環(huán)境 Robotics (需要安裝 mujoco_py和試用許可證書):https://gym.openai.com/envs/#robotics
- 股票預(yù)測(cè)環(huán)境:
https://github.com/kh-kim/stock_market_reinforcement_learning - RLSchool四軸飛行器的 速度控制任務(wù) “velocity_control”:https://github.com/PaddlePaddle/RLSchool/tree/master/rlschool/quadrotor
- 4星環(huán)境:RLBench任務(wù)環(huán)境(使用機(jī)械臂完成某一項(xiàng)任務(wù)):https://github.com/stepjam/RLBench
- 5星環(huán)境:交通信號(hào)燈控制:
https://github.com/Ujwal2910/Smart-Traffic-Signals-in-India-using-Deep-Reinforcement-Learning-and-Advanced-Computer-Vision
總結(jié)
以上是生活随笔為你收集整理的强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 移动智能时代,为何还需要猎网平台?
- 下一篇: 韩泰机器人_韩泰轮胎怎么样?进击的韩泰,