A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】
文章脈絡【Dueling DQN+Prioritized Memory ,2019年TVT】
- 1、貢獻
- 1)首次將dueling network,target network,double DQN 和prioritized experience replay結合在一起。
- 2)提出了一種在整個周期內確定相位持續時間的控制系統,而不是將時間分段。
- 3)在SUMO上進行實驗。
- 2、問題定義
- 1)狀態
- 2)動作
- 3)獎勵
- 3、網絡結構
- A、CNN
- B、Dueling DQN
- C、Target network
- D、Double DQN
- E、具有優先級的經驗回放
- F、優化
- 算法整體偽代碼
- 4、實驗
1、貢獻
1)首次將dueling network,target network,double DQN 和prioritized experience replay結合在一起。
2)提出了一種在整個周期內確定相位持續時間的控制系統,而不是將時間分段。
3)在SUMO上進行實驗。
2、問題定義
1)狀態
將路口分割成大小相同的小正方形,每個網格是車輛的狀態值**<位置,速度>**。
位置是0或1【有車輛和沒有車輛】 ,當該位置有車輛時對應顯示其速度值[實數]。
2)動作
改變的是相位的持續時間,每次加5s。最大持續時間是60s,最小是0s。
例如下圖,當前位于t1時刻,下一時刻有以下8種變化方案。
交通信號按照順序循環變化,兩個相鄰相位之間需要一個黃燈來作為過渡,黃燈時間計算公式為:道路允許最大速度/車輛減速的加速度
3)獎勵
將獎勵定義為兩個相鄰周期之間的累計等待時間的變化
3、網絡結構
A、CNN
由三個卷積層和幾個全連接層構成,激活函數使用Leacky ReLU。
B、Dueling DQN
將Q網絡分割成兩部分:價值函數與優勢函數。在實際使用中使用“當前選擇動作的優勢值減去平均值”,能夠提高穩定性。
C、Target network
采用目標網絡幫助指導更新過程,解耦目標值與實際值估計,通過凍結目標值的方式,使神經網絡的更新更加穩定。
目標網絡參數的更新采取下式:
加入目標網絡后,整個神經網絡的損失值表達式為:
D、Double DQN
為了緩解DQN算法過度估計問題,有學者提出采取當前Q網絡的最大動作,而不是選擇target網絡中Q值最大的對應的動作。
因此,目標Q值的計算公式變為:
E、具有優先級的經驗回放
DQN中最重要的一部分就是經驗回放,通過經驗回放可以調整抽取樣本的分布,使其符合獨立同分布,同時可以降低抽取的樣本之間的相關性。
樣本的優先級【采樣概率】常采用兩種方式計算:基于比例和基于等級。本文中采用的是基于等級方法,即將轉移序列的時間差分誤差項作為評價優先級的標準。
TD-error的計算公式如下:
轉移序列i的采樣概率:
對轉移序列根據TD-error進行排序,優先級就是其排序的倒數。
F、優化
采用Adam方式???
算法整體偽代碼
4、實驗
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IntelliLight: a Rein
- 下一篇: CCF 202104-4 校门外的树 P