强化学习(九)Deep Q-Learning进阶之Nature DQN
在強化學習(八)價值函數的近似表示與Deep Q-Learning中,我們講到了Deep Q-Learning(NIPS 2013)的算法和代碼,在這個算法基礎上,有很多Deep Q-Learning(以下簡稱DQN)的改進版,今天我們來討論DQN的第一個改進版Nature DQN(NIPS 2015)。
本章內容主要參考了ICML 2016的deep RL tutorial和Nature DQN的論文。
1. DQN(NIPS 2013)的問題
在上一篇我們已經討論了DQN(NIPS 2013)的算法原理和代碼實現,雖然它可以訓練像CartPole這樣的簡單游戲,但是有很多問題。這里我們先討論第一個問題。
注意到DQN(NIPS 2013)里面,我們使用的目標Q值的計算方式:
yj={RjRj+γmaxa′Q(?(S′j),A′j,w)is_endjistrueis_endjisfalseyj={Rjis_endjistrueRj+γmaxa′Q(?(Sj′),Aj′,w)is_endjisfalse
這里目標Q值的計算使用到了當前要訓練的Q網絡參數來計算Q(?(S′j),A′j,w)Q(?(Sj′),Aj′,w),而實際上,我們又希望通過yjyj來后續更新Q網絡參數。這樣兩者循環依賴,迭代起來兩者的相關性就太強了。不利于算法的收斂。
因此,一個改進版的DQN: Nature DQ
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的强化学习(九)Deep Q-Learning进阶之Nature DQN的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(八)价值函数的近似表示与Dee
- 下一篇: 强化学习(十)Double DQN (D