强化学习RL
強化學習(Reinforcement Learning RL)也有很多其他名字,例如再勵學習、增強學習、評價學習,是機器學習的范式和方法論之一,用于描述和解決智能體在與環境的交互過程中,通過學習策略以達成回報最大化或實現特定目標的問題。
強化學習過程主要由4部分構成:智能體(agent)、觀測到的狀態(observation/state)、獎勵(reward)和行為(action)
深度學習如圖像識別和語音識別解決的是感知的問題,強化學習解決的是決策的問題。人工智能的終極目的是通過感知進行智能決策。所以,將近年發展起來的深度學習技術與強化學習算法結合而產生的深度強化學習算法是人類實現人工智能終極目的的一個很有前景的方法。
深度強化學習是強化學習與深度學習結合的結果。顧名思義,就是將傳統強化學習中的某一部分用深度學習來完成。
傳統強化學習中的行為以及價值都是需要人為定義的,這也就是為什么傳統強化學習起源較早,但是應用并不廣泛的原因之一。而深度學習恰好將這一問題解決了,強化學習中的行為以及價值都用一個深度學習的網絡來學習得到,這樣不需要人為設定,使得強化學習可以廣泛應用于很多領域。而傳統強化學習無法解決的連續性動作的問題,深度強化學習也可以解決,使用對應的Actor-critic網絡即可。
總結
- 上一篇: DWG中注记平移问题
- 下一篇: 增添战力