强化学习常用平台(环境)
轉(zhuǎn)自:https://www.cnblogs.com/devilmaycry812839668/p/10228987.html
本篇博客主要是講一下強化學習的一些常用平臺, 強化學習的發(fā)展已經(jīng)好多年了,以前都是大家做什么實驗然后都是自己編寫環(huán)境代碼,由于很多人的代碼都是不公開的所以其他人要繼續(xù)做前人的工作就需要自己重新構(gòu)建環(huán)境代碼,這樣做一方面做了很多重復工作,浪費了大量的時間,而且很沒有必要,另一方面每個人都重新編寫各自的環(huán)境代碼導致每個人的環(huán)境多少是有所不同的,在一個環(huán)境下運行不是的算法代碼往往在另一個環(huán)境平臺上可能就難以達到之前的表現(xiàn),這種情況下使得大家的代碼不具備可復現(xiàn)性,而這本質(zhì)上違背了學科科研的要求。
具體平臺介紹如下:
1. Gym
gym 是 openAI 公司出品的強化學習常用環(huán)境平臺, 該平臺應該是強化學習被人所熟知最多的, 集成的環(huán)境非常多,同時也有多個第三方環(huán)境為期提供接口。
環(huán)境介紹頁面: http://gym.openai.com/envs/
文檔介紹頁面:
具體如何安裝 gym 前文已經(jīng)介紹,這里就不在多說。 前文地址:https://www.cnblogs.com/devilmaycry812839668/p/10226829.html
附注:
這里唯一要多說的是啥呢,就是Gym環(huán)境里面只提供了環(huán)境代碼,并沒有集成任何強化學習代碼,具體強化學習代碼需要自己按照其API接口來寫,其最大優(yōu)點就是接口比較好,眾多強化學習環(huán)境都為其提供接口。
2. baselines
第二個要說的強化學習的環(huán)境還是 openAI 公司提供的, baselines 。
openAI 的 baseline主頁
由上圖可以看出, baselines 在openAI公司的地位和Gym是并駕齊驅(qū)的。
baselines 項目地址:(github) https://github.com/openai/baselines
進入到 baselines項目的具體代碼中, 即baselines/baselines文件夾,如下:
可以看到 baselines 項目中提供的都是一些 性能表現(xiàn)非常好的代碼,這也正如其ReadMe中的介紹:
可以看出 baselines 項目就是為了給眾多的research人員提供一個方便、快捷的基準(baselines) 測試對比環(huán)境。
附注:
某種意義上來說 baselines 并不是強化學習的環(huán)境平臺, 而應該算是強化學習的基準算法庫,更像是一個函數(shù)庫,大家可以便捷的在其上面做實驗,又或者對其進行修改,或者在其之上提出新的算法 等。
3. pysc2 (StarCraft II Learning Environment)
第三個要說的平臺是比較特殊的他說暴雪公司(游戲公司)和 DeepMind 公司合作出品的, 專門用于訓練 星際爭霸 游戲的AI對戰(zhàn)的強化學習平臺。
DeepMind 的AlphaGo把圍棋搞定之后,業(yè)界開始目光投向即時策略游戲如 StarCraft II(星際爭霸 II )。最近 DeepMind和Blizzard合作出了個StarCraft II的研究平臺,稱為 PySC2。
下面看下這個平臺的效果圖:
pysc2 項目的網(wǎng)址: https://github.com/deepmind/pysc2
安裝:
顯而易見的 我們安裝成功了, 其實 pysc2 平臺還是比較好安裝的,但是pysc2安裝好以后并沒有結(jié)束,我們剩下的工作是要安裝StarCraft II ,
因為 pysc2 其實是相當于Python環(huán)境對StarCraft II 調(diào)用的一個接口封裝, 如果要真正意義的運行起來我們還要安裝StarCraft II 游戲。
這里我們就不對 StarCraft II 游戲的具體安裝進行介紹, 未來我們會在以后的博客中對此再繼續(xù)介紹。
不得不說的是 pysc2 的官方網(wǎng)址,如下:
https://deepmind.com/blog/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment/
關(guān)于 pysc2 的具體內(nèi)容,能是agent在強化學習后取得什么樣的效果,多智能體的智能決策等,DeepMind寫一篇論文,如下:
http://deepmind.com/documents/110/sc2le.pdf
4. TORCS (The Open Racing Car Simulator)賽車游戲模擬器
TORCS (The Open Racing Car Simulator The Open Racing Car Simulator)是一個跨平臺的賽車游戲模擬器,也可作為強化學習的研究平臺 。
官方網(wǎng)站:
http://torcs.sourceforge.net/
gym_torcs 是一個TORCS的強化學習環(huán)境,提供類似前面 OpenAI Gym的接口。
gym_torcs 的官方網(wǎng)址為 :
https://github.com/ugo-nama-kun/gym_torcs
效果圖:
5. RLLAB
rllab 也是一個研究強化學習算法的框架。官方網(wǎng)站為https://github.com/openai/rllab
官方支持 python 3.5+,基于 Theano 。
與OpenAI Gym 的區(qū)別在于 OpenAI Gym 支持更廣泛的 環(huán)境,且提供在線支持更廣泛的 環(huán)境,且提供在線scoreboard 可以用于共享訓練結(jié)果。 rllab 自己也提供一個基于pygame的可視環(huán)境, 同時它也可兼容OpenAI Gym 。
除此之外 ,它提供了一些強化學習算法的實現(xiàn), 這些參考實現(xiàn)和組件可以使得強化學習算法的開發(fā)更快上手 。
? 安裝 步驟可按照官方網(wǎng)站:
https://rllab.readthedocs.io/en/latest/user/installation.html
6.DeepMind Lab
DeepMind Lab (原 Labyrinth)是由 DeepMind發(fā)布的 3D 迷宮場景強化學習平臺。 之前是 DeepMind內(nèi)部使用的,后來開源了。
官方介紹:
https://deepmind.com/blog/open-sourcing-deepmind-lab/
論文地址:
https://arxiv.org/pdf/1612.03801.pdf
源碼位于:
https://github.com/deepmind/lab
7.MuJoCo
MuJoCo(Multi-Joint dynamics with Contact)是一個模擬的機器人,生物力學,圖形和動畫等領(lǐng)域的物理引擎。
官網(wǎng):http://www.mujoco.org/index.html
OpenAI對MuJoCo引擎做了Python 3的binding-mujoco-py ,
源碼位于:https://github.com/openai/mujoco-py
=========================================================
還有其它常用的強化學習平臺,這里就不多介紹了,以下給出參考網(wǎng)址:
https://blog.csdn.net/weixin_41362649/article/details/84798175
總結(jié)
以上是生活随笔為你收集整理的强化学习常用平台(环境)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CAD看图王如何导出DWG图纸(Auto
- 下一篇: 腾讯新闻如何关闭广告(腾讯视频VIP会员