Open AI Gym简介
介紹
OpenAI Gym是一款用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包,它支持訓(xùn)練智能體(agent)做任何事——從行走到玩Pong或圍棋之類(lèi)的游戲都在范圍中。
OpenAI Gym 是一個(gè)用于開(kāi)發(fā)和比較RL 算法的工具包,與其他的數(shù)值計(jì)算庫(kù)兼容,如tensorflow 或者theano 庫(kù)。現(xiàn)在主要支持的是python 語(yǔ)言,以后將支持其他語(yǔ)言。官方提供的gym文檔。
OpenAI Gym包含兩部分:
gym 開(kāi)源 包含一個(gè)測(cè)試問(wèn)題集,每個(gè)問(wèn)題成為環(huán)境(environment),可以用于自己的強(qiáng)化學(xué)習(xí)算法開(kāi)發(fā),這些環(huán)境有共享的接口,允許用戶(hù)設(shè)計(jì)通用的算法,例如:Atari、CartPole等。
OpenAI Gym 服務(wù)
提供一個(gè)站點(diǎn)和api ,允許用戶(hù)對(duì)自己訓(xùn)練的算法進(jìn)行性能比較。
強(qiáng)化學(xué)習(xí)介紹
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,目的是開(kāi)發(fā)出智能體(Agent)做出決策和控制。
RL涵蓋了所有涉及制定一系列決策的問(wèn)題,如控制機(jī)器人的動(dòng)作,玩游戲 video games , board games
RL甚至可以應(yīng)用于序列與結(jié)構(gòu)化輸出的問(wèn)題上。
RL已經(jīng)有很長(zhǎng)的歷史,隨著深度學(xué)習(xí)的出現(xiàn)近些年已經(jīng)在許多復(fù)雜的問(wèn)題上有著很好的表現(xiàn),比如DeepMind’s Atari results, BRETT from Pieter Abbeel’s group, and AlphaGo,這些工作沒(méi)有對(duì)環(huán)境做過(guò)多的假設(shè),都運(yùn)用了RL。
但是,RL也面臨以下挑戰(zhàn):
更好的benchmarks:在監(jiān)督學(xué)習(xí)中有ImageNet,而強(qiáng)化學(xué)習(xí)只有龐大的環(huán)境集合。但是目前這些環(huán)境還是缺少多樣性。
缺少標(biāo)準(zhǔn)化的環(huán)境 :環(huán)境中很小的差異將大大改變問(wèn)題的難度,因此發(fā)表過(guò)的研究工作無(wú)法重現(xiàn)和比較。
然后——OpenAI Gym出現(xiàn)了。
OpenAI Gym 環(huán)境
OpenAI Gym提供了多種多樣的環(huán)境,從簡(jiǎn)單到困難,并涉及到許多不同類(lèi)型的數(shù)據(jù):
Classic control and toy text:
提供了一些RL相關(guān)論文中的一些小問(wèn)題,開(kāi)始學(xué)習(xí)Gym從這開(kāi)始!
Algorithmic:
提供了學(xué)習(xí)算法的環(huán)境,比如翻轉(zhuǎn)序列這樣的問(wèn)題,雖然能很容易用直接編程實(shí)現(xiàn),但是單純用例子來(lái)訓(xùn)練RL模型有難度的。這些問(wèn)題有一個(gè)很好的特性: 能夠通過(guò)改變序列長(zhǎng)度改變難度。
Atari:
這里提供了一些小游戲,比如我們小時(shí)候玩過(guò)的小蜜蜂,彈珠等等。這些問(wèn)題對(duì)RL研究有著很大影響!
Board games:
提供了Go這樣一個(gè)簡(jiǎn)單的下棋游戲,由于這個(gè)問(wèn)題是多人游戲,Gym提供有opponent與你訓(xùn)練的agent進(jìn)行對(duì)抗。
2D and 3D robots:
機(jī)器人控制環(huán)境。 這些問(wèn)題用 MuJoCo 作為物理引擎。
當(dāng)然還有很多好玩的問(wèn)題,比如CNN的自動(dòng)調(diào)參、Minecraft等。
OpenAI Gym 評(píng)估平臺(tái)
用戶(hù)可以記錄和上傳算法在環(huán)境中的表現(xiàn),生成評(píng)估報(bào)告。
用戶(hù)可以使用Monitor Wrapper包裝自己的代碼環(huán)境,Gym記錄算法的性能。
用戶(hù)上傳自己模型的Gist,可以生成評(píng)估報(bào)告,還能錄制模型玩游戲的小視頻。
在每個(gè)環(huán)境下都有一個(gè)排行榜,用來(lái)比較大家的模型表現(xiàn)。
總結(jié)
以上是生活随笔為你收集整理的Open AI Gym简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 反爬机制
- 下一篇: 浅谈本地服务器的搭建(XAMPP)