當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

Open AI Gym简介

發(fā)布時(shí)間：2023/12/13 综合教程 46 生活家

生活随笔收集整理的這篇文章主要介紹了 Open AI Gym简介小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

介紹

OpenAI Gym是一款用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包，它支持訓(xùn)練智能體（agent）做任何事——從行走到玩Pong或圍棋之類(lèi)的游戲都在范圍中。

OpenAI Gym 是一個(gè)用于開(kāi)發(fā)和比較RL 算法的工具包，與其他的數(shù)值計(jì)算庫(kù)兼容，如tensorflow 或者theano 庫(kù)。現(xiàn)在主要支持的是python 語(yǔ)言，以后將支持其他語(yǔ)言。官方提供的gym文檔。

OpenAI Gym包含兩部分：

gym 開(kāi)源包含一個(gè)測(cè)試問(wèn)題集，每個(gè)問(wèn)題成為環(huán)境（environment），可以用于自己的強(qiáng)化學(xué)習(xí)算法開(kāi)發(fā)，這些環(huán)境有共享的接口，允許用戶(hù)設(shè)計(jì)通用的算法，例如：Atari、CartPole等。

OpenAI Gym 服務(wù)
提供一個(gè)站點(diǎn)和api ，允許用戶(hù)對(duì)自己訓(xùn)練的算法進(jìn)行性能比較。

強(qiáng)化學(xué)習(xí)介紹

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支，目的是開(kāi)發(fā)出智能體(Agent)做出決策和控制。

RL涵蓋了所有涉及制定一系列決策的問(wèn)題，如控制機(jī)器人的動(dòng)作，玩游戲 video games , board games

RL甚至可以應(yīng)用于序列與結(jié)構(gòu)化輸出的問(wèn)題上。

RL已經(jīng)有很長(zhǎng)的歷史，隨著深度學(xué)習(xí)的出現(xiàn)近些年已經(jīng)在許多復(fù)雜的問(wèn)題上有著很好的表現(xiàn)，比如DeepMind’s Atari results, BRETT from Pieter Abbeel’s group, and AlphaGo，這些工作沒(méi)有對(duì)環(huán)境做過(guò)多的假設(shè)，都運(yùn)用了RL。

但是，RL也面臨以下挑戰(zhàn)：

更好的benchmarks：在監(jiān)督學(xué)習(xí)中有ImageNet，而強(qiáng)化學(xué)習(xí)只有龐大的環(huán)境集合。但是目前這些環(huán)境還是缺少多樣性。

缺少標(biāo)準(zhǔn)化的環(huán)境 ：環(huán)境中很小的差異將大大改變問(wèn)題的難度，因此發(fā)表過(guò)的研究工作無(wú)法重現(xiàn)和比較。

然后——OpenAI Gym出現(xiàn)了。

OpenAI Gym 環(huán)境

OpenAI Gym提供了多種多樣的環(huán)境，從簡(jiǎn)單到困難，并涉及到許多不同類(lèi)型的數(shù)據(jù)：

Classic control and toy text:
提供了一些RL相關(guān)論文中的一些小問(wèn)題，開(kāi)始學(xué)習(xí)Gym從這開(kāi)始！

Algorithmic:
提供了學(xué)習(xí)算法的環(huán)境，比如翻轉(zhuǎn)序列這樣的問(wèn)題，雖然能很容易用直接編程實(shí)現(xiàn)，但是單純用例子來(lái)訓(xùn)練RL模型有難度的。這些問(wèn)題有一個(gè)很好的特性： 能夠通過(guò)改變序列長(zhǎng)度改變難度。

Atari:
這里提供了一些小游戲，比如我們小時(shí)候玩過(guò)的小蜜蜂，彈珠等等。這些問(wèn)題對(duì)RL研究有著很大影響！

Board games:
提供了Go這樣一個(gè)簡(jiǎn)單的下棋游戲，由于這個(gè)問(wèn)題是多人游戲，Gym提供有opponent與你訓(xùn)練的agent進(jìn)行對(duì)抗。

2D and 3D robots:
機(jī)器人控制環(huán)境。這些問(wèn)題用 MuJoCo 作為物理引擎。

當(dāng)然還有很多好玩的問(wèn)題，比如CNN的自動(dòng)調(diào)參、Minecraft等。

OpenAI Gym 評(píng)估平臺(tái)

用戶(hù)可以記錄和上傳算法在環(huán)境中的表現(xiàn)，生成評(píng)估報(bào)告。

用戶(hù)可以使用Monitor Wrapper包裝自己的代碼環(huán)境，Gym記錄算法的性能。

用戶(hù)上傳自己模型的Gist，可以生成評(píng)估報(bào)告，還能錄制模型玩游戲的小視頻。

在每個(gè)環(huán)境下都有一個(gè)排行榜，用來(lái)比較大家的模型表現(xiàn)。

總結(jié)

以上是生活随笔為你收集整理的Open AI Gym简介的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：反爬机制
下一篇：浅谈本地服务器的搭建（XAMPP）