听乌森聊强化学习的那些事
作者介紹
蓮石東路@烏森
心之所向,無(wú)界成長(zhǎng)。從底層架構(gòu)到應(yīng)用實(shí)戰(zhàn),聊聊煉數(shù)成金背后的故事。
持續(xù)更新數(shù)據(jù)治理、數(shù)據(jù)科學(xué)、數(shù)據(jù)可視化、空間計(jì)算系列文章。
?
?
1??聊聊強(qiáng)化學(xué)習(xí)
?
前幾天的一則新聞非常有意思。說(shuō)的是2021年的美洲杯帆船賽上,新西蘭酋長(zhǎng)隊(duì)利用強(qiáng)化學(xué)習(xí)測(cè)試水翼設(shè)計(jì),他們稱之為“AI水手”。”AI水手”在模擬器里學(xué)習(xí)如何應(yīng)對(duì)風(fēng)速和風(fēng)向,學(xué)習(xí)調(diào)整14種不同的風(fēng)帆和控制船只,經(jīng)過(guò)不斷的試錯(cuò)迭代,只用了八周時(shí)間就從一個(gè)什么都不懂的小白成長(zhǎng)到戰(zhàn)勝人類水手的水平。
?
?
有了”經(jīng)驗(yàn)豐富”的”AI水手”的幫助,新西蘭酋長(zhǎng)隊(duì)迭代設(shè)計(jì)的速度提升了十倍,得以用指數(shù)級(jí)速度測(cè)試更多船體設(shè)計(jì)并實(shí)現(xiàn)了性能優(yōu)勢(shì),衛(wèi)冕帆船賽的冠軍。
?
這畫面是不是很眼熟,沒(méi)錯(cuò),就跟阿爾法狗戰(zhàn)勝人類頂級(jí)圍起棋手那回一樣,計(jì)算機(jī)再次用算力優(yōu)勢(shì)在一個(gè)領(lǐng)域里超越了人類。強(qiáng)化學(xué)習(xí)證明了自己在游戲以外領(lǐng)域的價(jià)值,幫助人們提升了設(shè)計(jì)工業(yè)產(chǎn)品的速度。
?
強(qiáng)化學(xué)習(xí)其實(shí)不是個(gè)新鮮概念了,只不過(guò)過(guò)去是被深度學(xué)習(xí)領(lǐng)域的CV、NLP等熱門技術(shù)掩蓋,現(xiàn)在重新被關(guān)注了而已。
?
那么,它具體是干什么的?簡(jiǎn)而言之,就是”自學(xué)成才”。
?
還是以Alpha Go舉例。早期采用監(jiān)督學(xué)習(xí)的 Alpha Go,需要輸入大量人類棋手的下法、對(duì)弈棋局等數(shù)據(jù),不斷學(xué)習(xí)下法,也就是說(shuō),它是在“模仿”人類。但無(wú)論怎么模仿,它終究還是難以真正超越人類。到了采取了強(qiáng)化學(xué)習(xí)的Alpha Go Zero 的版本,它就不再對(duì)著人類的玩法照貓畫虎了。了解到基本的規(guī)則以及最終要達(dá)到的目標(biāo)后,就開(kāi)始“隨便下”,如果下贏了,就會(huì)得到獎(jiǎng)勵(lì),然后指導(dǎo)下一步的決策;如果輸了,就會(huì)有懲罰。在這種嘗試——反饋——學(xué)習(xí)的過(guò)程中,完成自我進(jìn)化。
?
對(duì)比于監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)在于:無(wú)需在前期就輸入大量數(shù)據(jù),可以自我迭代完成學(xué)習(xí)的過(guò)程。對(duì)于許多場(chǎng)景來(lái)說(shuō),我們并沒(méi)有太多可以參照的數(shù)據(jù),而且有些小的變動(dòng)都有可能會(huì)導(dǎo)致過(guò)去的經(jīng)驗(yàn)沒(méi)法直接套用,監(jiān)督式的機(jī)器學(xué)習(xí)算法,學(xué)無(wú)可學(xué)。
?
正因?yàn)閺?qiáng)化學(xué)習(xí)更接近于人類的思維模式,也難怪強(qiáng)化學(xué)習(xí)之父Richard Sutton說(shuō):” 我相信,從某種意義上講,強(qiáng)化學(xué)習(xí)是人工智能的未來(lái)。”
?
學(xué)會(huì)下圍棋只是強(qiáng)化學(xué)習(xí)開(kāi)始,在產(chǎn)業(yè)界落地才是AI技術(shù)真正價(jià)值的所在。
?
好了,閑話不多說(shuō),下面來(lái)介紹一些強(qiáng)化學(xué)習(xí)的入門知識(shí)。
?
?
2??強(qiáng)化學(xué)習(xí)的基本概念
?
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域,強(qiáng)調(diào)如何基于環(huán)境而行動(dòng),以取得最大化的預(yù)期利益。其靈感來(lái)源于心理學(xué)中的行為主義理論,即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。在維基百科對(duì)強(qiáng)化學(xué)習(xí)的定義為:受到行為心理學(xué)的啟發(fā),強(qiáng)化學(xué)習(xí)主要關(guān)注智能體如何在環(huán)境中采取不同的行動(dòng),以最大限度地提高累積獎(jiǎng)勵(lì)。
?
就本質(zhì)來(lái)說(shuō),強(qiáng)化學(xué)習(xí)是要解決做決策的問(wèn)題,也就是自動(dòng)決策問(wèn)題,且可以連續(xù)做決策。
?
?
3??強(qiáng)化學(xué)習(xí)的組成元素
?
(1)四大元素
?
強(qiáng)化學(xué)習(xí)包含四個(gè)元素:智能體(agent),環(huán)境,行動(dòng)/動(dòng)作,獎(jiǎng)勵(lì)。
?
下面給出強(qiáng)化學(xué)習(xí)四大元素的定義:
?
智能體:強(qiáng)化學(xué)習(xí)的本體,作為學(xué)習(xí)者或者決策者。
環(huán)境:強(qiáng)化學(xué)習(xí)智能體以外的一切,主要由狀態(tài)集組成。狀態(tài)表示環(huán)境的數(shù)據(jù)。狀態(tài)集是環(huán)境中所有可能的狀態(tài)。
行動(dòng)/動(dòng)作:智能體可以做出的動(dòng)作。動(dòng)作集是智能體可以做出的所有動(dòng)作。
獎(jiǎng)勵(lì):智能體在執(zhí)行一個(gè)動(dòng)作后,獲得的正/負(fù)獎(jiǎng)勵(lì)信號(hào)。獎(jiǎng)勵(lì)集是智能體可以獲得所有反饋信息,正/負(fù)獎(jiǎng)勵(lì)信號(hào)亦可稱作正/負(fù)反饋信號(hào)。
?
(2)策略與目標(biāo)
?
強(qiáng)化學(xué)習(xí)是從環(huán)境狀態(tài)到動(dòng)作的映射學(xué)習(xí),該映射關(guān)系稱為策略。通俗地說(shuō),智能體選擇動(dòng)作的思考過(guò)程即為策略。
?
智能體自動(dòng)尋找在連續(xù)時(shí)間序列里的最優(yōu)策略,而最優(yōu)策略通常指最大化長(zhǎng)期累積獎(jiǎng)勵(lì)。
?
可見(jiàn),強(qiáng)化學(xué)習(xí)實(shí)際上是智能體在與環(huán)境進(jìn)行交互的過(guò)程中,學(xué)會(huì)最佳決策序列。
?
?
4??強(qiáng)化學(xué)習(xí)的分類
?
強(qiáng)化學(xué)習(xí)通常分為兩種,一種是無(wú)模型的,另一種是基于模型的。
?
(1)無(wú)模型強(qiáng)化學(xué)習(xí)
?
無(wú)模型強(qiáng)化學(xué)習(xí)直接為參與者生成策略,所有的環(huán)境知識(shí)都嵌入到這個(gè)策略中。
?
① 策略梯度算法
?
策略梯度算法修改代理的策略以跟蹤那些為其帶來(lái)更高獎(jiǎng)勵(lì)的操作。這使這些算法符合策略,因此它們只能從算法內(nèi)采取的操作中學(xué)習(xí)。
?
用于連接主義強(qiáng)化學(xué)習(xí)的簡(jiǎn)單統(tǒng)計(jì)梯度跟蹤算法--1992年:提出了政策梯度的概念,提出了系統(tǒng)地增加產(chǎn)生高回報(bào)的行為的可能性的核心思想。
?
② 基于價(jià)值的算法
?
基于價(jià)值的算法會(huì)根據(jù)給定狀態(tài)的感知價(jià)值來(lái)修改代理策略。這使得這些算法脫離策略,因?yàn)榇砜梢酝ㄟ^(guò)從任何策略中讀取獎(jiǎng)勵(lì)函數(shù)來(lái)更新其內(nèi)部狀態(tài)結(jié)構(gòu)。
?
Q學(xué)習(xí)--1992年:Q學(xué)習(xí)是現(xiàn)代強(qiáng)化學(xué)習(xí)中基于價(jià)值的經(jīng)典方法,其中代理存儲(chǔ)每個(gè)動(dòng)作狀態(tài)對(duì)的感知值,然后通知策略動(dòng)作。
?
深度Q網(wǎng)絡(luò)(DQN)--2015年:深度Q學(xué)習(xí)僅應(yīng)用神經(jīng)網(wǎng)絡(luò)來(lái)模擬Q函數(shù)的每個(gè)動(dòng)作和狀態(tài),這可以節(jié)省大量的計(jì)算資源,并有可能擴(kuò)展到連續(xù)的時(shí)間動(dòng)作空間。
?
③ Actor-Critic算法
?
行為者批判算法將基于策略和基于價(jià)值的方法結(jié)合在一起--通過(guò)對(duì)價(jià)值(critic)和行為(actor)使用單獨(dú)的網(wǎng)絡(luò)近似值。這兩個(gè)網(wǎng)絡(luò)相互配合,使彼此規(guī)范化并有望獲得更穩(wěn)定的結(jié)果。
?
Actor-Critic算法--2000年:提出了用兩個(gè)單獨(dú)的但相互交織的模型來(lái)生成控制策略的想法。
?
信任區(qū)域政策優(yōu)化(TRPO)--2015年:基于actor critic途徑,TRPO的作者希望在每個(gè)訓(xùn)練迭代中調(diào)整策略的變化,他們引入了一個(gè)關(guān)于KL散度的硬約束,即新策略分布中的信息變化。使用約束而不是懲罰,在實(shí)踐中允許更大的訓(xùn)練步驟和更快的收斂。
?
近端政策優(yōu)化(PPO)--2017年:PPO是對(duì)TRPO的改進(jìn),相較于之前的TRPO方法更加易于實(shí)現(xiàn)。
?
深度確定性策略梯度(DDPG)--2016年:DDPG將Q學(xué)習(xí)與策略梯度更新規(guī)則結(jié)合在一起,允許Q學(xué)習(xí)應(yīng)用于許多連續(xù)控制環(huán)境。
?
雙延遲深度確定性策略梯度(TD3)--2018年:TD3在DDPG的基礎(chǔ)上進(jìn)行了3個(gè)主要更改:1)同時(shí)學(xué)習(xí)兩個(gè)Q函數(shù),采用較低的Bellman估計(jì)值以減少方差;2)與Q函數(shù)相比,更新策略的頻率更低;3)向目標(biāo)操作添加噪音,以降低攻擊性策略。
?
Soft Actor Critic(SAC)--2018年:為了在機(jī)器人實(shí)驗(yàn)中使用無(wú)模型的RL,作者希望提高樣本效率,數(shù)據(jù)收集的廣度和勘探的安全性。他們使用基于熵的RL來(lái)控制探索,并使用DDPG樣式Q函數(shù)逼近進(jìn)行連續(xù)控制。
?
隨著樣本復(fù)雜度下降和結(jié)果上升,許多人對(duì)無(wú)模型強(qiáng)化學(xué)習(xí)的應(yīng)用感到非常興奮。最近的研究已將這些方法的越來(lái)越多的部分用于物理實(shí)驗(yàn),這使廣泛使用的機(jī)器人的前景更近了一步。
?
(2)基于模型的強(qiáng)化學(xué)習(xí)
?
基于模型的強(qiáng)化學(xué)習(xí)嘗試建立環(huán)境知識(shí),并利用這些知識(shí)采取明智的措施。
?
學(xué)習(xí)控制的概率推斷(PILCO)--2011:它提出了一種基于高斯過(guò)程(GP)的策略搜索方法。
?
帶有軌跡采樣的概率集成(PETS)--2018:PETS將三個(gè)部分組合成一個(gè)功能算法:
1)由多個(gè)隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)組成的動(dòng)力學(xué)模型(模型集合);
2)基于粒子的傳播算法;
3)和簡(jiǎn)單模型預(yù)測(cè)控制器。
?
基于模型的元策略優(yōu)化(MB-MPO)--2018年:使用元學(xué)習(xí)來(lái)選擇集成中哪個(gè)動(dòng)態(tài)模型最能優(yōu)化策略并減少模型偏差。這種元優(yōu)化允許MBRL在更低的樣本中更接近于漸進(jìn)的無(wú)模型性能。
?
模型集成信任區(qū)域策略優(yōu)化(ME-TRPO)--2018年:ME-TRPO是TRPO在模型集成上的應(yīng)用,該模型集成被認(rèn)為是環(huán)境的基本事實(shí)。對(duì)無(wú)模型版本的一個(gè)細(xì)微的添加是策略訓(xùn)練的停止條件,只有在策略迭代時(shí),一定比例的模型不再看到改進(jìn)時(shí)才會(huì)停止。
?
近年來(lái),基于模型的強(qiáng)化學(xué)習(xí)有很多令人興奮的應(yīng)用,例如四軸飛行器和步行機(jī)器人。
?
在下一篇中會(huì)講講業(yè)內(nèi)一些強(qiáng)化學(xué)習(xí)的運(yùn)用。
?
?
?
?
?
?
一個(gè)數(shù)據(jù)人的自留地是一個(gè)助力數(shù)據(jù)人成長(zhǎng)的大家庭,幫助對(duì)數(shù)據(jù)感興趣的伙伴們明確學(xué)習(xí)方向、精準(zhǔn)提升技能。關(guān)注我,帶你探索數(shù)據(jù)的神奇奧秘
?
1、回“數(shù)據(jù)產(chǎn)品”,獲取<大廠數(shù)據(jù)產(chǎn)品面試題>
2、回“數(shù)據(jù)中臺(tái)”,獲取<大廠數(shù)據(jù)中臺(tái)資料>
3、回“商業(yè)分析”,獲取<大廠商業(yè)分析面試題>;
4、回“交個(gè)朋友”,進(jìn)交流群,認(rèn)識(shí)更多的數(shù)據(jù)小伙伴。
總結(jié)
以上是生活随笔為你收集整理的听乌森聊强化学习的那些事的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 排课软件
- 下一篇: 拳王虚拟项目公社:0基础小白副业年赚30