今晚直播 |现实环境中的强化学习如何解决?你不可错过的RL终极奥义
都說(shuō)強(qiáng)化學(xué)習(xí)很難,其實(shí)掌握了正確的學(xué)習(xí)方法,也會(huì)變得非常簡(jiǎn)單!
這次,所以我們榮幸的邀請(qǐng)到了百度連續(xù)兩屆獲得NeurIPS全球頂會(huì)賽事冠軍團(tuán)隊(duì),6月16日-6月23日,連續(xù)7天,20:30-21:30,以直播的形式,手把手帶大家從零實(shí)踐強(qiáng)化學(xué)習(xí)!
昨晚的直播課中,科科老師詳細(xì)的給大家解釋了Policy Gradient涉及的數(shù)學(xué)公式,帶大家去理解算法是如何一步步如何優(yōu)化目標(biāo)的。通過(guò)科科老師的耐心梳理,大家對(duì)強(qiáng)化學(xué)習(xí)一定有了更深刻的理解。
今晚精彩更多
之前的課程,我們討論的都是離散的動(dòng)作空間,而在實(shí)際問(wèn)題中,存在大量連續(xù)空間的問(wèn)題,比如價(jià)格、角度、時(shí)間等。想要枚舉所有的動(dòng)作變得更困難,而如何將所有可行的動(dòng)作逐一嘗試出來(lái)也變得不那么可能。如何解決呢?別著急,今天科科老師帶你一一擊破!
連續(xù)動(dòng)作空間上求解RL
1. 離散動(dòng)作與連續(xù)動(dòng)作
2. 詳解Deep Deterministic Policy Gradient
3. DDPG代碼解析
為了在連續(xù)動(dòng)作上更有效地學(xué)習(xí),DDPG也應(yīng)運(yùn)而生:
終極復(fù)現(xiàn)項(xiàng)目賽題發(fā)布
重點(diǎn)來(lái)了!今晚發(fā)布終極復(fù)現(xiàn)項(xiàng)目賽題,更有科科老師現(xiàn)場(chǎng)講解項(xiàng)目環(huán)境,點(diǎn)撥實(shí)現(xiàn)技巧,大家千萬(wàn)不要錯(cuò)過(guò)!搶先看:
實(shí)現(xiàn)難度(兩顆星):
實(shí)現(xiàn)難度(三顆星):
實(shí)現(xiàn)難度(五顆星):
更多賽題,今晚敬請(qǐng)期待~
直播時(shí)間
6月20日(今晚)20:30 - 21:30
講師介紹
百度高級(jí)研發(fā)工程師 科科老師
飛槳強(qiáng)化學(xué)習(xí)PARL團(tuán)隊(duì)核心成員,所在團(tuán)隊(duì)曾兩度奪得NeurIPS強(qiáng)化學(xué)習(xí)賽事世界冠軍,并獲得百度最高獎(jiǎng)等榮譽(yù)。
快來(lái)和世界冠軍大佬面對(duì)面交流吧~
點(diǎn)擊“閱讀原文”加入課程,獲取更多課程資料哦!
總結(jié)
以上是生活随笔為你收集整理的今晚直播 |现实环境中的强化学习如何解决?你不可错过的RL终极奥义的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【12月原创】RT-thread - 柿
- 下一篇: firewalld 指定IP访问某端口