下一个AI领域的高薪方向:强化学习与智能决策研究班2023年春季招生启事
?世界繁花盛開(kāi) 我們不必在同一個(gè)地方反復(fù)死磕?
強(qiáng)化學(xué)習(xí)是最近5年來(lái)人工智能最令人激動(dòng)的研究領(lǐng)域。如下圖Google的搜索指數(shù)可以看到,強(qiáng)化學(xué)習(xí)的搜索指數(shù)最近一些年明顯呈現(xiàn)增長(zhǎng)趨勢(shì),而NLP(自然語(yǔ)言處理)和CV(計(jì)算機(jī)視覺(jué))則相對(duì)呈現(xiàn)下降趨勢(shì)。
●?圖1. Google全球搜索指數(shù)顯示強(qiáng)化學(xué)習(xí)最近幾年增長(zhǎng)顯著,數(shù)據(jù)截至2022年12月25日
●?圖2. Google全球搜索指數(shù),AI主流領(lǐng)域趨勢(shì)對(duì)比,數(shù)據(jù)截至2022年12月25日(藍(lán)色為強(qiáng)化學(xué)習(xí),紅色為計(jì)算機(jī)視覺(jué),黃色為NLP)
從2016年開(kāi)始,AlphaGo走進(jìn)了我們的視野,展現(xiàn)了強(qiáng)化學(xué)習(xí)(Reinforcement Learning)的威力,隨后的日子里,AlphaStar在星際爭(zhēng)霸戰(zhàn)勝職業(yè)選手,AlphaFold解決蛋白質(zhì)合成,ChatGPT展現(xiàn)出的強(qiáng)大內(nèi)容合成能力,背后都離不開(kāi)強(qiáng)化學(xué)習(xí)。
●?圖3.?AlphaStar星際爭(zhēng)霸戰(zhàn)勝職業(yè)選手
●?圖4.?AlphaFold探索、解析蛋白質(zhì)結(jié)構(gòu)
而在求職領(lǐng)域,強(qiáng)化學(xué)習(xí)目前更是廣大公司急需的崗位,薪資更高,對(duì)于從業(yè)者的經(jīng)驗(yàn)要求也更友好。例如,相比CV領(lǐng)域或者NLP領(lǐng)域動(dòng)輒要求3年以上經(jīng)驗(yàn),由于強(qiáng)化學(xué)習(xí)是相對(duì)更新的領(lǐng)域,所以對(duì)于新入行的學(xué)習(xí)者接受度更高。
●?圖5.?強(qiáng)化學(xué)習(xí)目前需求量大,薪資相對(duì)更高,最主要是對(duì)新人更加接納(數(shù)據(jù)來(lái)自拉鉤求職,數(shù)據(jù)截至2022年12.25日)
有別于深度學(xué)習(xí),由于強(qiáng)化學(xué)習(xí)的研究領(lǐng)域非常廣泛,不同的派別使用的方法也非常不同,這就給大家造成了非常龐大的學(xué)習(xí)負(fù)擔(dān),為此,我們特推出《強(qiáng)化學(xué)習(xí)與智能決策—一種現(xiàn)代方法》研修班,目的就是幫助大家撥開(kāi)迷霧,讓大家高效的穿越RL的知識(shí)森林。
我們的學(xué)習(xí)線(xiàn)路會(huì)是目前最主流的基于Policy Gradient的Offline-Learning,這就給大家減少了非常多的學(xué)習(xí)負(fù)擔(dān),并且能夠更加專(zhuān)注。而且,我們?nèi)淌菫榱颂嵘蠹覍?shí)際案例的解決能力,代碼量大,非常務(wù)實(shí)。我們的目標(biāo)是為大家?guī)?lái)嚴(yán)肅、前沿而又務(wù)實(shí)的強(qiáng)化學(xué)習(xí)內(nèi)容!
●?自學(xué)強(qiáng)化學(xué)習(xí)往往面臨資料過(guò)于繁復(fù),無(wú)從下手,效率低下的問(wèn)題
研修班特點(diǎn)
Key Features
●?最具競(jìng)爭(zhēng)力的課程性?xún)r(jià)比,大幅度降低學(xué)習(xí)負(fù)擔(dān)
●?世界杯賽制,讓AI模型帶你出戰(zhàn)-冠亞季軍可獲得高額獎(jiǎng)學(xué)金
●?梳理知識(shí)脈絡(luò),在龐大而復(fù)雜的強(qiáng)化學(xué)習(xí)體系中,更快地掌握能力
●?前世界名企數(shù)據(jù)科學(xué)家在線(xiàn)原理推導(dǎo)與在線(xiàn)編程
●?高頻密集的在線(xiàn)問(wèn)答與代碼批閱讓能力掌握在實(shí)處
●?雙語(yǔ)教學(xué)助力學(xué)習(xí)者與前沿接軌
AI世界杯足球獎(jiǎng)金
Award for AI Word Cup
為了提高大家的學(xué)習(xí)熱情,我們將模擬世界杯賽制,在最終的結(jié)業(yè)項(xiàng)目中,每位同學(xué)的AI模型代表自己進(jìn)行比賽,我們將模擬世界杯賽程,選出32強(qiáng)并且一直打到冠亞季軍。
1 - 3名分別獲得如下獎(jiǎng)金:
●?冠軍:9800元
●?亞軍:6800元
●?季軍:4800元
●?該圖像為最終結(jié)業(yè)項(xiàng)目運(yùn)行實(shí)例 -多智能體強(qiáng)化學(xué)習(xí)足球競(jìng)賽
●?模擬世界杯賽制,AI帶你出戰(zhàn)
該研修班面向人群
Target Learners
●?希望掌握或者從事強(qiáng)化學(xué)習(xí)相關(guān)工作的程序員、算法工程師、研究生
●?希望解決與智能決策類(lèi)似相關(guān)問(wèn)題的研究員、工程師、量化研究員
●?希望申請(qǐng)?jiān)擃I(lǐng)域研究生、博士生的相關(guān)學(xué)習(xí)者
掃碼聯(lián)系高老師助理?
開(kāi)啟強(qiáng)化學(xué)習(xí)之旅
計(jì)劃時(shí)長(zhǎng)與上課方式
Timeline & Teaching
●?2023年1.14日-5.10日,為期20周,合計(jì)180課時(shí)
●?每周3課時(shí)直播研討課,6課時(shí)在線(xiàn)答疑課
●?研討課:基于騰訊會(huì)議,在線(xiàn)進(jìn)行原理推理,代碼原理展示
●?答疑課:主講老師基于騰訊會(huì)議+code with me協(xié)同代碼工具進(jìn)行遠(yuǎn)程調(diào)試
授課老師介紹
Mentor
高民權(quán),前IBM數(shù)據(jù)科學(xué)家。從事人工智能相關(guān)研究、企業(yè)落地多年。曾經(jīng)作為技術(shù)負(fù)責(zé)人參與落地多個(gè)大中華區(qū)人工智能產(chǎn)業(yè)項(xiàng)目。其落地項(xiàng)目與研究領(lǐng)域包括:人工智能理論原理,計(jì)算語(yǔ)言,自然語(yǔ)言處理,社會(huì)網(wǎng)絡(luò)計(jì)算,醫(yī)學(xué)識(shí)別,新能源智能預(yù)測(cè),硬件生產(chǎn)自動(dòng)化等多個(gè)方向。從2021年開(kāi)始重點(diǎn)從事強(qiáng)化學(xué)習(xí)相關(guān)研究工作,研究興趣多智能體強(qiáng)化學(xué)習(xí),表征學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合,強(qiáng)化學(xué)習(xí)的穩(wěn)定性與可解釋性。2022 NeurIPS強(qiáng)化學(xué)習(xí)方向?qū)徃迦恕?/p>
為期20周,每周時(shí)間安排
Agenda
●?周日至周五:每周6 - 12小時(shí)代碼項(xiàng)目練習(xí),課程組提供服務(wù)器及基礎(chǔ)環(huán)境
●?周二:12:00? – 13:30 基于騰訊會(huì)議的導(dǎo)師在線(xiàn)答疑和在線(xiàn)debug
●?周三:12:00? – 13:30 基于騰訊會(huì)議的導(dǎo)師在線(xiàn)答疑和在線(xiàn)debug
●?周四:12:00? – 13:30 基于騰訊會(huì)議的導(dǎo)師在線(xiàn)答疑和在線(xiàn)debug
●?周五:12:00? – 13:30 基于騰訊會(huì)議的導(dǎo)師在線(xiàn)答疑和在線(xiàn)debug
●?周六:09:30 – 12:40 在線(xiàn)理論+實(shí)操課程,為兩次1.5小時(shí)課程,中途休息10-15分鐘
課程詳細(xì)內(nèi)容
Syllabus
本課程以項(xiàng)目驅(qū)動(dòng),我們最終交給大家的能力是能夠高效運(yùn)行成功復(fù)雜案例的能力。我們主要會(huì)帶給大家4個(gè)項(xiàng)目加1個(gè)結(jié)業(yè)大項(xiàng)目。
●?項(xiàng)目I:基于蒙特卡洛方法的Mujoco機(jī)器人控制
●?該圖片與課程項(xiàng)目一致
*注:該課程授課語(yǔ)言為漢語(yǔ),但PPT,參考文章,資料,代碼及作業(yè)均為英文。
Week-1: First-Step on RL, Monte-Carlo Methods, Gym 環(huán)境介紹,智能出租車(chē)問(wèn)題解決?
Week-2: Markov Decision Process, The Reinforcement Learning Framework and Paradigm?
Week-3: Temporal-Difference Learning?
Week-4: RL in infinite Space, Discrete on Observation
此階段參考文獻(xiàn) | References,課程中會(huì)為大家講解論文關(guān)鍵原理:?
1. Richard S. Sutton and Andrew G. Barto, Reinforcement Learning – An Introduction, 2nd?
2. Greg Brockman et al., OpenAI Gym, 2016
●?項(xiàng)目II:基于DeepQLearning的通過(guò)復(fù)雜游戲AI
●?該圖片與課程項(xiàng)目一致
Week-5: Q-Learning and Q-Value Iteration?
Week-6: From Q-Learning to DeepQ-Learning, Q-NeuralNetwork?
Week-7: Experience Replay, Fixed-Target, DoubleQ-Learning, Dueling DeepQ-Learning?
Week-8: QLearning Practice on Game and Robotics
此階段參考文獻(xiàn) | References,課程中會(huì)為大家講解論文關(guān)鍵原理:?
1.?Volodymyr Mnih1 et al., Human-level control through deep reinforcement learning, 2015?
2.Hado van Hasselt el ai., Deep Reinforcement Learning with Double Q-learning, 2015?
3.Ziyu Wang et al., Dueling Network Architectures for Deep Reinforcement Learning, 2016
●?項(xiàng)目III&IV:基于PolicyGradient的高頻交易模型或高維度復(fù)雜機(jī)器人控制
●?該圖片與課程項(xiàng)目一致
*注:該課程授課語(yǔ)言為漢語(yǔ),但PPT,參考文章,資料,代碼及作業(yè)均為英文。
Week-9: Policy Gradient, Implementation PG on PyTorch?
Week-10: Proximal Policy Optimization(PPO), Trust Region Policy Optimization (TRPO)?
Week-11: Actor-Critic Methods, GAE?
Week-12: Continuous Controlling, Robotics Controlling?
Week-13: Utility ML-Engine
此階段參考文獻(xiàn) | References,課程中會(huì)為大家講解論文關(guān)鍵原理:?
1.?Richard S. Sutton, et al., Policy Gradient Methods for Reinforcement Learning with Function Approximation?
2. Sham Kakade, A Natural Policy Gradient?
3. Volodymyr Mnih, et al., Asynchronous Methods for Deep Reinforcement Learning, 2016?
4. John Schulman et al., Trust Region Policy Optimization, 2017?
5. John Schulman et al., Proximal Policy Optimization Algorithms, 2017?
6. John Schulman et al., HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION, 2018?
7.Tuomas Haarnoja et al., Soft Actor-Critic Algorithms and Applications 2019?
8.Timothy P. Lillicrap et al., CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING, 2019
●?結(jié)業(yè)項(xiàng)目:GoogleFootballPlayer足球多智能體競(jìng)賽
●?該圖片與課程項(xiàng)目一致
*注:該課程授課語(yǔ)言為漢語(yǔ),但PPT,參考文章,資料,代碼及作業(yè)均為英文。
Week-14: GoogleFootball Player環(huán)境的配置,接口與案例分析?
Week-15:? The Lesson from AlphaGo and AlphaZero, Self-Play Learning?
Week-16:? Multi-Agent Learning, Markov Games, Cooperation, Competitive?
Week-17: 迷你版AlphaZero小項(xiàng)目實(shí)戰(zhàn)?
Week-18: Central Training Decentric Execution, HAPPO, HATRPO?
Week-19: 模型設(shè)計(jì),調(diào)試,性能評(píng)估?
Week-20: 賽區(qū)劃分,32強(qiáng)選拔賽,32進(jìn)16,16進(jìn)8,8進(jìn)4選拔賽?
Week-21: 4強(qiáng)冠亞季軍排名,頒獎(jiǎng)儀式
此階段參考文獻(xiàn) | References,課程中會(huì)為大家講解論文關(guān)鍵原理:?
1.?David Silver, Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, 2017?
2. Karol Kurach et al., Google Research Football: A Novel Reinforcement Learning Environment, 2019?
3. Jakub Grudzien Kuba et al., Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning?
4. Muning Wen et al., Multi-Agent Reinforcement Learning is a Sequence Modeling Problem, 2022
5次前沿研討課
Advanced Topics
1. 大型預(yù)訓(xùn)練模型在RL中的應(yīng)用,DecisionTransformer
研討內(nèi)容:Transformer在自然語(yǔ)言,計(jì)算機(jī)視覺(jué)等領(lǐng)域都取得了顯著的影響。最近,研究者們嘗試將Transformer等預(yù)訓(xùn)練模型機(jī)制融入到強(qiáng)化學(xué)習(xí)問(wèn)題中,該研討課程我們將為大家?guī)?lái)DecisionTransformer以及其他大規(guī)模訓(xùn)練模型在強(qiáng)化學(xué)習(xí)中的進(jìn)展。
2. ChatGPT與HumanFeedback Refinforcement Learning
研討內(nèi)容:ChatGPT在2022年產(chǎn)生了巨大的影響,成為了人類(lèi)有史以來(lái)100萬(wàn)注冊(cè)用戶(hù)最快的網(wǎng)絡(luò)應(yīng)用。ChatGPT的背后,不僅僅使用了大規(guī)模預(yù)訓(xùn)練模型,其HumanFeedback Reinforcement Learning機(jī)制同樣產(chǎn)生了非常大的作用,并且給我們提供了一個(gè)創(chuàng)作型AI的良好范例,此次研討課程我們將為大家?guī)?lái)ChatGPT與其背后的原理和機(jī)制。
3. Imitation Learning與機(jī)器人控制
研討內(nèi)容:機(jī)器人在真實(shí)環(huán)境下是無(wú)法像在虛擬環(huán)境中產(chǎn)生巨量的觀察數(shù)據(jù)的,那么如何能夠讓真實(shí)的機(jī)器人快速學(xué)習(xí)復(fù)雜任務(wù)?Imitation Learning(模仿學(xué)習(xí))是現(xiàn)在研究者們非常關(guān)注的領(lǐng)域,通過(guò)像人類(lèi)學(xué)習(xí)一些特定的初試知識(shí),通過(guò)知識(shí)的遷移和泛化,能夠讓機(jī)器人在復(fù)雜任務(wù)學(xué)習(xí)中更快的學(xué)習(xí)。此次研討課程我們將會(huì)為大家?guī)?lái)Imitation Learning 的機(jī)制和最近進(jìn)展。?
4. Explainable and Trustable Reinforcement Learning
研討內(nèi)容:由于強(qiáng)化學(xué)習(xí)是用來(lái)解決決策問(wèn)題(decision-making),所以,如果該問(wèn)題屬于比較重要,例如機(jī)器人、生產(chǎn)制造、金融投資等,若此時(shí)出現(xiàn)錯(cuò)誤,基于目前的深度強(qiáng)化學(xué)習(xí)方法,我們是無(wú)法對(duì)其找到合理的原因,并且比較難避免再次發(fā)生相似問(wèn)題。研究者們目前正在著手研究如何讓強(qiáng)化學(xué)習(xí)模型更加可信賴(lài),更加可解釋,講起用于更加嚴(yán)肅、嚴(yán)苛和重要的場(chǎng)景。本次研討會(huì)我們將會(huì)為大家?guī)?lái)Explainable & Trustable RL的最新進(jìn)展。?
5. ICLR 2023及2023春強(qiáng)化學(xué)習(xí)進(jìn)展選講
研討內(nèi)容:我們將會(huì)以2023年ICLR論文公布為契機(jī),為大家?guī)?lái)從2022年中旬到2023年春季這將近一年時(shí)間強(qiáng)化學(xué)習(xí)方面的最新進(jìn)展。
學(xué)費(fèi)
Tuition
●?班型1:RL在線(xiàn)研討班
6000 RMB 或 850$
包含:
-
20周直播課程
20周直播在線(xiàn)答疑+debug
全部代碼、課件、錄播資料、參考資料權(quán)限
●?班型2:RL綜合指導(dǎo)班
8000 RMB 或者 1100$
包含:
-
20周直播課程
20周直播在線(xiàn)答疑+debug
全部代碼、課件、錄播資料、參考資料權(quán)限
在線(xiàn)服務(wù)器
代碼批閱
5次前沿研討課程
注:往期學(xué)員可憑借往期學(xué)習(xí)記錄減免1200元學(xué)費(fèi),老學(xué)員優(yōu)惠后價(jià)格分別為4800元與6800元。
不滿(mǎn)意退款保障權(quán)益
Insurance
●?1.15日-1.25日:發(fā)起退款后,3天內(nèi)退還100%學(xué)費(fèi)
●?1.25日- 2.02日:發(fā)起退款后,3天內(nèi)退還75%學(xué)費(fèi)
●?2.03日-2.10日:發(fā)起退款后,3天內(nèi)退還50%學(xué)費(fèi)
●?2.10日-2.17日:發(fā)起退款后,3天內(nèi)退還25%學(xué)費(fèi)
●?超過(guò)2.17日,退費(fèi)期結(jié)束
學(xué)習(xí)背景要求
Requirements
此課程為高階課程,所以我們對(duì)學(xué)習(xí)者較高要求,具體為:
1. 本科畢業(yè)2年以上工作經(jīng)歷或研究生學(xué)歷;
2. 面臨工作需求的在校研究生;
3. 計(jì)算機(jī)、軟件工程、數(shù)學(xué)、物理、金融、生物等相關(guān)專(zhuān)業(yè);
4. 能夠使用Python解決常見(jiàn)問(wèn)題;
5. 入學(xué)測(cè)試題正確率需高于70%(因課程內(nèi)容前沿知識(shí)較多,入學(xué)測(cè)試為全英文)。
入學(xué)流程
Procedure
●?第一步:掃描下方二維碼,添加研討班小助理?
●?第二步:通過(guò)騰訊問(wèn)卷進(jìn)行入學(xué)測(cè)試、信息填寫(xiě)
●?第三步:通過(guò)入學(xué)測(cè)試后,課程組向同學(xué)發(fā)送此次課程協(xié)議、具體學(xué)生權(quán)益以及付款方式
●?第四步:付費(fèi)成功
●?第五步:添加導(dǎo)師聯(lián)系方式,并且加入學(xué)習(xí)組
●?第六步:配置學(xué)習(xí)環(huán)境
●?第七步:正式開(kāi)始上課
掃碼聯(lián)系高老師助理?
開(kāi)啟強(qiáng)化學(xué)習(xí)之旅
這個(gè)世界繁花盛開(kāi),我們沒(méi)有必要在同一個(gè)地方反復(fù)死磕。
朝著更新的方向邁進(jìn),那里充滿(mǎn)更多機(jī)遇。
希望我們能再次相遇,開(kāi)啟新的明天。
更多問(wèn)題
Connect & QA
若對(duì)課程有其他問(wèn)題,請(qǐng)聯(lián)系課程組。
郵箱:reinforcement.learning.camp@gmail.com
總結(jié)
以上是生活随笔為你收集整理的下一个AI领域的高薪方向:强化学习与智能决策研究班2023年春季招生启事的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: HDOJ 6078-Wavel Sequ
- 下一篇: 生物信息学linux安装,构建生物信息学