上海人工智能实验室牛雅哲:通用决策AI平台的开拓创新之路
牛雅哲,上海人工智能實(shí)驗(yàn)室OpenDILab開源決策智能平臺(tái)核心研發(fā)人員,主要負(fù)責(zé)平臺(tái)引擎DI-engine的設(shè)計(jì)和開發(fā),統(tǒng)籌研發(fā)一系列決策AI平臺(tái)底層效率優(yōu)化組件,并為相關(guān)大規(guī)模分布式強(qiáng)化學(xué)習(xí)應(yīng)用提供技術(shù)保障和支持,構(gòu)建決策智能技術(shù)和系統(tǒng)工程結(jié)合的完整工具鏈。
報(bào)告內(nèi)容:近些年來,決策AI技術(shù)接連突破人類對(duì)于通用人工智能的想象,但其在各種復(fù)雜環(huán)境和計(jì)算場(chǎng)景上的通用性問題仍是真正實(shí)現(xiàn)技術(shù)變革的巨大阻礙。多模態(tài),低信息密度的數(shù)據(jù)流,算法設(shè)計(jì)和實(shí)現(xiàn)邏輯高度耦合的計(jì)算模型,不斷動(dòng)態(tài)變化的問題場(chǎng)景,AI+System的協(xié)同優(yōu)化,都體現(xiàn)出了相關(guān)系統(tǒng)和平臺(tái)設(shè)計(jì)的復(fù)雜性。從零到一,設(shè)計(jì)構(gòu)建通用決策智能平臺(tái)OpenDILab,優(yōu)雅且高效地處理決策AI技術(shù)遇到的各種復(fù)雜性問題,為整個(gè)決策AI生態(tài)圈提供基礎(chǔ)技術(shù)支持。
?牛雅哲作《從零到一,堅(jiān)持做正確的事--通用決策AI平臺(tái)的開拓創(chuàng)新之路》報(bào)告分享
下方有文字版總結(jié)哦
決策AI三大難題
開場(chǎng)牛雅哲首先點(diǎn)明了報(bào)告主題,從具體如何克服決策AI問題通用性出發(fā),講述OpenDILab做平臺(tái)框架是如何思考和解決這些問題的。
目前決策AI三大難題:
一為環(huán)境多樣性,因?yàn)閷?shí)際應(yīng)用的時(shí)候,任務(wù)之間的環(huán)境和算法,包括參數(shù)都是非常割裂的,不同環(huán)境下的算法和優(yōu)化難度是差別非常大;
二為計(jì)算的復(fù)雜性,決策AI領(lǐng)域目前無法讓學(xué)術(shù)界和工業(yè)界有比較好的分工,因?yàn)橄馪PO、SAC、DQN等等,把它們抽象到同一個(gè)平臺(tái)上,做成像感知一樣變成有Head、Backbone的抽象非常難的,而且可能會(huì)用到上千GPU和上萬CPU;
三為計(jì)算尺度,強(qiáng)化學(xué)習(xí)計(jì)算流程比純Deep Learning感知要復(fù)雜非常多,它涉及到溝通包括環(huán)境的部分等等非常復(fù)雜的問題。這三個(gè)方面如果做到泛化處理對(duì)算法推廣和應(yīng)用會(huì)帶來非常大的幫助。
環(huán)境和數(shù)據(jù)多樣性問題
針對(duì)環(huán)境和數(shù)據(jù)的多樣性問題,牛雅哲從以下三個(gè)方面闡述OpenDILab的解決方案:
決策AI問題的輸入輸出空間,即觀察空間和動(dòng)作空間,擁有各種各樣的數(shù)據(jù)模態(tài),輸入上有圖像,語(yǔ)音,數(shù)據(jù),序列數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)等多種類型,輸出中有離散,連續(xù),混合動(dòng)作空間等等。OpenDILab對(duì)這一問題實(shí)現(xiàn)了相應(yīng)標(biāo)準(zhǔn)化定義,對(duì)各種模態(tài)的輸入輸出提供標(biāo)準(zhǔn)的特征工程處理和神經(jīng)網(wǎng)絡(luò)模塊定義,例如ResNet處理2D圖像數(shù)據(jù),LSTM/GRU處理時(shí)序建模相關(guān)問題,Transformer Encoder部分處理無序多智能體單位數(shù)據(jù),Autoregressive方法處理混合動(dòng)作空間。使用者可以直接使用這些標(biāo)準(zhǔn)化組件,或是自定義新的處理模塊,更多地將精力集中在RL優(yōu)化問題中。
對(duì)于大部分的決策AI問題,我們可以使用經(jīng)典的gym/dm格式環(huán)境定義,而一些特殊的算法,比如MCTS,HER,Go-Explore等,在實(shí)現(xiàn)時(shí)需要環(huán)境為算法提供更多的支持。OpenDILab在這個(gè)方面也進(jìn)行了專門的抽象和實(shí)現(xiàn),使得相應(yīng)類別的算法可以在多種環(huán)境中通用。
由于數(shù)據(jù)的復(fù)雜性,研究員們通常使用嵌套的python list/dict結(jié)構(gòu)來表示訓(xùn)練數(shù)據(jù),這樣的數(shù)據(jù)結(jié)構(gòu)給編程實(shí)現(xiàn)帶來了諸多不便,需要大量的循環(huán)遍歷和分支處理,同時(shí)整個(gè)執(zhí)行過程大部分又是串行的,一定程度上影響了整體運(yùn)行效率?;贠penDILab中的treevalue模塊,我們?cè)O(shè)計(jì)實(shí)現(xiàn)了針對(duì)PyTorch Tensor和numpy.array的TreeTensor和TreeNPArray,能夠復(fù)用絕大多數(shù)原生API,把結(jié)構(gòu)化數(shù)據(jù)像整齊的張量一樣使用,并提供相應(yīng)的并行加速接口。
?
并且OpenDILab在底層設(shè)計(jì)上設(shè)置了DI-engine模塊,致力于解決決策AI環(huán)境和算力標(biāo)準(zhǔn)化訓(xùn)練的問題,目前兼容絕大多數(shù)已有的學(xué)術(shù)環(huán)境和工業(yè)界數(shù)據(jù)模態(tài)。支持從學(xué)術(shù)級(jí)單CPU訓(xùn)練到跨區(qū)萬級(jí)別CPU/GPU的資源管理和調(diào)度。
算法通用性難題
針對(duì)算法通用性問題,牛雅哲從以下兩個(gè)方面闡述OpenDILab的解決方案:
由于強(qiáng)化學(xué)習(xí)的算法類別眾多,各種算法設(shè)計(jì)之間又多有互相依賴和借鑒,很難像CV,NLP一樣設(shè)計(jì)出通用的算法集合,因此OpenDILab將通用化的重心放在了相關(guān)基礎(chǔ)OP的設(shè)計(jì)實(shí)現(xiàn)上,比如實(shí)現(xiàn)通用的N-step TD/GAE/VTrace算子,重參數(shù)化輔助函數(shù)等。使用者可以像搭積木一樣快速利用這些算子定制自己的強(qiáng)化學(xué)習(xí)算法。
由于強(qiáng)化學(xué)習(xí)算法子領(lǐng)域非常繁雜,同類平臺(tái)主要都是提供最經(jīng)典的主流算法實(shí)現(xiàn),對(duì)于MARL/Imitation Learning/Exploration等分支涉及較少,而OpenDILab基于通用決策AI算子,整合了20+決策AI算法的相關(guān)實(shí)現(xiàn),涉及多個(gè)細(xì)分領(lǐng)域,并提供通用化的接口設(shè)計(jì),可以實(shí)現(xiàn)各類算法間的靈活組合。同時(shí),在經(jīng)典的學(xué)術(shù)環(huán)境上,對(duì)上述算法補(bǔ)充了詳盡的性能和效率結(jié)果benchmark,致力于為強(qiáng)化學(xué)習(xí)研究員和應(yīng)用工程師們提供最廣最全的算法平臺(tái)。
計(jì)算規(guī)模通用性問題
針對(duì)計(jì)算規(guī)模通用性問題,牛雅哲從以下兩個(gè)方面闡述OpenDILab的解決方案:
對(duì)于同一個(gè)強(qiáng)化學(xué)習(xí)算法,在個(gè)人電腦和服務(wù)器集群上運(yùn)行,常常會(huì)有較大的實(shí)現(xiàn)差異,需要定制分布式處理相關(guān)代碼。對(duì)于OpenDILab的使用者,大部分情況下只需將重心放在Env和Policy兩個(gè)最核心的文件中,自定義完成環(huán)境準(zhǔn)備和算法設(shè)計(jì),具體的分布式邏輯都由平臺(tái)層提供相應(yīng)的服務(wù)完成,用戶只需在配置文件中定義使用的計(jì)算資源和分布式邏輯選項(xiàng)即可。
不同的決策AI實(shí)際問題,由于環(huán)境和算法不同,對(duì)應(yīng)最佳的分布式效率解決方案也不同。很難存在一套通用的技術(shù)棧解決所有類型的問題,因此,在實(shí)際實(shí)現(xiàn)中,OpenDILab會(huì)根據(jù)具體的運(yùn)行狀態(tài)進(jìn)行自動(dòng)化profiling,并自動(dòng)選擇相應(yīng)的通信,存儲(chǔ),并行化方案。在DI-orchestrator, DI-hpc, DI-store等諸多底層效率優(yōu)化模塊的加持下,為使用者提供無痛的自動(dòng)化效率優(yōu)化體驗(yàn)。
掃碼即可了解更多開源信息~
總結(jié)
以上是生活随笔為你收集整理的上海人工智能实验室牛雅哲:通用决策AI平台的开拓创新之路的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 哈弗h62017款红标智尚型2.0车主信
- 下一篇: 小户型怎么存钱?