撑起百万亿参数模型想象力!英伟达发布新一代SuperPOD超算,AI算力新巅峰!
周一,黃教主又很淡定的在自家廚房里開(kāi)完了GTC發(fā)布會(huì)。
眾所周知,NLP領(lǐng)域的模型一個(gè)比一個(gè)大,自從百億參數(shù)的Google T5出來(lái)后,大部分AI研究者只能望著手里的蹩腳算力興嘆。如今動(dòng)輒就是千億、萬(wàn)億參數(shù)模型,目前比較流行的V100主機(jī)顯然已經(jīng)無(wú)法滿(mǎn)足需求。而本周剛落幕的GTC發(fā)布會(huì),則為如今的萬(wàn)億模型想象力的時(shí)代提供了一份極其重要的保障,不僅使得造萬(wàn)億模型都成為了可能,甚至打開(kāi)了通往十萬(wàn)億乃至更大想象力算力密集型AI模型之路的潘多拉魔盒。 這其中的關(guān)鍵,就是在本屆GTC大會(huì)上全新升級(jí)的 DGX SuperPOD?。
為AI而生的超算
首先用一張圖來(lái)類(lèi)比DGX SuperPOD、DGX A100以及A100計(jì)算卡之間的關(guān)系:
DGX SuperPOD是專(zhuān)門(mén)為AI量身定制的大規(guī)模、安全、可擴(kuò)展的超級(jí)計(jì)算機(jī),不僅在整個(gè)企業(yè)范圍內(nèi)保護(hù)和擴(kuò)展AI算力,并且還提供相關(guān)的配套軟件來(lái)完成集群操作,幫助企業(yè)開(kāi)發(fā)者更好的調(diào)度和管理算力。
如今人工智能已經(jīng)幾乎滲透到現(xiàn)代商業(yè)的方方面面,相應(yīng)的,模型訓(xùn)練對(duì)算力的渴求也以持續(xù)呈指數(shù)級(jí)增長(zhǎng),并且遠(yuǎn)遠(yuǎn)未到邊界。尤其是在自然語(yǔ)言處理、推薦系統(tǒng)和生物計(jì)算等AI核心業(yè)務(wù)應(yīng)用上,動(dòng)輒千億、甚至萬(wàn)億級(jí)別參數(shù)量的模型已經(jīng)成為了當(dāng)下的熱門(mén)研究方向。
另一方面,隨著AI對(duì)全領(lǐng)域的滲透,互聯(lián)網(wǎng)公司也在謀求一種更加安全、便捷、大規(guī)模、可擴(kuò)展、數(shù)據(jù)可隔離的集群式解決方案,從而為全公司的諸多業(yè)務(wù)和研究團(tuán)隊(duì)提供服務(wù),以支持不斷變化的項(xiàng)目需求和算力需求。
而DGX SuperPOD恰到好處的滿(mǎn)足了這份想象力。
2019年,英偉達(dá)基于多臺(tái)DGX系統(tǒng)構(gòu)建了第一代SuperPOD 系統(tǒng),該超算以遠(yuǎn)低于一般超算的成本和能耗躋身性能世界前20之列。
2020年,NVIDIA揭開(kāi)了第二代SuperPOD的帷幕。該產(chǎn)品不但具有創(chuàng)紀(jì)錄的性能,而且能夠在短短三周內(nèi)完成部署。它的出現(xiàn)使得構(gòu)建世界一流AI超級(jí)計(jì)算集群所需的時(shí)間不再需要花費(fèi)漫長(zhǎng)的數(shù)個(gè)月。第二代SuperPOD基于DGX A100系統(tǒng)和Mellanox網(wǎng)絡(luò)架構(gòu)構(gòu)建,其證明了可以憑借單個(gè)平臺(tái)將全球最復(fù)雜語(yǔ)言理解模型的處理時(shí)間從數(shù)周縮短至一個(gè)小時(shí)之內(nèi)。
而在本屆GTC大會(huì)上,我們看到DGX SuperPOD又迎來(lái)了一波全面的升級(jí)。此外,新一代SuperPOD極大的解放了部署效率,大幅降低了AI算力集群的購(gòu)置成本,并且具備算力線性擴(kuò)展能力和完備的技術(shù)支持,使得這份AI巔峰算力具備切實(shí)的企業(yè)內(nèi)落地能力。
算力巔峰,成本可期,撐起百萬(wàn)億參數(shù)模型
相比上一代SuperPOD系統(tǒng),本次新發(fā)布的SuperPOD配備了目前最先進(jìn)的80GB顯存的加強(qiáng)版A100,為SuperPOD帶來(lái)最高可達(dá) 90TB 的HBM2顯存,以及高達(dá)2.2EB/s的總帶寬!
這是什么概念呢?
以上圖NLP發(fā)展軌跡為例,自2018年ELMo誕生之日起,NLP預(yù)訓(xùn)練語(yǔ)言模型的參數(shù)量就迎來(lái)了持續(xù)的指數(shù)爆炸級(jí)增長(zhǎng),如今語(yǔ)言模型參數(shù)量已經(jīng)從三年前的不足1億,爆炸式增長(zhǎng)至1750億。可以預(yù)見(jiàn)的是,按照這份增長(zhǎng)速度,到2023年時(shí),語(yǔ)言模型達(dá)到 100萬(wàn)億 的參數(shù)量規(guī)模都是值得想象的。而SuperPOD高達(dá)90TB的HBM2顯存容量,甚至可以撐起這份百萬(wàn)億模型參數(shù)的想象力!
而在帶寬方面,要知道,在傳統(tǒng)的高性能計(jì)算解決方案中,若實(shí)現(xiàn)2.2EB/s的總帶寬,需要多達(dá)11,000臺(tái)CPU服務(wù)器,大約相當(dāng)于有250個(gè)機(jī)柜的數(shù)據(jù)中心,比SuperPOD整整多了15倍!這意味著我們的數(shù)據(jù)中心僅需要很少的物理空間,就能裝得下這份頂級(jí)算力。
這個(gè)代表如今AI算力巔峰的超算在價(jià)格上卻離我們并不遙遠(yuǎn),DGX SuperPOD的報(bào)價(jià)自 700萬(wàn)美元 起,并且6000萬(wàn)美元即可擴(kuò)展至完整版的系統(tǒng),實(shí)現(xiàn)高達(dá) 700 PetaFLOPs 的恐怖算力。
BlueField-2 DPU
值得注意的是,借助NVIDIA BlueField-2,新發(fā)布的SuperPOD成為了世界上首臺(tái)云原生超級(jí)計(jì)算機(jī),支持多租戶(hù)共享,具備完全的數(shù)據(jù)隔離和裸機(jī)性能。
云原生超級(jí)計(jì)算(Cloud-Native Supercomputing)是下一代超級(jí)計(jì)算的重要組成部分。云原生超級(jí)計(jì)算機(jī)將高性能計(jì)算與云計(jì)算服務(wù)的安全性和易用性相結(jié)合,換句話說(shuō),云原生超級(jí)計(jì)算為HPC云提供了一個(gè)與TOP500超級(jí)計(jì)算機(jī)一樣強(qiáng)大的系統(tǒng),多個(gè)用戶(hù)可以安全地共享該系統(tǒng),而不會(huì)犧牲其應(yīng)用程序的性能。
NVIDIA以其最新的DGX SuperPOD形式向全球用戶(hù)提供云原生超級(jí)計(jì)算機(jī),其中就包括現(xiàn)已投入生產(chǎn)的NVIDIA BlueField-2數(shù)據(jù)處理單元DPU(Data Processing Unit)。
越來(lái)越多的企業(yè)需要將高性能AI計(jì)算推進(jìn)到實(shí)操模式,在這種模式下,許多開(kāi)發(fā)人員可以確保他們的工作像在云中一樣安全且隔離。
NVIDIA BlueField-2 DPU 是針對(duì)企業(yè)級(jí)部署和支撐200 Gbps網(wǎng)絡(luò)連接進(jìn)行研發(fā)優(yōu)化的計(jì)算模塊。不僅企業(yè)獲得了加速的,完全可編程的網(wǎng)絡(luò),同時(shí)該網(wǎng)絡(luò)實(shí)現(xiàn)了零信任安全性以防止數(shù)據(jù)泄露,完美地隔離用戶(hù)和數(shù)據(jù),擁有和裸機(jī)同樣的性能表現(xiàn)。
現(xiàn)在,每個(gè)DGX SuperPOD都具有此功能,在其中的每個(gè)DGX A100節(jié)點(diǎn)中集成了兩個(gè)NVIDIA BlueField-2 DPU。IT管理員可以使用NVIDIA BlueField DPU的卸載,加速和隔離功能為共享的AI基礎(chǔ)架構(gòu)實(shí)施安全的多租戶(hù),而不會(huì)影響DGX SuperPOD的AI性能。
Base Command
Base Command Manager是為DGX SuperPOD配備的專(zhuān)用管理軟件,負(fù)責(zé)協(xié)調(diào) DGX SuperPOD 基礎(chǔ)架構(gòu)上的 AI 模型訓(xùn)練和相關(guān)操作,讓世界各地的開(kāi)發(fā)團(tuán)隊(duì)能夠順利開(kāi)展工作。值得一提的是,Base Command也是英偉達(dá)內(nèi)部使用的DGX管理和操作工具,其可以讓多個(gè)用戶(hù)和 IT 團(tuán)隊(duì)安全地訪問(wèn)、共享和操作 DGX SuperPOD 基礎(chǔ)架構(gòu)。
目前,英偉達(dá)正在使用Base Command為數(shù)千名工程師和200多個(gè)團(tuán)隊(duì)提供支持,每周使用超過(guò)100萬(wàn)個(gè)GPU小時(shí)。
Base Command Manager由用于大規(guī)模、多用戶(hù)和多團(tuán)隊(duì)AI開(kāi)發(fā)工作流的NVIDIA基本命令平臺(tái)和用于集群管理的NVIDIA基本命令管理器組成。其中,基本命令平臺(tái)提供了一個(gè)圖形用戶(hù)界面,其中包括一系列常用的工具,如Jupyter Notebook,以及完整的命令行API。團(tuán)隊(duì)leader也可以通過(guò)它設(shè)置項(xiàng)目?jī)?yōu)先級(jí),評(píng)估、預(yù)測(cè)算力需求。
用戶(hù)通過(guò)命令平臺(tái)可以非常方便的管理自己的訓(xùn)練任務(wù)、計(jì)算環(huán)境、數(shù)據(jù)集和工作空間等,以及配置任務(wù)需要的計(jì)算量(GPU節(jié)點(diǎn)數(shù))等。如下圖所示,圖形化界面非常直觀友好。
此外,在基本命令平臺(tái)上,我們可以非常清晰的看到所提交任務(wù)的運(yùn)行時(shí)長(zhǎng)、GPU利用率甚至更深層次的Tensor Core活躍度、顯存活躍度、通信負(fù)載等實(shí)時(shí)參數(shù)變化,幫助我們深入的監(jiān)控、監(jiān)測(cè)和調(diào)試模型訓(xùn)練。如下圖所示。
小時(shí)級(jí)超算部署效率
在傳統(tǒng)的搭建流程中,一項(xiàng)關(guān)鍵性的工作就是要預(yù)先規(guī)劃好你需要將你的基礎(chǔ)設(shè)施擴(kuò)展到多大的規(guī)模,然后開(kāi)始構(gòu)建網(wǎng)絡(luò)架構(gòu),直至達(dá)到最終目標(biāo)。雖然這種方法能夠?qū)崿F(xiàn)增長(zhǎng),但會(huì)產(chǎn)生大量前期成本。搭建一個(gè)傳統(tǒng)的數(shù)據(jù)中心,不僅需要一個(gè)大型的專(zhuān)業(yè)技術(shù)團(tuán)隊(duì),而且往往要耗費(fèi)數(shù)個(gè)月才能完成,時(shí)間、空間和金錢(qián)成本高昂。
而新一代DGX SuperPOD不僅有著恐怖的計(jì)算性能,而且部署效率方面也有了極大的提升。實(shí)際證明,4名由英偉達(dá)專(zhuān)業(yè)調(diào)配的操作人員僅需不到1個(gè)小時(shí),就能組裝起一套由20臺(tái)系統(tǒng)組成的DGX A100集群,并且憑借Mellanox的交換功能可以輕松地將多個(gè)系統(tǒng)互連在一起,以至最終達(dá)到SuperPOD的規(guī)模。此外,如前文所述,同等帶寬下,新一代SuperPOD相比傳統(tǒng)CPU集群更是可以節(jié)約高達(dá)15倍的數(shù)據(jù)中心物理空間。
憑借這種新的拓展方式,不僅超算的部署效率和成本控制有了極大的改善和保障,企業(yè)機(jī)構(gòu)還可以實(shí)現(xiàn)近乎線性的算力擴(kuò)展,而且每次增加這一個(gè)這種由20臺(tái)DGX系統(tǒng)構(gòu)成的SuperPOD模塊時(shí)所產(chǎn)生的支出也將變得更少。
最后,貼一張GTC大會(huì)后的英偉達(dá)股價(jià)走勢(shì)圖
尋求報(bào)道、約稿、文案投放:
添加微信xixiaoyao-1,備注“商務(wù)合作”
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣(mài)萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的撑起百万亿参数模型想象力!英伟达发布新一代SuperPOD超算,AI算力新巅峰!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 敬你一杯调参人生
- 下一篇: 一句话超短摘要,速览752篇EMNLP论