當(dāng)前位置：首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

撑起百万亿参数模型想象力！英伟达发布新一代SuperPOD超算，AI算力新巅峰！

發(fā)布時(shí)間：2024/7/5 ChatGpt 45 豆豆

生活随笔收集整理的這篇文章主要介紹了撑起百万亿参数模型想象力！英伟达发布新一代SuperPOD超算，AI算力新巅峰！小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

周一，黃教主又很淡定的在自家廚房里開(kāi)完了GTC發(fā)布會(huì)。

眾所周知，NLP領(lǐng)域的模型一個(gè)比一個(gè)大，自從百億參數(shù)的Google T5出來(lái)后，大部分AI研究者只能望著手里的蹩腳算力興嘆。如今動(dòng)輒就是千億、萬(wàn)億參數(shù)模型，目前比較流行的V100主機(jī)顯然已經(jīng)無(wú)法滿(mǎn)足需求。而本周剛落幕的GTC發(fā)布會(huì)，則為如今的萬(wàn)億模型想象力的時(shí)代提供了一份極其重要的保障，不僅使得造萬(wàn)億模型都成為了可能，甚至打開(kāi)了通往十萬(wàn)億乃至更大想象力算力密集型AI模型之路的潘多拉魔盒。 這其中的關(guān)鍵，就是在本屆GTC大會(huì)上全新升級(jí)的 DGX SuperPOD?。

為AI而生的超算

首先用一張圖來(lái)類(lèi)比DGX SuperPOD、DGX A100以及A100計(jì)算卡之間的關(guān)系：

DGX SuperPOD是專(zhuān)門(mén)為AI量身定制的大規(guī)模、安全、可擴(kuò)展的超級(jí)計(jì)算機(jī)，不僅在整個(gè)企業(yè)范圍內(nèi)保護(hù)和擴(kuò)展AI算力，并且還提供相關(guān)的配套軟件來(lái)完成集群操作，幫助企業(yè)開(kāi)發(fā)者更好的調(diào)度和管理算力。

如今人工智能已經(jīng)幾乎滲透到現(xiàn)代商業(yè)的方方面面，相應(yīng)的，模型訓(xùn)練對(duì)算力的渴求也以持續(xù)呈指數(shù)級(jí)增長(zhǎng)，并且遠(yuǎn)遠(yuǎn)未到邊界。尤其是在自然語(yǔ)言處理、推薦系統(tǒng)和生物計(jì)算等AI核心業(yè)務(wù)應(yīng)用上，動(dòng)輒千億、甚至萬(wàn)億級(jí)別參數(shù)量的模型已經(jīng)成為了當(dāng)下的熱門(mén)研究方向。

另一方面，隨著AI對(duì)全領(lǐng)域的滲透，互聯(lián)網(wǎng)公司也在謀求一種更加安全、便捷、大規(guī)模、可擴(kuò)展、數(shù)據(jù)可隔離的集群式解決方案，從而為全公司的諸多業(yè)務(wù)和研究團(tuán)隊(duì)提供服務(wù)，以支持不斷變化的項(xiàng)目需求和算力需求。

而DGX SuperPOD恰到好處的滿(mǎn)足了這份想象力。

2019年，英偉達(dá)基于多臺(tái)DGX系統(tǒng)構(gòu)建了第一代SuperPOD 系統(tǒng)，該超算以遠(yuǎn)低于一般超算的成本和能耗躋身性能世界前20之列。

2020年，NVIDIA揭開(kāi)了第二代SuperPOD的帷幕。該產(chǎn)品不但具有創(chuàng)紀(jì)錄的性能，而且能夠在短短三周內(nèi)完成部署。它的出現(xiàn)使得構(gòu)建世界一流AI超級(jí)計(jì)算集群所需的時(shí)間不再需要花費(fèi)漫長(zhǎng)的數(shù)個(gè)月。第二代SuperPOD基于DGX A100系統(tǒng)和Mellanox網(wǎng)絡(luò)架構(gòu)構(gòu)建，其證明了可以憑借單個(gè)平臺(tái)將全球最復(fù)雜語(yǔ)言理解模型的處理時(shí)間從數(shù)周縮短至一個(gè)小時(shí)之內(nèi)。

而在本屆GTC大會(huì)上，我們看到DGX SuperPOD又迎來(lái)了一波全面的升級(jí)。此外，新一代SuperPOD極大的解放了部署效率，大幅降低了AI算力集群的購(gòu)置成本，并且具備算力線性擴(kuò)展能力和完備的技術(shù)支持，使得這份AI巔峰算力具備切實(shí)的企業(yè)內(nèi)落地能力。

算力巔峰，成本可期，撐起百萬(wàn)億參數(shù)模型

相比上一代SuperPOD系統(tǒng)，本次新發(fā)布的SuperPOD配備了目前最先進(jìn)的80GB顯存的加強(qiáng)版A100，為SuperPOD帶來(lái)最高可達(dá) 90TB 的HBM2顯存，以及高達(dá)2.2EB/s的總帶寬！

這是什么概念呢？

以上圖NLP發(fā)展軌跡為例，自2018年ELMo誕生之日起，NLP預(yù)訓(xùn)練語(yǔ)言模型的參數(shù)量就迎來(lái)了持續(xù)的指數(shù)爆炸級(jí)增長(zhǎng)，如今語(yǔ)言模型參數(shù)量已經(jīng)從三年前的不足1億，爆炸式增長(zhǎng)至1750億。可以預(yù)見(jiàn)的是，按照這份增長(zhǎng)速度，到2023年時(shí)，語(yǔ)言模型達(dá)到 100萬(wàn)億 的參數(shù)量規(guī)模都是值得想象的。而SuperPOD高達(dá)90TB的HBM2顯存容量，甚至可以撐起這份百萬(wàn)億模型參數(shù)的想象力！

而在帶寬方面，要知道，在傳統(tǒng)的高性能計(jì)算解決方案中，若實(shí)現(xiàn)2.2EB/s的總帶寬，需要多達(dá)11,000臺(tái)CPU服務(wù)器，大約相當(dāng)于有250個(gè)機(jī)柜的數(shù)據(jù)中心，比SuperPOD整整多了15倍！這意味著我們的數(shù)據(jù)中心僅需要很少的物理空間，就能裝得下這份頂級(jí)算力。

這個(gè)代表如今AI算力巔峰的超算在價(jià)格上卻離我們并不遙遠(yuǎn)，DGX SuperPOD的報(bào)價(jià)自 700萬(wàn)美元 起，并且6000萬(wàn)美元即可擴(kuò)展至完整版的系統(tǒng)，實(shí)現(xiàn)高達(dá) 700 PetaFLOPs 的恐怖算力。

BlueField-2 DPU

值得注意的是，借助NVIDIA BlueField-2，新發(fā)布的SuperPOD成為了世界上首臺(tái)云原生超級(jí)計(jì)算機(jī)，支持多租戶(hù)共享，具備完全的數(shù)據(jù)隔離和裸機(jī)性能。

云原生超級(jí)計(jì)算（Cloud-Native Supercomputing）是下一代超級(jí)計(jì)算的重要組成部分。云原生超級(jí)計(jì)算機(jī)將高性能計(jì)算與云計(jì)算服務(wù)的安全性和易用性相結(jié)合，換句話說(shuō)，云原生超級(jí)計(jì)算為HPC云提供了一個(gè)與TOP500超級(jí)計(jì)算機(jī)一樣強(qiáng)大的系統(tǒng)，多個(gè)用戶(hù)可以安全地共享該系統(tǒng)，而不會(huì)犧牲其應(yīng)用程序的性能。

NVIDIA以其最新的DGX SuperPOD形式向全球用戶(hù)提供云原生超級(jí)計(jì)算機(jī)，其中就包括現(xiàn)已投入生產(chǎn)的NVIDIA BlueField-2數(shù)據(jù)處理單元DPU（Data Processing Unit）。

越來(lái)越多的企業(yè)需要將高性能AI計(jì)算推進(jìn)到實(shí)操模式，在這種模式下，許多開(kāi)發(fā)人員可以確保他們的工作像在云中一樣安全且隔離。

NVIDIA BlueField-2 DPU 是針對(duì)企業(yè)級(jí)部署和支撐200 Gbps網(wǎng)絡(luò)連接進(jìn)行研發(fā)優(yōu)化的計(jì)算模塊。不僅企業(yè)獲得了加速的，完全可編程的網(wǎng)絡(luò)，同時(shí)該網(wǎng)絡(luò)實(shí)現(xiàn)了零信任安全性以防止數(shù)據(jù)泄露，完美地隔離用戶(hù)和數(shù)據(jù)，擁有和裸機(jī)同樣的性能表現(xiàn)。

現(xiàn)在，每個(gè)DGX SuperPOD都具有此功能，在其中的每個(gè)DGX A100節(jié)點(diǎn)中集成了兩個(gè)NVIDIA BlueField-2 DPU。IT管理員可以使用NVIDIA BlueField DPU的卸載，加速和隔離功能為共享的AI基礎(chǔ)架構(gòu)實(shí)施安全的多租戶(hù)，而不會(huì)影響DGX SuperPOD的AI性能。

Base Command

Base Command Manager是為DGX SuperPOD配備的專(zhuān)用管理軟件，負(fù)責(zé)協(xié)調(diào) DGX SuperPOD 基礎(chǔ)架構(gòu)上的 AI 模型訓(xùn)練和相關(guān)操作，讓世界各地的開(kāi)發(fā)團(tuán)隊(duì)能夠順利開(kāi)展工作。值得一提的是，Base Command也是英偉達(dá)內(nèi)部使用的DGX管理和操作工具，其可以讓多個(gè)用戶(hù)和 IT 團(tuán)隊(duì)安全地訪問(wèn)、共享和操作 DGX SuperPOD 基礎(chǔ)架構(gòu)。

目前，英偉達(dá)正在使用Base Command為數(shù)千名工程師和200多個(gè)團(tuán)隊(duì)提供支持，每周使用超過(guò)100萬(wàn)個(gè)GPU小時(shí)。

Base Command Manager由用于大規(guī)模、多用戶(hù)和多團(tuán)隊(duì)AI開(kāi)發(fā)工作流的NVIDIA基本命令平臺(tái)和用于集群管理的NVIDIA基本命令管理器組成。其中，基本命令平臺(tái)提供了一個(gè)圖形用戶(hù)界面，其中包括一系列常用的工具，如Jupyter Notebook，以及完整的命令行API。團(tuán)隊(duì)leader也可以通過(guò)它設(shè)置項(xiàng)目?jī)?yōu)先級(jí)，評(píng)估、預(yù)測(cè)算力需求。

用戶(hù)通過(guò)命令平臺(tái)可以非常方便的管理自己的訓(xùn)練任務(wù)、計(jì)算環(huán)境、數(shù)據(jù)集和工作空間等，以及配置任務(wù)需要的計(jì)算量（GPU節(jié)點(diǎn)數(shù)）等。如下圖所示，圖形化界面非常直觀友好。

此外，在基本命令平臺(tái)上，我們可以非常清晰的看到所提交任務(wù)的運(yùn)行時(shí)長(zhǎng)、GPU利用率甚至更深層次的Tensor Core活躍度、顯存活躍度、通信負(fù)載等實(shí)時(shí)參數(shù)變化，幫助我們深入的監(jiān)控、監(jiān)測(cè)和調(diào)試模型訓(xùn)練。如下圖所示。

小時(shí)級(jí)超算部署效率

在傳統(tǒng)的搭建流程中，一項(xiàng)關(guān)鍵性的工作就是要預(yù)先規(guī)劃好你需要將你的基礎(chǔ)設(shè)施擴(kuò)展到多大的規(guī)模，然后開(kāi)始構(gòu)建網(wǎng)絡(luò)架構(gòu)，直至達(dá)到最終目標(biāo)。雖然這種方法能夠?qū)崿F(xiàn)增長(zhǎng)，但會(huì)產(chǎn)生大量前期成本。搭建一個(gè)傳統(tǒng)的數(shù)據(jù)中心，不僅需要一個(gè)大型的專(zhuān)業(yè)技術(shù)團(tuán)隊(duì)，而且往往要耗費(fèi)數(shù)個(gè)月才能完成，時(shí)間、空間和金錢(qián)成本高昂。

而新一代DGX SuperPOD不僅有著恐怖的計(jì)算性能，而且部署效率方面也有了極大的提升。實(shí)際證明，4名由英偉達(dá)專(zhuān)業(yè)調(diào)配的操作人員僅需不到1個(gè)小時(shí)，就能組裝起一套由20臺(tái)系統(tǒng)組成的DGX A100集群，并且憑借Mellanox的交換功能可以輕松地將多個(gè)系統(tǒng)互連在一起，以至最終達(dá)到SuperPOD的規(guī)模。此外，如前文所述，同等帶寬下，新一代SuperPOD相比傳統(tǒng)CPU集群更是可以節(jié)約高達(dá)15倍的數(shù)據(jù)中心物理空間。

憑借這種新的拓展方式，不僅超算的部署效率和成本控制有了極大的改善和保障，企業(yè)機(jī)構(gòu)還可以實(shí)現(xiàn)近乎線性的算力擴(kuò)展，而且每次增加這一個(gè)這種由20臺(tái)DGX系統(tǒng)構(gòu)成的SuperPOD模塊時(shí)所產(chǎn)生的支出也將變得更少。

最后，貼一張GTC大會(huì)后的英偉達(dá)股價(jià)走勢(shì)圖

尋求報(bào)道、約稿、文案投放：
添加微信xixiaoyao-1，備注“商務(wù)合作”

后臺(tái)回復(fù)關(guān)鍵詞【入群】

加入賣(mài)萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】

獲取ACL、CIKM等各大頂會(huì)論文集！

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的撑起百万亿参数模型想象力！英伟达发布新一代SuperPOD超算，AI算力新巅峰！的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：敬你一杯调参人生
下一篇：一句话超短摘要，速览752篇EMNLP论