90TB显存!英伟达发布新一代SuperPod超算,AI算力新巅峰!
周一,黃教主又很淡定的在自家廚房里開完了GTC發布會
眾所周知,NLP領域的模型一個比一個大,自從百億參數的Google T5出來后,大部分AI研究者只能望著手里的蹩腳算力興嘆。如今動輒就是千億、萬億參數模型,目前比較流行的V100主機顯然已經無法滿足需求。而本周剛落幕的GTC發布會,則為如今的萬億模型想象力的時代提供了一份極其重要的保障,不僅使得造萬億模型都成為了可能,甚至打開了通往十萬億乃至更大想象力算力密集型AI模型之路的潘多拉魔盒。 這其中的關鍵,就是在本屆GTC大會上全新升級的DGX SuperPod A100。
為AI而生的超算
首先用一張圖來類比DGX SuperPod、DGX A100以及A100計算卡之間的關系:
DGX SuperPod A100是專門為AI量身定制的大規模、安全、可擴展的超級計算機,不僅在整個企業范圍內保護和擴展AI算力,并且還提供相關的配套軟件來完成集群操作,幫助企業開發者更好的調度和管理算力。
如今人工智能已經幾乎滲透到現代商業的方方面面,相應的,模型訓練對算力的渴求也以持續呈指數級增長,并且遠遠未到邊界。尤其是在自然語言處理、推薦系統和生物計算等AI核心業務應用上,動輒千億、甚至萬億級別參數量的模型已經成為了當下的熱門研究方向。
另一方面,隨著AI對全領域的滲透,互聯網公司也在謀求一種更加安全、便捷、大規模、可擴展、數據可隔離的集群式解決方案,從而為全公司的諸多業務和研究團隊提供服務,以支持不斷變化的項目需求和算力需求。
而DGX SuperPod A100恰到好處的滿足了這份想象力。
2019年,英偉達基于多臺DGX系統構建了第一代SuperPod系統,該超算以遠低于一般超算的成本和能耗躋身性能世界前20之列。
2020年,NVIDIA揭開了第二代SuperPOD的帷幕。該產品不但具有創紀錄的性能,而且能夠在短短三周內完成部署。它的出現使得構建世界一流AI超級計算集群所需的時間不再需要花費漫長的數個月。第二代SuperPOD基于DGX A100系統和Mellanox網絡架構構建,其證明了可以憑借單個平臺將全球最復雜語言理解模型的處理時間從數周縮短至一個小時之內。
而在本屆GTC大會上,我們看到DGX SuperPod又迎來了一波全面的升級。此外,新一代SuperPod極大的解放了部署效率,大幅降低了AI算力集群的購置成本,并且具備算力線性擴展能力和完備的技術支持,使得這份AI巔峰算力具備切實的企業內落地能力。
算力巔峰,成本可期,撐起百萬億參數模型
相比上一代SuperPOD系統,本次新發布的SuperPod配備了目前最先進的80GB顯存的加強版A100,為SuperPod帶來最高可達**90TB的HBM2顯存,以及高達2.2EB/s的總帶寬!
這是什么概念呢?
以上圖NLP發展軌跡為例,自2018年ELMo誕生之日起,NLP預訓練語言模型的參數量就迎來了持續的指數爆炸級增長,如今語言模型參數量已經從三年前的不足1億,爆炸式增長至1750億。可以預見的是,按照這份增長速度,到2023年時,語言模型達到 100萬億 的參數量規模都是值得想象的。而SuperPOD高達90TB的HBM2顯存容量,甚至可以撐起這份百萬億模型參數的想象力!
而在帶寬方面,要知道,在傳統的高性能計算解決方案中,若實現2.2EB/s的總帶寬,需要多達11,000臺CPU服務器,大約相當于有250個機柜的數據中心,比SuperPOD整整多了15倍!這意味著我們的數據中心僅需要很少的物理空間,就能裝得下這份頂級算力。
這個代表如今AI算力巔峰的超算在價格上卻離我們并不遙遠,DGX SuperPOD的報價自 700萬美元 起,并且6000萬美元即可擴展至完整版的系統,實現高達 700 PetaFLOPs 的恐怖算力。
BleuField-2 DPU
值得注意的是,借助NVIDIA BleuField-2,新發布的SuperPOD成為了世界上首臺云原生超級計算機,支持多租戶共享,具備完全的數據隔離和裸機性能。
云原生超級計算(Cloud-Native Supercomputing)是下一代超級計算的重要組成部分。云原生超級計算機將高性能計算與云計算服務的安全性和易用性相結合,換句話說,云原生超級計算為HPC云提供了一個與TOP500超級計算機一樣強大的系統,多個用戶可以安全地共享該系統,而不會犧牲其應用程序的性能。
NVIDIA以其最新的DGX SuperPOD形式向全球用戶提供云原生超級計算機,其中就包括現已投入生產的NVIDIA BlueField-2數據處理單元DPU(Data Processing Unit)。
越來越多的企業需要將高性能AI計算推進到實操模式,在這種模式下,許多開發人員可以確保他們的工作像在云中一樣安全且隔離。
NVIDIA BlueField-2 DPU 是針對企業級部署和支撐200 Gbps網絡連接進行研發優化的計算模塊。不僅企業獲得了加速的,完全可編程的網絡,同時該網絡實現了零信任安全性以防止數據泄露,完美地隔離用戶和數據,擁有和裸機同樣的性能表現。
現在,每個DGX SuperPOD都具有此功能,在其中的每個DGX A100節點中集成了兩個NVIDIA BlueField-2 DPU。 IT管理員可以使用NVIDIA BlueField DPU的卸載,加速和隔離功能為共享的AI基礎架構實施安全的多租戶,而不會影響DGX SuperPOD的AI性能。
Base Command
Base Command Manager是為DGX SuperPod配備的專用管理軟件,負責協調 DGX SuperPOD 基礎架構上的 AI 模型訓練和相關操作,讓世界各地的開發團隊能夠順利開展工作。值得一提的是,Base Command也是英偉達內部使用的DGX管理和操作工具,其可以讓多個用戶和 IT 團隊安全地訪問、共享和操作 DGX SuperPOD 基礎架構。
目前,英偉達正在使用Base Command為數千名工程師和200多個團隊提供支持,每周使用超過100萬個GPU小時。
Base Command Manager由用于大規模、多用戶和多團隊AI開發工作流的NVIDIA基本命令平臺和用于集群管理的NVIDIA基本命令管理器組成。其中,基本命令平臺提供了一個圖形用戶界面,其中包括一系列常用的工具,如Jupyter Notebook,以及完整的命令行API。團隊leader也可以通過它設置項目優先級,評估、預測算力需求。
用戶通過命令平臺可以非常方便的管理自己的訓練任務、計算環境、數據集和工作空間等,以及配置任務需要的計算量(GPU節點數)等。如下圖所示,圖形化界面非常直觀友好。
此外,在基本命令平臺上,我們可以非常清晰的看到所提交任務的運行時長、GPU利用率甚至更深層次的Tensor Core活躍度、顯存活躍度、通信負載等實時參數變化,幫助我們深入的監控、監測和調試模型訓練。如下圖所示。
小時級超算部署效率
在傳統的搭建流程中,一項關鍵性的工作就是要預先規劃好你需要將你的基礎設施擴展到多大的規模,然后開始構建網絡架構,直至達到最終目標。雖然這種方法能夠實現增長,但會產生大量前期成本。搭建一個傳統的數據中心,不僅需要一個大型的專業技術團隊,而且往往要耗費數個月才能完成,時間、空間和金錢成本高昂。
而新一代DGX SuperPOD不僅有著恐怖的計算性能,而且部署效率方面也有了極大的提升。實際證明,4名由英偉達專業調配的操作人員僅需不到1個小時,就能組裝起一套由20臺系統組成的DGX A100集群,并且憑借Mellanox的交換功能可以輕松地將多個系統互連在一起,以至最終達到SuperPOD的規模。此外,如前文所述,同等帶寬下,新一代SuperPOD相比傳統CPU集群更是可以節約高達15倍的數據中心物理空間。
憑借這種新的拓展方式,不僅超算的部署效率和成本控制有了極大的改善和保障,企業機構還可以實現近乎線性的算力擴展,而且每次增加這一個這種由20臺DGX系統構成的SuperPod模塊時所產生的支出也將變得更少。
最后,貼一張GTC大會后的英偉達股價走勢圖
總結
以上是生活随笔為你收集整理的90TB显存!英伟达发布新一代SuperPod超算,AI算力新巅峰!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 下载 | 李宏毅:1 天搞懂深度学习,我
- 下一篇: NLP史上最全预训练模型汇总