如何应对多GPU大规模训练的挑战?
幾年前,深度學(xué)習(xí)還是一個(gè)只有少數(shù)幾位人工智能和數(shù)據(jù)科學(xué)研究人員涉足的領(lǐng)域。而如今情況早已今非昔比。尤其是在 GPU 技術(shù)的推動(dòng)下,深度學(xué)習(xí)正在全球掀起一番新的浪潮。自動(dòng)駕駛汽車、工業(yè)目標(biāo)檢測、AI 醫(yī)療影像、自然語言處理等,如今人工智能已經(jīng)成為了與每個(gè)人的生活息息相關(guān)的一項(xiàng)項(xiàng)應(yīng)用。在 GPU 的加持下,訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)間已經(jīng)從起初的數(shù)月大幅縮短。?
然而隨著模型的復(fù)雜程度和規(guī)模的不斷增大,單個(gè) GPU 的計(jì)算能力已經(jīng)無法滿足大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求。以自動(dòng)駕駛汽車為例,自動(dòng)駕駛汽車的人工智能訓(xùn)練可以說得上是密集型計(jì)算的終極挑戰(zhàn)。一臺(tái)數(shù)據(jù)收集車輛每小時(shí)能生成 1 TB 數(shù)據(jù)。整個(gè)車隊(duì)經(jīng)過數(shù)年行駛后,其數(shù)據(jù)量將會(huì)很快達(dá)到幾 PB(千兆兆字節(jié))的量級(jí)。?
此外,例如 BERT 這類用于自然語言處理的大型計(jì)算密集型模型,其規(guī)模也是十分巨大——BERT 學(xué)習(xí)了包含有 33 億個(gè)單詞的英語語料庫。前不久,NVIDIA Research 還推出了 Megatron 項(xiàng)目,該項(xiàng)目旨在打造適用于最先進(jìn)的 NLP 的 Transformer 模型。將具有 15 億參數(shù) GPT-2 模型擴(kuò)展為更大規(guī)模的 GPT-2 8B 模型——一個(gè)具有 83 億參數(shù)的 Transformer 語言模型,是有史以來最大規(guī)模的 Transformer 語言模型,是 BERT 的 24 倍,GPT-2 的 5.6 倍。?
面對(duì)如此大規(guī)模的模型,即便是性能最強(qiáng)大的 GPU,憑借單 GPU 的計(jì)算能力也無法在短時(shí)間內(nèi)快速完成訓(xùn)練。這時(shí)就需要采用多 GPU 訓(xùn)練的方式,在多個(gè) GPU 或更大規(guī)模的 GPU 集群上訓(xùn)練大規(guī)模模型數(shù)據(jù)。
例如:NVIDIA 此前發(fā)布的全球速度排名第 22 位的超級(jí)計(jì)算機(jī) - DGX SuperPOD,其內(nèi)含 1,536 顆 NVIDIA V100 Tensor Core GPU,由 NVIDIA NVSwitch 及 Mellanox 網(wǎng)絡(luò)結(jié)構(gòu)相聯(lián)接,為其提供強(qiáng)力支持。DGX SuperPOD 軟硬件平臺(tái)能夠在不到 2 分鐘的時(shí)間之內(nèi)完成 ResNet-50 訓(xùn)練。相較于 2015 年,ResNet-50 模型推出的時(shí)候,即便采用當(dāng)時(shí)最先進(jìn)的系統(tǒng) – 單顆 NVIDIA K80 GPU,也需要 25 天才能完成訓(xùn)練任務(wù),DGX SuperPOD 生成結(jié)果的速度較之加快了 18,000 倍。?
然而,采用多 GPU 訓(xùn)練,不是簡單的 GPU 數(shù)量堆砌,其背后依賴著一系列復(fù)雜的算法。為了幫助開發(fā)者們更好地應(yīng)用多個(gè) GPU 訓(xùn)練神經(jīng)網(wǎng)絡(luò),NVIDIA 在 GTC CHINA 2019 大會(huì)期間推出《深度學(xué)習(xí)基礎(chǔ) — 用多 GPU 訓(xùn)練神經(jīng)網(wǎng)絡(luò)》主題深度學(xué)習(xí)學(xué)院(DLI)培訓(xùn)。?
NVIDIA 深度學(xué)習(xí)學(xué)院(DLI)是面向開發(fā)者、數(shù)據(jù)科學(xué)家和研究人員所設(shè)置的,在全球提供深度學(xué)習(xí)和加速計(jì)算的應(yīng)用實(shí)踐培訓(xùn)。通過在云端完全配置的 GPU 服務(wù)器上訓(xùn)練和部署神經(jīng)網(wǎng)絡(luò),親自實(shí)踐完成應(yīng)用項(xiàng)目開發(fā),掌握深度學(xué)習(xí)應(yīng)用開發(fā)的策略、方法、資源和端到端流程。參與者完成每一個(gè) 8 小時(shí)主題培訓(xùn)后,還可以獲得 NVIDIA 培訓(xùn)證書,助力職業(yè)發(fā)展。
點(diǎn)擊視頻,回顧 GTC CHINA 2018 DLI 深度學(xué)習(xí)課程培訓(xùn)盛況:
▲?GTC CHINA 2018 DLI深度學(xué)習(xí)課程培訓(xùn)視頻
今年 12 月 16-19 日,在 GTC CHINA 2019 在蘇州金雞湖國際會(huì)議中心舉辦期間,NVIDIA 將于 12 月 17 日推出《深度學(xué)習(xí)基礎(chǔ) — 用多 GPU 訓(xùn)練神經(jīng)網(wǎng)絡(luò)》DLI 培訓(xùn),旨在幫助開發(fā)者們應(yīng)對(duì)大規(guī)模訓(xùn)練的算法和工程挑戰(zhàn)。
學(xué)習(xí)模式:由 NVIDIA DLI 認(rèn)證講師教授的現(xiàn)場培訓(xùn)?
適用行業(yè):所有行業(yè)?
實(shí)驗(yàn)資源:提供云端完全配置的 GPU 服務(wù)器?
培訓(xùn)證書:學(xué)習(xí)完成并通過在線測試,即可獲取證書?
預(yù)備知識(shí):具備隨機(jī)梯度下降法的知識(shí)和經(jīng)驗(yàn)?
工具、庫和框架:TensorFlow?
課程時(shí)長:? 8 小時(shí)?
語言:中文
在驅(qū)動(dòng)自動(dòng)駕駛汽車等 AI 應(yīng)用方面,人們對(duì)于深度神經(jīng)網(wǎng)絡(luò)存在著巨大的計(jì)算需求。使用單個(gè) GPU 進(jìn)行一個(gè)訓(xùn)練周期可能需耗費(fèi)數(shù)周時(shí)間,而對(duì)于自動(dòng)駕駛汽車研究等領(lǐng)域所用的更大數(shù)據(jù)集,該周期甚至長達(dá)數(shù)年。使用多個(gè) GPU 進(jìn)行深度學(xué)習(xí)能夠顯著縮短訓(xùn)練大量數(shù)據(jù)所需的時(shí)間,從而為深度學(xué)習(xí)中的復(fù)雜問題提供了可行的解決方案。
本課程將教您如何使用多個(gè) GPU 來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。您將了解到:?
針對(duì)多 GPU 的訓(xùn)練方法
進(jìn)行大規(guī)模訓(xùn)練面臨的算法和工程挑
克服上述挑戰(zhàn)所用的關(guān)鍵技術(shù)?
完成本課程后,您將能夠使用 TensorFlow 十分有效地并行訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。?
了解更多 DLI 深度學(xué)習(xí)培訓(xùn)課程,請(qǐng)?jiān)L問:?
https://www.nvidia.cn/gtc/training/?
點(diǎn)擊“閱讀原文”鏈接,即刻注冊(cè)吧!?
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?|?即刻注冊(cè)
總結(jié)
以上是生活随笔為你收集整理的如何应对多GPU大规模训练的挑战?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信用卡安全码在哪里
- 下一篇: 开炸鸡店怎么选址 还要多了解一些相关的知