从硬件到框架,30+巨头参与的AI基准竞争结果公布(第一回合)
機(jī)器之心報(bào)道
機(jī)器之心編輯部
MLPerf 是一項(xiàng)機(jī)器學(xué)習(xí)公開基準(zhǔn),展示了每個(gè)參與機(jī)構(gòu)在特定任務(wù)上利用自有資源所能達(dá)到的最佳性能。該基準(zhǔn)于今年 5 月啟動(dòng),已經(jīng)得到了來自 30 多個(gè)公司的研究者和科學(xué)家的支持,包括英特爾、英偉達(dá)、百度和谷歌等。此外,MLPerf 還獲得了來自 7 所高校的研究者的支持。今天,該項(xiàng)目背后的科學(xué)家公布了第一個(gè)回合的競(jìng)賽結(jié)果,同時(shí) Facebook 和微軟也宣布支持 MLPerf。
MLPerf 結(jié)果展示地址:https://mlperf.org/results/?from=timeline&isappinstalled=0
在歷史上,基于清晰指標(biāo)的技術(shù)競(jìng)爭(zhēng)帶來了快速的進(jìn)步,例如 SPEC 基準(zhǔn)推動(dòng)了 CPU 在 15 年內(nèi)以每年 1.6 倍的速度提升性能。MLPerf 希望在機(jī)器學(xué)習(xí)社區(qū)做同樣的事情,以推動(dòng) ML 系統(tǒng)性能的快速提升。由于大規(guī)模機(jī)器學(xué)習(xí)實(shí)驗(yàn)仍然需要耗費(fèi)數(shù)天或數(shù)星期的時(shí)間,提升 ML 系統(tǒng)性能對(duì)于釋放機(jī)器學(xué)習(xí)潛力而言非常關(guān)鍵。
今天,支持 MLPerf 的研究者和工程師們公布了他們第一個(gè)回合的競(jìng)賽結(jié)果。他們測(cè)量了多種機(jī)器學(xué)習(xí)任務(wù)在主流機(jī)器學(xué)習(xí)硬件平臺(tái)上的訓(xùn)練時(shí)間,包括谷歌的 TPU、英特爾的 CPU 和英偉達(dá)的 GPU。其結(jié)果還反映了機(jī)器學(xué)習(xí)軟件框架(如 TensorFlow、PyTorch 和 MXNet)的訓(xùn)練速度對(duì)比。MLPerf 結(jié)果旨在幫助決策者評(píng)估現(xiàn)有產(chǎn)品并關(guān)注未來發(fā)展。
基準(zhǔn)測(cè)試與開源?
1.Nvidia
英偉達(dá)在其提交的六個(gè) MLPerf 基準(zhǔn)測(cè)試結(jié)果中取得了最佳性能。它們涵蓋了各種工作負(fù)載和基礎(chǔ)架構(gòu)規(guī)模:從一個(gè)節(jié)點(diǎn)上的 16 個(gè) GPU 到 80 個(gè)節(jié)點(diǎn)上的多達(dá) 640 個(gè) GPU。
這六個(gè)類別包括圖像分類、目標(biāo)實(shí)例分割、目標(biāo)檢測(cè)、非循環(huán)翻譯、循環(huán)翻譯和推薦系統(tǒng)。英偉達(dá)在其中表現(xiàn)特別出色的一個(gè)基準(zhǔn)是語言翻譯,僅需 6.2 分鐘即可完成 Transformer 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
測(cè)試平臺(tái):
圖像分類和翻譯(非循環(huán))——DGX-1V 集群。
目標(biāo)檢測(cè)(重量級(jí))、檢測(cè)(輕量級(jí))和翻譯(循環(huán))——DGX-2H 集群。
每個(gè) DGX-1V 包含:雙插槽 Xeon E5- 2698 V4、512GB 系統(tǒng) RAM、8 x 16 GB Tesla V100 SXM-2 GPU。
每個(gè) DGX-2H 包含:雙插槽 Xeon Platinum 8174、1.5TB 系統(tǒng) RAM、16 x 32 GB Tesla V100 SXM-3 GPU,通過 NVSwitch 連接。
2.Intel
英特爾提交了 Intel Xeon Scalable 處理器的 MLPerf 結(jié)果,并表示「我們致力于深度學(xué)習(xí)的用戶端和計(jì)算機(jī)系統(tǒng)開發(fā)」。結(jié)果顯示,Intel Xeon Scalable 處理器已超過性能閾值:對(duì)于希望在其基礎(chǔ)架構(gòu)上運(yùn)行多個(gè)工作負(fù)載而無需投資專用硬件的數(shù)據(jù)科學(xué)家而言,它們可以成為一種有效的選擇。
英特爾表示,CPU 如今已經(jīng)能夠進(jìn)行深度學(xué)習(xí)訓(xùn)練和推理。MLPerf Intel Xeon Scalable 處理器結(jié)果與 MLPerf 參考 GPU 相比,在各種 MLPerf 深度學(xué)習(xí)訓(xùn)練工作負(fù)載上的效果相當(dāng)。例如,英特爾提交的單系統(tǒng)雙插槽 Intel Xeon Scalable 處理器結(jié)果在 MLPerf 圖像分類基準(zhǔn)測(cè)試(Resnet-50)上得分為 0.85;在推薦系統(tǒng)基準(zhǔn)(Neural Collaborative Filtering NCF)上的得分為 1.6;在強(qiáng)化學(xué)習(xí)基準(zhǔn)(mini GO)的得分為 6.3。
在所有這些分?jǐn)?shù)中,1.0 被定義為參考 GPU 上參考實(shí)現(xiàn)的分?jǐn)?shù)。對(duì)于前面的所有結(jié)果,英特爾都使用了 FP32,這是當(dāng)今市場(chǎng)上常用的數(shù)值精度。根據(jù)這些 MLPerf 結(jié)果,英特爾表示游戲測(cè)試機(jī)器人可以輕松地在 Intel Xeon Scalable 處理器上進(jìn)行訓(xùn)練。
3.Facebook
Facebook 未參與這次的 MLPerf,但已經(jīng)聲明將提供針對(duì)邊緣推理的兩個(gè) ML 模型在開源數(shù)據(jù)集上訓(xùn)練的基準(zhǔn)參考實(shí)現(xiàn)。對(duì)于圖像分類,Facebook 將提供當(dāng)前最佳的 ShuffleNet 模型的實(shí)現(xiàn)。對(duì)于姿態(tài)估計(jì),Facebook 將提供由 Facebook 的移動(dòng)視覺研究人員開發(fā)的 Mask R-CNN2Go 模型的實(shí)現(xiàn)。
Facebook 還將開源 Mask R-CNN2Go,并稱其為「針對(duì)嵌入式和移動(dòng)設(shè)備優(yōu)化的領(lǐng)先計(jì)算機(jī)視覺模型」。Mask R-CNN2Go 構(gòu)成了各種設(shè)備 ML 應(yīng)用的基礎(chǔ):目標(biāo)檢測(cè)、分類、人物分割和身體姿態(tài)估計(jì),實(shí)現(xiàn)準(zhǔn)確、實(shí)時(shí)的推理。
為什么基準(zhǔn)實(shí)現(xiàn)這么重要
MLPerf 這樣的基準(zhǔn)實(shí)現(xiàn)對(duì)于整個(gè)工業(yè)界都是非常重要的:
百度王海峰說:「我們很高興 MLPerf 從一個(gè)概念發(fā)展成由各公司和學(xué)術(shù)機(jī)構(gòu)支持的社區(qū),今天發(fā)布的結(jié)果將為行業(yè)改進(jìn)和 AI 的發(fā)展開辟新的先例。」
Facebook Bill Jia 表示:「如 MLPerf 和 ONNX 這樣的開放標(biāo)準(zhǔn)是推動(dòng)整個(gè)行業(yè)機(jī)器學(xué)習(xí)創(chuàng)新和協(xié)作的關(guān)鍵,我們很期待參與 MLPerf,并標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試。」
微軟 Eric Boyd 說:「開放的生態(tài)系統(tǒng)能使 AI 開發(fā)者更快地實(shí)現(xiàn)創(chuàng)新,除了 ONNX 外,微軟很高興參與 MLPerf 以支持開放和標(biāo)準(zhǔn)的性能基準(zhǔn)測(cè)試。」
近日發(fā)布的 MLPerf 訓(xùn)練基準(zhǔn)套件包含七部分,即圖像分類、目標(biāo)檢測(cè)、翻譯、推薦、語音識(shí)別、情感分析和強(qiáng)化學(xué)習(xí)。度量的方法即訓(xùn)練一個(gè)模型以達(dá)到目標(biāo)準(zhǔn)確率所需要的時(shí)間。MLPerf 的所需時(shí)間同樣會(huì)根據(jù)模型在單塊 NVIDIA Pascal P100 GPU 的性能歸一化,這些作為參考的 P100 GPU 實(shí)現(xiàn)沒有優(yōu)化超參數(shù)。
MLPerf 的結(jié)果根據(jù)專區(qū)和給定的產(chǎn)品或平臺(tái)進(jìn)行分類,目前有兩種專區(qū),即封閉專區(qū)(Closed Division)和開放專區(qū)(Open Division)。其中封閉專區(qū)會(huì)指定使用的模型,并限制批量大小或?qū)W習(xí)率等超參數(shù)的值,它對(duì)于對(duì)比硬件和軟件系統(tǒng)非常公平。而開放模型專區(qū)會(huì)只會(huì)限制使用相同的數(shù)據(jù)解決相同的問題,其它模型或平臺(tái)都不會(huì)限制。
提交到封閉專區(qū)的基準(zhǔn)測(cè)試必須使用相同模型和優(yōu)化器,提交到開放專區(qū)的模型可以使用任意模型。在每一個(gè)專區(qū)內(nèi),提交的測(cè)試結(jié)果又可以分為云端、企業(yè)預(yù)置型、預(yù)覽型和研究型。研究型系統(tǒng)需要包含實(shí)驗(yàn)性硬件或軟件,或者還沒大規(guī)模開放。
度量標(biāo)準(zhǔn)是訓(xùn)練時(shí)間
每個(gè) MLPerf 訓(xùn)練基準(zhǔn)測(cè)試的度量標(biāo)準(zhǔn)是:在特定數(shù)據(jù)集上訓(xùn)練一個(gè)模型使其達(dá)到特定性能的總體時(shí)間。眾所周知,機(jī)器學(xué)習(xí)任務(wù)的訓(xùn)練時(shí)間有很大差異,因此,MLPerf 的最終訓(xùn)練結(jié)果是由指定次數(shù)的基準(zhǔn)測(cè)試時(shí)間平均得出的,其中會(huì)去掉最低和最高的數(shù)字。
所有結(jié)果都會(huì)被轉(zhuǎn)換為加速比(Speedups),因?yàn)椴煌幕鶞?zhǔn)測(cè)試需要不同的時(shí)間進(jìn)行訓(xùn)練。加速比是和模型在未優(yōu)化條件下應(yīng)用在一塊 Pascal P100 上的訓(xùn)練時(shí)間比值。因此,MLPerf 的結(jié)果若是數(shù)字 10,則表示被測(cè)試系統(tǒng)的訓(xùn)練速度是在一塊 Pascal P100 上訓(xùn)練同一個(gè)機(jī)器學(xué)習(xí)模型速度的 10 倍,訓(xùn)練時(shí)間是其 1/10。
當(dāng)然,即使是多個(gè)結(jié)果平均的情況也無法消除所有方差。MLPerf 圖像處理基準(zhǔn)測(cè)試結(jié)果大約有+/- 2.5% 的浮動(dòng)范圍,而 MLPerf 基準(zhǔn)測(cè)試則為+/-5%。
完整測(cè)試結(jié)果
MLperf 的結(jié)果表格首先按照 Division 分類,然后按照 Category 分類。結(jié)果表格中的每一行都是由單個(gè)提交者使用相同軟件堆棧和硬件平臺(tái)生成的一組結(jié)果。每行包含以下信息:
Submitter(提交者):提交結(jié)果的組織。
Hardware(硬件):使用的 ML 硬件類型,例如加速器或高性能 CPU。
Chip Count and Type(芯片數(shù)量和類型):使用的 ML 硬件芯片的數(shù)量,以及它們是加速器(a)還是 CPU(c)。
Software(軟件):使用的 ML 框架和主要 ML 硬件庫。
Benchmark Results(基準(zhǔn)測(cè)試結(jié)果):默認(rèn)情況下,基準(zhǔn)測(cè)試結(jié)果表示為相對(duì)于 Pascal P100 的加速。
Cloud Scale(云規(guī)模,僅適用于可用云系統(tǒng)):云規(guī)模源自幾家主要云提供商的按需定價(jià),并提供相對(duì)系統(tǒng)規(guī)模/成本的粗略指標(biāo)。參考單個(gè) Pascal P100 系統(tǒng)的云規(guī)模為 1。云規(guī)模為 4 的系統(tǒng)大約需要四倍的成本。
Power(功率,僅適用于非可用云系統(tǒng)):可用內(nèi)部部署系統(tǒng)的信息。由于標(biāo)準(zhǔn)化功率測(cè)量的復(fù)雜性,此版本 MLPerf 只允許自愿報(bào)告任意非官方功率信息。
Details(詳細(xì)信息):鏈接到提交的元數(shù)據(jù)。
以下展示了封閉專區(qū)完整的基準(zhǔn)測(cè)試結(jié)果,開放專區(qū)目前還沒有基準(zhǔn)測(cè)試的提交結(jié)果。每一個(gè)專區(qū)又可以分為加速比度量和時(shí)間度量,它們之間是可以轉(zhuǎn)換的。
如下圖所示,在 Closed Division Speedups 表格中的部分結(jié)果。參考基準(zhǔn)為單個(gè) Pascal P100,云規(guī)模為 1,在各種基準(zhǔn)測(cè)試上的分?jǐn)?shù)都為 1(參考值)。谷歌使用的硬件為 4 個(gè) TPUv2.8,云規(guī)模為 2.6,在圖像分類任務(wù)的 ImageNet 數(shù)據(jù)集上訓(xùn)練 ResNet-50 v1.5 的相對(duì)訓(xùn)練加速比為 29.3。切換到后一張 Closed Division Times 的表可以看到對(duì)應(yīng)的具體訓(xùn)練時(shí)間。
我們可以看到,TPUv3.8 的效率非常高,單個(gè)芯片數(shù)量基本上是加速比最高的(24.1),且云價(jià)格還和單塊 Pascal P100 差不多。在七項(xiàng)任務(wù)中,強(qiáng)化學(xué)習(xí)的基準(zhǔn)測(cè)試是最少的,這也可能是它比較難標(biāo)準(zhǔn)化,且硬件的加速效果也不明顯。
此外,土豪英偉達(dá)展示了大規(guī)模 GPU 并行的效果,它們使用 80 個(gè) DGX-1(260 塊 V100)在 ImageNet 數(shù)據(jù)集上實(shí)現(xiàn)了 1424.4 的加速比。Intel Xeon Scalable(2S SKX8180)實(shí)現(xiàn)了近似 P100 的效果,這也是 CPU 在訓(xùn)練上的應(yīng)用。
除了加速比,下圖展示了使用各個(gè)框架和硬件平臺(tái)的實(shí)際訓(xùn)練時(shí)間,其單位為分鐘。
參考內(nèi)容:
https://mlperf.org/results/?from=timeline&isappinstalled=0
https://github.com/mlperf/policies/blob/master/training_summary.adoc
https://blogs.nvidia.com/blog/2018/12/12/record-breaking-mlperf-ai-benchmarks/
https://code.fb.com/ml-applications/mask-r-cnn2go/
https://ai.intel.com/mlperf-results-validate-cpus-for-dl-training/
總結(jié)
以上是生活随笔為你收集整理的从硬件到框架,30+巨头参与的AI基准竞争结果公布(第一回合)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据流中的第k大元素的golang实现
- 下一篇: 斯坦福2018 AI指数报告出炉:DL职