NVIDIA Tensor Cores解析
NVIDIA Tensor Cores解析
高性能計(jì)算機(jī)和人工智能前所未有的加速
Tensor Cores支持混合精度計(jì)算,動態(tài)調(diào)整計(jì)算以加快吞吐量,同時保持精度。最新一代將這些加速功能擴(kuò)展到各種工作負(fù)載。NVIDIA Tensor內(nèi)核為所有工作負(fù)載提供了新的能力,從革命性的新精度Tensor Float 32(TF32)人工智能訓(xùn)練中的10倍加速到浮點(diǎn)64(FP64)高性能計(jì)算的2.5倍加速。
Revolutionary AI Training
當(dāng)人工智能模型面臨更高層次的挑戰(zhàn)時,如精確的對話人工智能和深度推薦系統(tǒng),它們的復(fù)雜性繼續(xù)爆炸。像威震天這樣的對話人工智能模型比像ResNet-50這樣的圖像分類模型大數(shù)百倍,也更復(fù)雜。以FP32精度訓(xùn)練這些大型模型可能需要幾天甚至幾周的時間。NVIDIA GPU中的張量磁芯提供了一個數(shù)量級的更高性能,降低了TF32和FP16等精度。并通過NVIDIA CUDA-X在本機(jī)框架中直接支持?
庫中,實(shí)現(xiàn)是自動的,在保持準(zhǔn)確性的同時,大大縮短了訓(xùn)練的收斂時間。
Breakthrough AI Inference
一個好的人工智能推理加速器不僅要有很好的性能,還要有多功能性來加速不同的神經(jīng)網(wǎng)絡(luò),同時還要有可編程性,使開發(fā)人員能夠構(gòu)建新的神經(jīng)網(wǎng)絡(luò)。高吞吐量的低延遲同時最大化利用率是可靠部署推理的最重要性能要求。NVIDIA Tensor Cores提供全系列精度——TF32、bfloat16、FP16、INT8和INT4,提供無與倫比的多功能性和性能。
Advanced HPC
高性能混凝土是現(xiàn)代科學(xué)的一個基本支柱。為了揭示下一代的發(fā)現(xiàn),科學(xué)家們利用模擬來更好地理解藥物發(fā)現(xiàn)的復(fù)雜分子、潛在能源的物理學(xué)和大氣數(shù)據(jù),以便更好地預(yù)測和準(zhǔn)備極端天氣模式。NVIDIA Tensor內(nèi)核提供了包括FP64在內(nèi)的全方位精度,以加速所需的最高精度的科學(xué)計(jì)算。
NVIDIA HPC SDK是一套綜合的編譯器、庫和工具,用于為NVIDIA平臺開發(fā)HPC應(yīng)用程序。
現(xiàn)代應(yīng)用的加速
CUDA-X AI和CUDA-X HPC庫與NVIDIA
Tensor Core gpu無縫協(xié)作,加速跨多個域應(yīng)用程序的開發(fā)和部署。
現(xiàn)代人工智能有可能擾亂許多行業(yè),但如何利用它的力量是一個挑戰(zhàn)。開發(fā)人工智能應(yīng)用程序需要許多步驟:
數(shù)據(jù)處理、特征工程、機(jī)器學(xué)習(xí)、驗(yàn)證和部署,每一步都涉及處理大量數(shù)據(jù)和執(zhí)行大量計(jì)算操作。CUDA-X人工智能提供了克服這一挑戰(zhàn)所需的工具和技術(shù)。
A100 Tensor Cores
第三代
NVIDIA Tensor核心技術(shù)為人工智能帶來了驚人的加速,將訓(xùn)練時間從幾周縮短到幾小時,并為推理提供了巨大的加速。NVIDIA安培體系結(jié)構(gòu)提供了巨大的性能提升,并提供了新的精度,以覆蓋研究人員所需的全譜-TF32、FP64、FP16、INT8和INT4加速和簡化人工智能采用,并將NVIDIATensor Cores的功率擴(kuò)展到高性能計(jì)算機(jī)。
Tensor Float 32
隨著人工智能網(wǎng)絡(luò)和數(shù)據(jù)集繼續(xù)呈指數(shù)級增長,它們的計(jì)算需求也同樣增長。較低精度的數(shù)學(xué)運(yùn)算帶來了巨大的性能加速,但它們歷來需要一些代碼更改。A100帶來了一種新的精度,TF32,它的工作原理和FP32一樣,同時為人工智能提供高達(dá)20倍的加速,而不需要任何代碼更改。
圖靈Tensor Cores
第二代
英偉達(dá)圖靈?
Tensor Cores心技術(shù)的特點(diǎn)是多精度計(jì)算,有效的人工智能推理。圖靈Tensor Cores為深度學(xué)習(xí)訓(xùn)練和推理提供了一系列精度,從FP32到FP16到INT8,以及INT4,在性能上超過NVIDIA Pascal? GPU。
Volta Tensor Cores
第一代
專為深度學(xué)習(xí)而設(shè)計(jì)的NVIDIA Volta第一代Tensor Cores?
在FP16和FP32中使用混合精度矩陣乘法提供開創(chuàng)性的性能,高達(dá)12倍的高峰值teraFLOPS(TFLOPS)用于訓(xùn)練,6倍的高峰值TFLOPS用于NVIDIA Pascal上的推理。這一關(guān)鍵能力使Volta能夠在Pascal上提供3倍的訓(xùn)練和推理性能加速。
NVIDIA贏得MLPerf推理基準(zhǔn)
NVIDIA在新的MLPerf基準(zhǔn)上發(fā)布了最快的結(jié)果,該基準(zhǔn)測試了數(shù)據(jù)中心和邊緣的人工智能推理工作負(fù)載的性能。新的業(yè)績是在該公司今年早些時候公布的MLPerf基準(zhǔn)業(yè)績同樣強(qiáng)勁的情況下發(fā)布的。
MLPerf的五個推理基準(zhǔn)——應(yīng)用于一系列的形狀因子和四個推理場景——涵蓋了諸如圖像分類、對象檢測和翻譯等已建立的人工智能應(yīng)用。
用例和基準(zhǔn)是:
NVIDIA在以數(shù)據(jù)中心為中心的場景(服務(wù)器和脫機(jī))的所有五個基準(zhǔn)測試中都名列前茅,其中Turing gpu為每個處理器提供了商用項(xiàng)目中最高的性能。Xavier在以邊緣為中心的場景(單流和多流)下提供了商用邊緣和移動SOC中最高的性能。
NVIDIA的所有MLPerf結(jié)果都是使用NVIDIA
TensorRT 6高性能深度學(xué)習(xí)推理軟件實(shí)現(xiàn)的,該軟件可以方便地優(yōu)化和部署從數(shù)據(jù)中心到邊緣的人工智能應(yīng)用程序。新的TensorRT優(yōu)化也可以作為GitHub存儲庫中的開放源代碼使用。請參閱此開發(fā)人員博客中的完整結(jié)果和基準(zhǔn)測試詳細(xì)信息。
除了是唯一一家提交了MLPerf Inference v0.5所有五個基準(zhǔn)測試的公司外,NVIDIA還在開放部門提交了ResNet-50v1.5的INT4實(shí)現(xiàn)。這個實(shí)現(xiàn)帶來了59%的吞吐量增長,準(zhǔn)確率損失小于1.1%。在這個博客中,我們將帶您簡要介紹我們的INT4提交,它來自NVIDIA早期的研究,用于評估圖靈上INT4推理的性能和準(zhǔn)確度。在此了解有關(guān)INT4精度的更多信息。
NVIDIA在擴(kuò)展其推理平臺的同時,今天還推出了Jetson
Xavier NX,這是世界上最小、最強(qiáng)大的用于邊緣機(jī)器人和嵌入式計(jì)算設(shè)備的AI超級計(jì)算機(jī)。
Jetson-Xavier NX模塊與Jetson-Nano引腳兼容,基于NVIDIA的Xavier SoC的低功耗版本,該版本在邊緣SoC中引領(lǐng)了最近的MLPerf推斷0.5結(jié)果,為在邊緣部署高要求的基于AI的工作負(fù)載提供了更高的性能,這些工作負(fù)載可能受到尺寸、重量、功率和成本等因素的限制。在此處了解有關(guān)新系統(tǒng)的更多信息,并了解如何在5個類別中的4個類別中占據(jù)榜首。
最強(qiáng)大的端到端人工智能和高性能數(shù)據(jù)中心平臺
Tensor核心是完整NVIDIA數(shù)據(jù)中心解決方案的基本組成部分,該解決方案集成了NGC的硬件、網(wǎng)絡(luò)、軟件、庫以及優(yōu)化的AI模型和應(yīng)用程序?. 作為最強(qiáng)大的端到端人工智能和高性能計(jì)算機(jī)平臺,它允許研究人員提供真實(shí)的結(jié)果,并將解決方案大規(guī)模部署到生產(chǎn)中。
總結(jié)
以上是生活随笔為你收集整理的NVIDIA Tensor Cores解析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习框架:GPU
- 下一篇: 交换机技术分解