當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NVIDIA各个领域芯片现阶段的性能和适应范围

發布時間：2023/12/31 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 NVIDIA各个领域芯片现阶段的性能和适应范围小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?????? NVIDIA作為老牌顯卡廠商，在AI領域深耕多年。功夫不負有心人，一朝AI火，NVIDIA大爆發，NVIDIA每年送給科研院所和高校的大量顯卡，大力推廣Physix和CUDA，終于釣了產業的大魚。

?????? 由弱到強理一下NVIDIA的現有產品線，在AMD銳龍發力之后，NVIDIA已經取代Intel，稱為新的牙膏廠。

?????? 在與人工智能與機器人有關的平臺上，NVIDAI產品線性能由低到高依次為Tegra X系列、GeForce 系列、DRIVER系列、Titan 系列、TESLA系列。

?????? 參考：NVIDIA-GPU的浮點計算能力

?????? Linux系統是廣泛應用的OS，可以以各種形態存在，甚至可以裁剪到么有MU的微型計算機上。現有支持較為完備的流行的計算機OS主要為CentOS和ubuntu，Fedora在消費級商業化上做的還是差了一點。

一、SHIELD掌機系統

完整規格? SHIELD掌機系統 是基于TX1-CPU的集成平臺
處理器? ? NVIDIA? Tegra? X1 處理器，搭載 256 核 GPU 和 3 GB RAM視頻功能? 支持 4K HDR
以 60 FPS 的幀速率播放分辨率高達 4K 的 HDR 內容 (H.265/HEVC)
以 60 FPS 的幀速率播放分辨率高達 4K 的內容（VP8、VP9、H.264、MPEG1/2）
以 60 FPS 的幀速率播放分辨率高達 1080p 的內容（H.263、MJPEG、MPEG4、WMV9/VC1）通過 HDMI 提供 Dolby Atmos 和 DTS-X 環繞立體聲透傳音效
通過 HDMI 和 USB 播放高達 24 位/192 kHz 的高清音頻內容
通過 USB 播放高達 24 位/192 kHz 的高清音頻內容操作系統 Android 7.0
軟件更新直接由 NVIDIA 提供 SHIELD 軟件更新
??????

二、嵌入式平臺的Jetson???

???????? 現有的平臺為TX2和TX1，提供開發套件....

???????? 參考CPU兩倍于820處理器

???????? 基于TX1和TX2，NVIDIA為移動機器人系統提供了不同層級的混搭，面對開發者的開發板、和集成視覺系統的工業套件。

模塊技術規格

	Jetson TX2	Jetson TX1
GPU	NVIDIA Pascal?、256 顆 CUDA 核心	NVIDIA Maxwell?、256 顆 CUDA 核心
CPU	HMP Dual Denver 2/2 MB L2 + Quad ARM? A57/2 MB L2	Quad ARM? A57/2 MB L2
視頻	4K x 2K 60 Hz 編碼 (HEVC) 4K x 2K 60 Hz 解碼（12 位支持）	4K x 2K 30 Hz 編碼 (HEVC) 4K x 2K 60 Hz 解碼（10 位支持）
內存	8 GB 128 位 LPDDR4 58.3 GB/s	4 GB 64 位 LPDDR4 25.6 GB/s
顯示器	2 個 DSI 接口、2 個 DP 1.2 接口/HDMI 2.0 接口/eDP 1.4 接口	2 個 DSI 接口、1 個 eDP 1.4 接口/DP 1.2 接口/HDMI 接口
CSI	超級多 6 個攝像頭（2 通道 CSI2 D-PHY 1.2（每個通道 2.5 Gbps）	超級多 6 個攝像頭（2 通道） CSI2 D-PHY 1.1（每個通道 1.5 Gbps）
PCIE	Gen 2 \| 1x4 + 1x1 或 2x1 + 1x2	Gen 2 \| 1x4 + 1x1
數據存儲	32 GB eMMC、SDIO、SATA	16 GB eMMC、SDIO、SATA
其他	CAN、UART、SPI、I2C、I2S、GPIO	UART、SPI、I2C、I2S、GPIO
USB	USB 3.0 + USB 2.0
連接	1 千兆以太網、802.11ac WLAN、藍牙
機械	50 毫米 x 87 毫米（400 針兼容板對板連接器）

支持平臺：

???????? 基于TX2 的平臺可運行ubuntu系統。

??????? NVIDIA為此計算平臺貢獻了軟件開發套件：https://developer.nvidia.com/embedded/downloads#?tx=$software,l4t-tk1。

性能：

???????? FLOPS：TX1上，配置是Tegra X1+4G LPDDR4，GPU是256個CUDA的Maxwell，TX2則升級為Tegra Parker處理器，也就是16nm 6核CPU（2x丹佛+4xA57），所以GPU部分也升級為Pascal架構，同樣256個CUDA，浮點性能1.5 TeraFLOPS，也就是提高了50%。

??????? Jetson TX2 延續了tegra系列體積小巧、高度集成的特性，大小僅相當于一張信用卡。與前一代Jetson TX1相比，TX2能提供兩倍的功效。GPU、CPU都進行了升級，其中GPU變成了Pascal 架構（16 nm工藝）。這意味著Jetson 系列進入了 Pascal 架構時代。內存、存儲都增加了一倍，提供了 8G 內存、32G 固態存儲器。支持802.11ac WLAN和藍牙。

???? ? 功耗TDP：15W

購買：

【注1】你想申請TX2，你需要擁有有效且公認的大學電子郵件地址就可以了。筆者就不在這具體購買流程請咨詢代購商。
【注2】TX2在某寶上也能購買，當然筆者走的是教育優惠。

??????

三、消費級計算平臺的GeForce?

??????? ?? 面向專業圖形工作站應用的Quadro系列，硬件核心和GeForce是相同的。

???????? GeForce平臺為消費級顯卡，主要用途依然是3D渲染。消費用途主要是玩游戲和PS，工業用途做2維和三維圖像處理。NVIDAI把Physix和CUDA普及到GeForce平臺，GeForce平臺也開始了另一新的功能，兼職做科學計算。

???????? GeForce平臺產品眼花繚亂，玩游戲的人群比做機器人的人群覆蓋面更廣，需求也更多樣化。以現有最新的帕斯卡構架的消費級顯卡來說，從低端的GT1030 到高端的GTX1080TI，參數性能價格已有天壤之別。

??????? GeForce GT 1030顯卡基于GP108-300核心，擁有384個CUDA處理器，基礎核心頻率1227MHz，boost頻率1468MHz。使用2GB GDDR5顯存，顯存位寬64-bit，帶寬48GB/s。支持最新的DX12，OpenGL4.5等特性，TDP僅30W。價格最低不到500塊。

???????? GeForceGTX1080擁有2560個CUDA處理器，核心頻率1607MHz，boost頻率1733MHz，等效顯存頻率10GHz。顯卡位寬為256bit，帶寬320GB/s。公版顯卡最高溫度94℃，采用單8pin供電，TDP180w。

???????? GeForceGTX1080強于GeForceGTX980SLI，甚至比GeForceGTXTitanX還要強，大概超過TitanX2成。單卡浮點運算次數上,GTX1080Ti（顯存8GB）達到11.5T FLOPs。兵荒馬亂的年月，GTX1080Ti已經漲到了6000+。

???????? 因為CUDA的存在，大量的科研計算使用GeForce卡做并行計算，現在AI最流行CUDA做深度學習。

???????? TDP：30W-300W。移動計算機平臺TDP低至15w。

四、為自動駕駛開發的Tesla系列

??????? NVIDIA Driver系列為自動駕駛提供一整套計算解決方案想，現有平臺有 NVIDIA DRIVER PX、NVIDIA DXG1、NVIDIA DRIVER IX。

??????? Driver PX : https://www.nvidia.com/zh-cn/self-driving-cars/drive-px/

???? ? 可擴展架構適用于各種配置。從功率為 10 瓦的被動冷卻型移動處理器，到雙移動處理器加雙獨立 GPU 的多芯片配置（可提供每秒 24 萬億次的深度學習運算），都在此架構的支持范圍內。您可并行使用多個 DRIVE PX 平臺來實現完全自動駕駛。

?????? DRIVER PX Pegasus AI 計算機擁有高達 320 TOPS的深度學習計算能力。「Pegasus」之運算能力達到320 TOPS(Trillion Operations Per Second)，超越其前代平臺「Drive PX 2」之運算能力高達10倍。此運算能力主要來自于4顆處理器-2顆為以NVIDIA目前最新GPU架構「Volta」為核心的SoC「Xavier」、以及另外2顆為車用機械視覺與深度學習所準備的專用GPU。

?????? DRIVE PX Xavier 能夠提供 20 TOPS 的高性能，而功耗僅有20 瓦。單個 Xavier AI 處理器中就包含了 70 億個晶體管，能夠取代目前配備多個移動 SoC 和兩個獨立 GPU 的 DRIVE PX，且功耗大幅下降。Xavier為低功耗自動駕駛平臺。

?????? NVIDIA DRIVER IX 系列在硬件基礎上集成了一些與自動駕駛有關的軟件功能，如基于深度學習的面部識別、視線追蹤、和對話功能。

????? CES2018展會上，百度的“阿波羅”(Apollo)自動駕駛項目將使用英偉達的Drive Xavier自動駕駛計算平臺。百度的阿波羅項目致力于通過與一系列汽車制造商、供應商以及科技公司合作，為自動駕駛汽車打造一個開放平臺。

五、GPU加速計算的Tesla系列

????? ?? Tesla本是第一代產品的架構名稱，后來演變成了這個系列產品的名稱了。在NVIDIA的產品列表上，被定義為數據中心產品，產品線為TESLA、DXG、DXG-Station、HGX。

??????? 現在NVIDIA官方顯示的產品有TESLA-P40和TESLA-P6。P40浮點運算為47T FLOPS。TESLA-P40的成品價格為4W+（顯存24GB）。

???????

??????? 黃仁勛在GTC2017 上發布了TESLA V100和他的 VoltaGPU。仔細讀一下文章，有不少知識：英偉達Volta架構：為深度學習而生的Tensor Core。當然，TESLA的價格嗎，15萬$，100萬呢....

??????? Tesla V100 可以提供業界領先的浮點和整型計算性能。峰值計算速度（基于 GPU Boost 時鐘頻率）：

雙精度浮點（FP64）運算性能：7.5 TFLOP/s；

單精度（FP32）運算性能：15 TFLOP/s;

混合精度矩陣乘法和累加：120 Tensor TFLOP/s。

??????? 新的 Tensor Core 是 Volta GV100 最重要的特征，有助于提高訓練神經網絡所需的性能。Tesla V100 的 Tensor Core 能夠為訓練、推理應用的提供120 Tensor TFLOPS。

Tensor核

..................

???????? NVIDIA TITAN，英偉達聯合創始人兼CEO黃仁勛在NIPS2017全球神經信息處理系統大會上突然發布了全新的TITAN顯卡，NVIDIA TITAN V！新顯卡基于新一代的Volta架構打造，完整的GV100核心，峰值浮點性能高達110TFlops，相當于TITAN Xp 12Tflops的9倍。Titan也可以面對消費者，相對于TESLA V100，便宜了不少，只要3000$，也要2萬塊。

???????? 消費級旗艦顯卡基于12nm GV100核心，內建5120顆CUDA核心，640顆Tensor核心（用于AI專門計算和加速），核心主頻1200MHz，加速頻率1455MHz。搭配12GB HBM2顯存，位寬3072bit，總帶寬653GB/s。性能方面，單精度浮點15 TFLOPS，此前公布時給出的110T僅僅是用于深度學習的Tensor內核性能，所以這樣話，比TITAN Xp提高了24%左右。

???????? TITAN V使用Volta構架，使用了Tensor核，和適合微型的企業和研究機構做深度學習。https://www.nvidia.com/zh-cn/titan/titan-v/。

???? ? ? DGX-1 定位為個人計算中心，價格為5萬$。參考：https://www.nvidia.com/zh-cn/data-center/dgx-systems/，系統CPU使用的是8塊TESLA V100，128GB顯存。提供960 TFLOPS（GPU FP16）性能。

...................

???????? 差不多結束了，當然據說百度谷歌都有一次性集成兩萬張TESLA顯卡的習慣。

總結

以上是生活随笔為你收集整理的NVIDIA各个领域芯片现阶段的性能和适应范围的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：在WordPress区块编辑器中只显示自
下一篇：蚂蚁任命杨鹏为蚂蚁国际事业群总裁向井贤