NVIDIA各个领域芯片现阶段的性能和适应范围
?????? NVIDIA作為老牌顯卡廠商,在AI領域深耕多年。功夫不負有心人,一朝AI火,NVIDIA大爆發,NVIDIA每年送給科研院所和高校的大量顯卡,大力推廣Physix和CUDA,終于釣了產業的大魚。
?????? 由弱到強理一下NVIDIA的現有產品線,在AMD銳龍發力之后,NVIDIA已經取代Intel,稱為新的牙膏廠。
?????? 在與人工智能與機器人有關的平臺上,NVIDAI產品線性能由低到高依次為Tegra X系列、GeForce 系列、DRIVER系列、Titan 系列、TESLA系列。
?????? 參考:NVIDIA-GPU的浮點計算能力
?????? Linux系統是廣泛應用的OS,可以以各種形態存在,甚至可以裁剪到么有MU的微型計算機上。現有支持較為完備的流行的計算機OS主要為CentOS和ubuntu,Fedora在消費級商業化上做的還是差了一點。
一、SHIELD掌機系統
完整規格? SHIELD掌機系統 是基于TX1-CPU的集成平臺處理器? ? NVIDIA? Tegra? X1 處理器,搭載 256 核 GPU 和 3 GB RAM視頻功能? 支持 4K HDR
以 60 FPS 的幀速率播放分辨率高達 4K 的 HDR 內容 (H.265/HEVC)
以 60 FPS 的幀速率播放分辨率高達 4K 的內容(VP8、VP9、H.264、MPEG1/2)
以 60 FPS 的幀速率播放分辨率高達 1080p 的內容(H.263、MJPEG、MPEG4、WMV9/VC1)通過 HDMI 提供 Dolby Atmos 和 DTS-X 環繞立體聲透傳音效
通過 HDMI 和 USB 播放高達 24 位/192 kHz 的高清音頻內容
通過 USB 播放高達 24 位/192 kHz 的高清音頻內容 操作系統 Android 7.0
軟件更新 直接由 NVIDIA 提供 SHIELD 軟件更新
??????
二、嵌入式平臺的Jetson???
???????? 現有的平臺為TX2和TX1,提供 開發套件....
???????? 參考CPU兩倍于820處理器
???????? 基于TX1和TX2,NVIDIA為移動機器人系統提供了不同層級的混搭,面對開發者的開發板、和集成視覺系統的工業套件。
模塊技術規格
?| Jetson TX2 | Jetson TX1 | |
| GPU | NVIDIA Pascal?、256 顆 CUDA 核心 | NVIDIA Maxwell?、256 顆 CUDA 核心 |
| CPU | HMP Dual Denver 2/2 MB L2 + Quad ARM? A57/2 MB L2 | Quad ARM? A57/2 MB L2 |
| 視頻 | 4K x 2K 60 Hz 編碼 (HEVC) 4K x 2K 60 Hz 解碼(12 位支持) | 4K x 2K 30 Hz 編碼 (HEVC) 4K x 2K 60 Hz 解碼(10 位支持) |
| 內存 | 8 GB 128 位 LPDDR4 58.3 GB/s | 4 GB 64 位 LPDDR4 25.6 GB/s |
| 顯示器 | 2 個 DSI 接口、2 個 DP 1.2 接口/HDMI 2.0 接口/eDP 1.4 接口 | 2 個 DSI 接口、1 個 eDP 1.4 接口/DP 1.2 接口/HDMI 接口 |
| CSI | 超級多 6 個攝像頭(2 通道 CSI2 D-PHY 1.2(每個通道 2.5 Gbps) | 超級多 6 個攝像頭(2 通道) CSI2 D-PHY 1.1(每個通道 1.5 Gbps) |
| PCIE | Gen 2 | 1x4 + 1x1 或 2x1 + 1x2 | Gen 2 | 1x4 + 1x1 |
| 數據存儲 | 32 GB eMMC、SDIO、SATA | 16 GB eMMC、SDIO、SATA |
| 其他 | CAN、UART、SPI、I2C、I2S、GPIO | UART、SPI、I2C、I2S、GPIO |
| USB | USB 3.0 + USB 2.0 | |
| 連接 | 1 千兆以太網、802.11ac WLAN、藍牙 | |
| 機械 | 50 毫米 x 87 毫米(400 針兼容板對板連接器) | |
支持平臺:
???????? 基于TX2 的平臺可運行ubuntu系統。
??????? NVIDIA為此計算平臺貢獻了軟件開發套件:https://developer.nvidia.com/embedded/downloads#?tx=$software,l4t-tk1。
性能:
???????? FLOPS:TX1上,配置是Tegra X1+4G LPDDR4,GPU是256個CUDA的Maxwell,TX2則升級為Tegra Parker處理器,也就是16nm 6核CPU(2x丹佛+4xA57),所以GPU部分也升級為Pascal架構,同樣256個CUDA,浮點性能1.5 TeraFLOPS,也就是提高了50%。
??????? Jetson TX2 延續了tegra系列體積小巧、高度集成的特性,大小僅相當于一張信用卡。與前一代Jetson TX1相比,TX2能提供兩倍的功效。GPU、CPU都進行了升級,其中GPU變成了Pascal 架構(16 nm工藝)。這意味著Jetson 系列進入了 Pascal 架構時代。內存、存儲都增加了一倍,提供了 8G 內存、32G 固態存儲器。支持802.11ac WLAN和藍牙。
???? ? 功耗TDP:15W
購買:
【注1】你想申請TX2,你需要擁有有效且公認的大學電子郵件地址就可以了。筆者就不在這具體購買流程請咨詢代購商。
【注2】TX2在某寶上也能購買,當然筆者走的是教育優惠。
??????
三、消費級計算平臺的GeForce?
??????? ?? 面向專業圖形工作站應用的Quadro系列,硬件核心和GeForce是相同的。
???????? GeForce平臺為消費級顯卡,主要用途依然是3D渲染。消費用途主要是玩游戲和PS,工業用途做2維和三維圖像處理。NVIDAI把Physix和CUDA普及到GeForce平臺,GeForce平臺也開始了另一新的功能,兼職做科學計算。
???????? GeForce平臺產品眼花繚亂,玩游戲的人群比做機器人的人群覆蓋面更廣,需求也更多樣化。以現有最新的帕斯卡構架的消費級顯卡來說,從低端的GT1030 到高端的GTX1080TI,參數性能價格已有天壤之別。
??????? GeForce GT 1030顯卡基于GP108-300核心,擁有384個CUDA處理器,基礎核心頻率1227MHz,boost頻率1468MHz。使用2GB GDDR5顯存,顯存位寬64-bit,帶寬48GB/s。支持最新的DX12,OpenGL4.5等特性,TDP僅30W。價格最低不到500塊。
???????? GeForceGTX1080擁有2560個CUDA處理器,核心頻率1607MHz,boost頻率1733MHz,等效顯存頻率10GHz。顯卡位寬為256bit,帶寬320GB/s。公版顯卡最高溫度94℃,采用單8pin供電,TDP180w。
???????? GeForceGTX1080強于GeForceGTX980SLI,甚至比GeForceGTXTitanX還要強,大概超過TitanX2成。單卡浮點運算次數上,GTX1080Ti(顯存8GB)達到11.5T FLOPs。兵荒馬亂的年月,GTX1080Ti已經漲到了6000+。
???????? 因為CUDA的存在,大量的科研計算使用GeForce卡做并行計算,現在AI最流行CUDA做深度學習。
???????? TDP:30W-300W。移動計算機平臺TDP低至15w。
四、為自動駕駛開發的Tesla系列
??????? NVIDIA Driver系列為自動駕駛提供一整套計算解決方案想,現有平臺有 NVIDIA DRIVER PX、NVIDIA DXG1、NVIDIA DRIVER IX。
??????? Driver PX : https://www.nvidia.com/zh-cn/self-driving-cars/drive-px/
???? ? 可擴展架構適用于各種配置。從功率為 10 瓦的被動冷卻型移動處理器,到雙移動處理器加雙獨立 GPU 的多芯片配置(可提供每秒 24 萬億次的深度學習運算),都在此架構的支持范圍內。您可并行使用多個 DRIVE PX 平臺來實現完全自動駕駛。
?????? DRIVER PX Pegasus AI 計算機擁有高達 320 TOPS的深度學習計算能力。「Pegasus」之運算能力達到320 TOPS(Trillion Operations Per Second),超越其前代平臺「Drive PX 2」之運算能力高達10倍。 此運算能力主要來自于4顆處理器-2顆為以NVIDIA目前最新GPU架構「Volta」為核心的SoC「Xavier」、以及另外2顆為車用機械視覺與深度學習所準備的專用GPU。
?????? DRIVE PX Xavier 能夠提供 20 TOPS 的高性能,而功耗僅有20 瓦。單個 Xavier AI 處理器中就包含了 70 億個晶體管,能夠取代目前配備多個移動 SoC 和兩個獨立 GPU 的 DRIVE PX,且功耗大幅下降。Xavier為低功耗自動駕駛平臺。
?????? NVIDIA DRIVER IX 系列在硬件基礎上集成了一些與自動駕駛有關的軟件功能,如基于深度學習的面部識別、視線追蹤、和對話功能。
????? CES2018展會上,百度的“阿波羅”(Apollo)自動駕駛項目將使用英偉達的Drive Xavier自動駕駛計算平臺。百度的阿波羅項目致力于通過與一系列汽車制造商、供應商以及科技公司合作,為自動駕駛汽車打造一個開放平臺。
五、GPU加速計算的Tesla系列
????? ?? Tesla本是第一代產品的架構名稱,后來演變成了這個系列產品的名稱了。在NVIDIA的產品列表上,被定義為數據中心產品,產品線為TESLA、DXG、DXG-Station、HGX。
??????? 現在NVIDIA官方顯示的產品有TESLA-P40和TESLA-P6。P40浮點運算為47T FLOPS。TESLA-P40的成品價格為4W+(顯存24GB)。
???????
??????? 黃仁勛在GTC2017 上發布了TESLA V100和他的 VoltaGPU。仔細讀一下文章,有不少知識:英偉達Volta架構:為深度學習而生的Tensor Core。當然,TESLA的價格嗎,15萬$,100萬呢....
??????? Tesla V100 可以提供業界領先的浮點和整型計算性能。峰值計算速度(基于 GPU Boost 時鐘頻率):
雙精度浮點(FP64)運算性能:7.5 TFLOP/s;
單精度(FP32)運算性能:15 TFLOP/s;
混合精度矩陣乘法和累加:120 Tensor TFLOP/s。
??????? 新的 Tensor Core 是 Volta GV100 最重要的特征,有助于提高訓練神經網絡所需的性能。Tesla V100 的 Tensor Core 能夠為訓練、推理應用的提供120 Tensor TFLOPS。Tensor核
..................
???????? NVIDIA TITAN,英偉達聯合創始人兼CEO黃仁勛在NIPS2017全球神經信息處理系統大會上突然發布了全新的TITAN顯卡,NVIDIA TITAN V!新顯卡基于新一代的Volta架構打造,完整的GV100核心,峰值浮點性能高達110TFlops,相當于TITAN Xp 12Tflops的9倍。Titan也可以面對消費者,相對于TESLA V100,便宜了不少,只要3000$,也要2萬塊。
???????? 消費級旗艦顯卡基于12nm GV100核心,內建5120顆CUDA核心,640顆Tensor核心(用于AI專門計算和加速),核心主頻1200MHz,加速頻率1455MHz。搭配12GB HBM2顯存,位寬3072bit,總帶寬653GB/s。性能方面,單精度浮點15 TFLOPS,此前公布時給出的110T僅僅是用于深度學習的Tensor內核性能,所以這樣話,比TITAN Xp提高了24%左右。
???????? TITAN V使用Volta構架,使用了Tensor核,和適合微型的企業和研究機構做深度學習。https://www.nvidia.com/zh-cn/titan/titan-v/。
???? ? ? DGX-1 定位為個人計算中心,價格為5萬$。參考:https://www.nvidia.com/zh-cn/data-center/dgx-systems/,系統CPU使用的是8塊TESLA V100,128GB顯存。提供960 TFLOPS(GPU FP16)性能 。
...................
???????? 差不多結束了,當然據說百度谷歌都有一次性集成兩萬張TESLA顯卡的習慣。
總結
以上是生活随笔為你收集整理的NVIDIA各个领域芯片现阶段的性能和适应范围的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在WordPress区块编辑器中只显示自
- 下一篇: 蚂蚁任命杨鹏为蚂蚁国际事业群总裁 向井贤