【深度学习】如何配置一台深度学习工作站?
極市導讀
?本文介紹了家用的深度學習工作站的兩種典型配置,以及各類硬件的參數介紹和選擇方案,可以作為選購時的參考。
這篇文章主要介紹的是家用的深度學習工作站,典型的配置有兩種,分別是一個 GPU 的機器和四個 GPU的機器。如果需要更多的 GPU 可以考慮配置兩臺四個 GPU 的機器。
如果希望一臺機器同時具備 6~8 個 GPU 需要聯系專門的供應商進行配置,并且有專業的機房存放,放在家里噪聲很大并且容易跳閘。
CPU
由于最近 AMD 和 Intel 頻繁更新 CPU,因此大家選擇新款的 CPU 比較好。
CPU 與 GPU 的關系
CPU 瓶頸沒有那么大,一般以一個GPU 對應 2~4 個 CPU 核比較好,比如單卡機器買四核 CPU,四卡機器買十核 CPU。
當你在訓練的時候,只要數據生成器(DataLoader)的產出速度比 GPU 的消耗速度快,那么 CPU 就不會成為瓶頸,也就不會拖慢訓練速度。
PCI-E 支持情況
除了核數,你還需要注意 PCI-E 支持情況,一般顯卡是 PCI-E 3.0 x16,比如 i9-9820X 的 PCI-E 通道數是 44 ,配置四卡的話,只能支持 1x16+3x8+1x4,也就是單卡全速,三卡半速,一個 NVMe 固態硬盤。這種情況下可以考慮選擇帶有 PLX 橋接芯片的主板。
AMD 的 2990WX 有 64條 PCI-E,但是只支持 x16/x8/x16/x8 的四卡配置。
英特爾CPU
英特爾CPU
雙卡機器選 i9-9900K,四卡機器按照預算選X系列的CPU。
主板
主板需要注意:
CPU 接口是否能對上,如LGA2066 和 SocketTR4
PCI-E 插槽的高度是否夠插顯卡,比如 PCI-E 插口之間的距離至少要滿足雙槽寬顯卡的高度
PCI-E 同時可以支持幾張卡以什么樣的速度運行,如 1x16 + 3x8 是常見的配置
主板必看參數
GIGABYTE X299 AORUS MASTER (rev. 1.0)?使用了 4 組 2 槽間距顯卡插槽設計,支持1x16、2x16、2x16 + 1x8、1x16 + 3x8 四種配置(需要十核以上的 CPU),這里請參閱說明書安裝顯卡,安裝在不同位置的速度是不一樣的:
GIGABYTE X299 AORUS MASTER (rev. 1.0)
GIGABYTE X299 AORUS MASTER manual
帶有橋接芯片的主板
有的主板如 WS X299 SAGE 帶有 PLX 橋接芯片,可以在 CPU 沒有足夠 PCI-E 的情況下達到四卡 x16 的速度:
WS X299 SAGE
WS X299 SAGE User Guide
在多卡并行訓練的時候,PCI-E 的傳輸速度決定了梯度同步的速度,如果你訓練的的模型比較大,希望搭建多卡機器,建議選擇支持四路 PCI-E x16 的主板。
顯卡
顯卡性能表
訓練需要 FP32 和 FP16 的性能,推斷需要 INT8 的性能。訓練大模型需要注意顯存大小。
考慮成本可以買 RTX 2080Ti,想要高性能并且高性價比可以買 TITAN RTX,土豪可以選 Tesla V100。
RTX 2080 顯存較小,不推薦。GTX1080Ti 已經出了太久了,網上都是二手卡,不推薦。
渦輪與風扇
采購顯卡的時候,一定要注意買渦輪版的,不要買兩個或者三個風扇的版本,除非你只打算買一張卡。
因為渦輪風扇的熱是往外機箱外部吹的,所以可以很好地帶走熱量,散熱比較好。如果買三個風扇的版本,插多卡的時候,上面的卡會把熱量吹向第二張卡,導致第二張卡溫度過高,影響性能。
風扇顯卡很有可能是超過雙槽寬的,第二張卡可能插不上第二個 PCI-E 插槽,這個也需要注意。
渦輪散熱
風扇散熱
服務器推斷卡
除了用于訓練,還有一類卡是用于推斷的(只預測,不訓練),如:
這些卡全部都是不帶風扇的,但它們也需要散熱,需要借助服務器強大的風扇被動散熱,所以只能在專門設計的服務器上運行,具體請參考英偉達官網的說明。
性價比之選應該是 Tesla T4,但是發揮全部性能需要使用 TensorRT 深度優化,目前仍然存在許多坑,比如當你的網絡使用了不支持的運算符時,需要自己實現。
英偉達只允許這類卡在服務器上運行,像 GTX 1080Ti、RTX 2080Ti 都是不能在數據中心使用的。
No Datacenter Deployment. The SOFTWARE isnot licensed for datacenter deployment, except that blockchain processing in adatacenter is permitted.
硬盤
硬盤類型
常用硬盤接口有三種:
SATA3.0,速度 600MB/s
SAS,速度 1200MB/s
PCIE 3.0 x4(NVMe),速度 3.94GB/s
參數對比
下面是根據代表產品查詢的參數:
注:
4K 隨機讀寫的隊列深度為 32
SATA3 機械硬盤沒有太好的數據來源,所以數據是經驗值
SATA3 固態硬盤數據來源:三星(SAMSUNG)1TB SSD固態硬盤 SATA3.0接口 860 EVO
NVMe 固態硬盤數據來源:英特爾(Intel)1TB SSD固態硬盤 M.2接口(NVMe協議) 760P系
在面對大量小文件的時候,使用 NVMe 硬盤可以一分鐘掃完 1000萬文件,如果使用普通硬盤,那么就需要一天時間。為了節省生命,簡化代碼,硬盤建議選擇 NVMe 協議的固態硬盤。
如果你的主板不夠新,沒有NVMe 插槽,你可以使用 M.2 轉接卡將 M.2 接口轉為PCI-E 接口。
M.2 轉接卡
內存
內存容量的選擇通常大于顯存,比如單卡配 16GB 內存,四卡配 64GB 內存。由于有數據生成器(DataLoader),數據不必全部加載到內存里,通常不會成為瓶頸。
電源
先計算功率總和,如單卡 CPU 100W,顯卡 250W,加上其他的大概 400W,那么就買 650W 的電源。
雙卡最好買 1000W 以上的電源,四卡最好買 1600W 的電源,我這里實測過四卡機用 1500W 的電源來帶,跑起來所有的卡以后會因為電源不足而自動關機。
一般墻上的插座只支持 220V 10A,也就是 2200W 的交流電,由于電源要把交流電轉直流電,所以會有一些損耗,最高只有1600W,因此如果想要支持八卡,最好不要在家嘗試。八卡一般是雙電源,并且需要使用專用的 PDU 插座,并且使用的是 16A 插口,如果在家使用,會插不上墻上的插座。
網卡
一般主板自帶千兆網卡。如果需要組建多機多卡集群,請聯系供應商咨詢專業的解決方案。
機箱
如果配單卡,可以直接買個普通機箱,注意顯卡長度能放下就行。
如果配四卡機器,建議買一個 Air 540 機箱,因為我正在用這一款。
Air 540
顯示器
深度學習工作站裝好系統以后就不需要顯示器了,裝系統的時候使用手邊的顯示器就行。
鍵盤鼠標
深度學習工作站裝好系統以后就不需要鍵盤鼠標了,裝系統的時候使用手邊的鍵盤鼠標就行。
?
參考鏈接
Turing 架構白皮書
Volta 架構白皮書
RTX 2080 Ti Deep Learning Benchmarks with TensorFlow - 2019
https://developer.nvidia.com/deep-learning-performance-training-inference
https://www.nvidia.cn/object/where-to-buy-tesla-catalog-cn.html
https://www.supermicro.org.cn/support/resources/gpu/
https://www.geforce.com/drivers/license/geforce
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群請掃碼進群(如果是博士或者準備讀博士請說明):總結
以上是生活随笔為你收集整理的【深度学习】如何配置一台深度学习工作站?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习基础】使用python实现BP
- 下一篇: 【Python基础】Pandas参数设置