Tesla M40 训练机组装与散热改造
對了,我最近開通了微信公眾號,計劃是兩邊會同步更新,并逐步的會將博客上的文章同步至公眾號中。感興趣的朋友可以搜索“里先森sements”來關(guān)注,歡迎來玩~!
本文簡要介紹了我在購置 Tesla M40 計算卡并組裝一臺訓(xùn)練機中所遇到的問題與解決方法。在研究與實際操作期間,以下文章給予了我很大的幫助!
關(guān)于 Tesla M40 電源連接器與 ATX 電源接口識別:
- [1] 8針EPS12V和PCI-E連接器之間有區(qū)別嗎?
https://qastack.cn/superuser/849265/is-there-a-difference-between-8-pin-eps12v-and-pci-e-connectors - [2] All about the various PC power supply cables and connectors
http://www.playtool.com/pages/psuconnectors/connectors.html
關(guān)于戴爾 PowerEdge R720 介紹以及配置其作為訓(xùn)練服務(wù)器:
- [3] 可能是最吵鬧的家用服務(wù)器——戴爾PowerEdge R720開箱_服務(wù)器_什么值得買
https://post.smzdm.com/p/a25r33lp/ - [4] 淡黃的煉丹爐(篇一):DELL R720深度學(xué)習(xí)Server上手熟悉_whstudio123的博客-CSDN博客_dellr720主板詳解
https://blog.csdn.net/whstudio123/article/details/120559611
關(guān)于 Tesla M40 安裝與散熱改造:
- [5] 當泰坦X級計算卡遇上i9級CPU,礦潮下的大顯存過渡學(xué)習(xí)卡?—Tesla M40安裝過程及測試_嗶哩嗶哩_bilibili: https://www.bilibili.com/video/BV1FL41157JU
- [6] 礦潮下的泰坦X級大顯存過渡學(xué)習(xí)計算顯卡?—Tesla M40散熱改造及亮機卡建議_嗶哩嗶哩_bilibili: https://www.bilibili.com/video/BV1jZ4y1f7bE
- [7] NVIDIA TESLA M40 24G的奇妙游戲之旅 – Fantasy Land
https://east.moe/?p=1264 - [8] Gaming on a Tesla M40: GTX TITAN X performance for a Third the price | Overclock.net: https://www.overclock.net/threads/gaming-on-a-tesla-m40-gtx-titan-x-performance-for-a-third-the-price.1777611/
- [9] mattdeuts.ch: Taming the Beast: Cooling a Nvidia Tesla M40
https://www.mattdeuts.ch/2022/01/taming-beast-cooling-nvidia-tesla-m40.html?m=1 - [10] NVIDIA Tesla M40 Double 36mm Fan Mount by mmittek - Thingiverse
https://www.thingiverse.com/thing:4069723 - [11] “nvidia tesla m40 fan” 3D Models to Print - yeggi
https://m.yeggi.com/q/nvidia+tesla+m40+fan/ - [12] Video SPECIAL - Nvidia Tesla M40 alla prova in game!! - YouTube: https://www.youtube.com/watch?v=5fHi60GZ5X4&t=162s&ab_channel=Falco75
1 - 需求與預(yù)研
我現(xiàn)有的筆記本內(nèi)部有一張 GTX1060,6G 的顯存在進行神經(jīng)網(wǎng)絡(luò)訓(xùn)練時不免有些捉襟見肘。此外,筆記本在進行訓(xùn)練時散熱也是個大問題,遂萌生了搭建專用訓(xùn)練服務(wù)器的想法。作為一個貧窮學(xué)生仔,我的基本需求也很簡單:便宜、大顯存。沖浪一圈后,發(fā)現(xiàn)上古 Tesla M40 計算卡很符合我的需求,24G 顯存版本在閑魚基本 1200 元即可拿下。盡管其算力大致只與 GTX 980Ti 持平,但跑的慢遠比不能跑強。如果預(yù)算還可以往上提個 1300 左右,大可直接拿下 Tesla P40 24G版本,算力可與 GTX 1080 Ti 持平。
但是 Tesla 系列計算卡大多為被動散熱設(shè)計,沒有主動散熱風(fēng)扇。此外,計算卡上的供電為 EPS 供電接口,與顯卡常用的 PCIE 供電接口并不相同[1,2]。收一個二手機架式服務(wù)器來使用是最為理想的,機箱內(nèi)的暴力風(fēng)扇可以給它提供充足的散熱氣流,riser 卡上也提供了專用的 EPS 供電接口。若要在臺式機箱中使用 Tesla M40,不僅需要考慮散熱改造,還要注意電源供電的問題。
EPS 8 Pin 接口 PCIe 8 Pin 接口與 EPS 8 Pin 接口比較EPS 8 Pin 與 PCIe 8 Pin 在接口樣式與電氣特性上都有區(qū)別。EPS 8 Pin 常用于主板 CPU 供電,因此你可以嘗試購買適合你電源的額外的 CPU 線纜來給 Tesla M40 供電,但是強烈建議在實際接入前測量其電氣特性是否正確。你也可以購置一條 PCIe 轉(zhuǎn) EPS 接口的電源轉(zhuǎn)接線,該轉(zhuǎn)接線使用兩個 PCIe 電源作為輸入,相對來說對大部分臺式機電源較為友好。
PCIe 轉(zhuǎn) EPS 電源線1.1 - 機架式服務(wù)器還是臺式工作站
原本在淘寶看上了一臺二手戴爾 PowerEdge R720 服務(wù)器,商家給出的配置與報價如下:
| 服務(wù)器 | PowerEdge R720 3.5寸 8盤位機架式服務(wù)器 | 1 臺 |
| CPU | E5 2650 | 2 顆 |
| RAM | 4G ECC 服務(wù)器內(nèi)存 | 4 條 |
| 電源 | 750w | 1 個 |
| 合計 1695 元 |
由于機房下架服務(wù)器數(shù)量較多,其配件價格通常也較為便宜。例如 3TB 的服務(wù)器拆機 SAS 硬盤通常 150 元即可入手,1100W 服務(wù)器拆機電源也僅需 120 元。在臺式工作站上,往往難以這樣低廉的價格買到放心的拆機配件。然而,購入服務(wù)器來搭建訓(xùn)練平臺往往需要面臨下面幾個問題:
- 冗長的啟動自檢時間
- 45 厘米寬,76 厘米長的 2U 機箱體積
- 毛重約 20 公斤
- 蕪湖起飛的開機風(fēng)扇噪音
如果你的使用場景對上述缺點不敏感,購置一臺機架式服務(wù)器無疑是擁有最大兼容性的解決方案,更多的參考請查看[3,4]。因為機架式服務(wù)器較大的噪音不適用于安放在辦公室使用,遂轉(zhuǎn)而規(guī)劃使用 X79 平臺的臺式工作站,其配置如下:
| CPU | E5 2650V2 | 58 | 淘寶 |
| CPU散熱 | 雜牌六銅管散熱器 適用 2011 針螺絲支架 | 62 | 淘寶 |
| 主板 | 華南 X79豪華大板 | 475 | 淘寶 |
| 內(nèi)存 | 服務(wù)器拆機 DDR3 ECC 1600MHz 16G * 2 | 256 | 淘寶 |
| 硬盤 | 500G SATA SSD + 500G HDD | 0 | 自有 |
| 電源 | 二手 美商艾湃電競 AJ850m 850瓦 | 300 | 閑魚 |
| 計算顯卡 | Tesla M40 24G | 1200 | 閑魚 |
| 亮機顯卡 | AMD Radeon HD 8470 | 0 | 自有 |
| 機箱 | 航嘉暗夜獵手5 | 89 | 淘寶 |
| 機箱風(fēng)扇 | 航嘉清風(fēng) * 2 | 19.9 | 淘寶 |
| 合計價格 | 2459.9 |
硬盤使用了一塊西部數(shù)據(jù) SN550 500G 的 M.2 SATA 固態(tài)硬盤以及一塊實驗室拆機 500G 機械硬盤。由于學(xué)校支持掛載 EasyConnect 實現(xiàn)外網(wǎng)訪問,而華南 X79 主板支持在開機時通過快捷鍵選取本次的啟動盤 (Fast Boot)。因此,計劃在固態(tài)硬盤中安裝 Windows 10 ,機械硬盤中安裝 Ubuntu,并將機械硬盤設(shè)為默認啟動盤。這樣一來,關(guān)機狀態(tài)下只需要讓他人幫我按下開機鍵便可以直接進入 Linux 環(huán)境,即使處于外網(wǎng)環(huán)境依舊可以通過 SSH 進行訪問與控制。搭配 Tmux,可以非常方便的查看控制臺的運行輸出結(jié)果 ( 使用終端復(fù)用器 Tmux 解綁終端與會話)。而日常使用時,只需要在啟動時按住快捷鍵 (F7) 即可選取進入 Windows 系統(tǒng)。
配件合體1.2 - 需要注意的地方
首先,Tesla M40 不帶顯示接口,作為臺式工作站使用的話需要為其搭配一張亮機顯卡。這里我使用的是實驗室拆機顯卡 ATI HD 8470。如若你準備使用 NVIDIA 的顯卡作為亮機卡,請注意 Tesla M40 的驅(qū)動是否兼容。我嘗試參考他人的方案[5,6,8]在 Windows 10 中選擇 Tesla M40 作為高性能 GPU 進行顯示,發(fā)現(xiàn)了以下的一些問題:
- 在不安裝 ATI HD 8470 驅(qū)動的情況下(包括了斷網(wǎng)避免 windows 自動安裝相關(guān)驅(qū)動的情況),可以對應(yīng)用程序指定使用 Tesla M40,在運行應(yīng)用程序時也可以看到 Tesla M40 參與了圖形繪制任務(wù)。但代價是任何沒有被指定的應(yīng)用程序都通過微軟兼容適配器驅(qū)動進行處理,桌面也非常卡頓。
- 在安裝好 ATI HD 8470 驅(qū)動后,在圖形性能首選項菜單中,無論是節(jié)能還是高性能 GPU 都只顯示 ATI HD 8470。嘗試修改注冊表[8]也并未解決這個問題
- 切換到 Windows 10 Insider 版本后,在圖形性能首選項菜單中只有節(jié)能與高性能選項,沒有“特定的GPU”下拉欄
- Windows 11 暫不支持 E5 2650V2
其次,如若你準備使用其他主板或電源,請注意以下幾點:
- 主板 BIOS 需支持開啟 “Above 4G decoding” 或類似功能以支持 Tesla M40 24G 的顯存尋址
- 如若沒有核顯,主板 PCIE 插槽需要支持同時安裝計算顯卡以及你選擇的亮機顯卡
- 電源可以引出額外的 EPS 8 pin 接口以供 Tesla M40 使用,或者有兩條 8 針 PCIE 供電線纜(可搭配專用轉(zhuǎn)接線來給 Tesla M40 供電)
- 700 瓦以上的供電能力
此外,請盡可能選擇擁有足夠的顯卡及其附加風(fēng)扇的安裝空間的機箱(建議 320CM 以上)。
標稱兼容320mm顯卡的機箱安裝效果盡管依靠 PCIe 擋板足以固定住這張計算卡,但考慮到其本為服務(wù)器豎插設(shè)計,添加一個外部支撐更為保險。相比購置專用的顯卡支架,我選擇裁剪快遞箱瓦楞紙板這種更為環(huán)保的方式。其支撐效果好,支持任意調(diào)節(jié)高度,并且由于瓦楞紙板自身結(jié)構(gòu)特性,還可以濾除部分震動對計算卡的影響。
環(huán)保耐用的支架2 - 散熱修改與安裝
顯卡到手后,首先要解決的便是其在機箱內(nèi)的散熱問題。設(shè)計用于服務(wù)器環(huán)境的 Tesla M40 擁有較大的被動散熱面積,適合在服務(wù)器等高氣流環(huán)境中散熱,但在個人臺式工作站中使用極易觸及其溫度墻造成過熱死機。目前國內(nèi)外常用的散熱改裝方法大致可分為:風(fēng)冷、水冷或者外掛風(fēng)扇。本著成本與安全優(yōu)先的原則,這里不討論水冷改裝。
2.1 - 外掛風(fēng)扇
在顯卡外加裝風(fēng)扇吹風(fēng)的方案[5-7]便宜大碗,但美中不足的是會顯著增加顯卡的體積,并且需要自購合適的螺絲進行安裝。常見的風(fēng)扇選型有服務(wù)器暴力風(fēng)扇,9/12cm 家用機箱風(fēng)扇,以及筆記本電腦常使用的渦輪風(fēng)扇(鼓風(fēng)機式)。
2.1.1 - 開膛散熱
由于 Tesla M40 的散熱片有折彎,不適用 Tesla K80 等開放式散熱片上外掛風(fēng)扇的做法。當然,雖然這里不推薦對原裝散熱進行開膛手術(shù),但如果你想嘗試,可以參考鏈接[12]中的做法進行改造。
折彎的散熱片封閉了氣流通道 開膛散熱片并外掛風(fēng)扇散熱2.1.2 - 尾端3628風(fēng)扇
我首先嘗試了 3628 服務(wù)器暴力風(fēng)扇,風(fēng)扇型號為 DB03628B12S,外形尺寸為 36 * 36 * 28 mm。固定這種風(fēng)扇的方式可大致分為兩類,一類是使用螺絲或膠帶將其固定在顯卡末端,另一類則是 3D 打印專用的風(fēng)扇罩來固定。如若選擇直接使用螺絲進行固定,需要一顆 M3 * 35 mm 螺絲來將風(fēng)扇固定至顯卡末端的螺絲孔上,并依靠擰緊螺絲施加的壓力或者靠在電源線上防止風(fēng)扇移動。如若你選擇的風(fēng)扇厚度與我的不同,可選購比風(fēng)扇長約 3mm 的螺絲。
使用膠帶(上)或者螺絲(下)固定暴力風(fēng)扇直接固定的方式成本最低,后端增加長度也僅有風(fēng)扇自身的 28mm,但該方法大多只能固定一個風(fēng)扇。若想壓榨散熱,還需選擇專用的 3D 打印的風(fēng)扇罩。參考鏈接[10]提供的可對接兩個 3628 風(fēng)扇的風(fēng)扇罩模型可以較好的滿足需求,但該風(fēng)扇罩在接入風(fēng)扇后會在顯卡后端增加約 60mm 長的空間占用,整卡帶風(fēng)扇長度將達到 330mm 左右。如若準備選擇該方案,請注意你的機箱對顯卡長度的限制。此外,部分設(shè)計給其他 Tesla 計算卡使用的風(fēng)扇罩可能也可以使用,但是需要注意其固定至散熱器末端的螺絲開孔是否為適用于 Tesla M40 的均勻分布式。
參考鏈接[10]提供的模型效果2.1.3 - 尾端9厘米風(fēng)扇
受限于風(fēng)扇尺寸限制,小尺寸暴力風(fēng)扇提高風(fēng)量的唯一途徑便是增加轉(zhuǎn)速,這不可避免會產(chǎn)生的噪音。即使使用風(fēng)扇調(diào)速器,也難以在噪音與風(fēng)量間達到令人滿意的平衡。在這種情況下,可以嘗試尋找可適用更大尺寸風(fēng)扇的風(fēng)扇罩。閑魚上有部分賣家出售自制的 9 厘米風(fēng)扇罩模型,可以購置后自行打印安裝。
閑魚上銷售的9厘米風(fēng)扇罩模型值得注意的是,加上這類風(fēng)扇罩后,計算卡整體的長度將達到 300mm 左右,而常見的 9 厘米風(fēng)扇厚度大多為 25mm ,少部分薄款風(fēng)扇為 15mm。這意味著整體長度將達到 325mm左右,且會向下侵占一部分機箱空間。
標稱支持 320mm 顯卡長度的機箱使用該方案的效果2.1.3 - 尾端4020離心風(fēng)扇
除開常見的軸流風(fēng)扇,市面上還有渦輪風(fēng)扇。4020 渦輪風(fēng)扇適合直接塞在計算卡散熱器末端進風(fēng)口,但購入后實測的風(fēng)量差強人意,故沒有嘗試該方案。
4020渦輪風(fēng)扇2.2 - 更換主動散熱
由于機箱空間有限,最終還是選擇替換為主動散熱器的方案。如若想替換 Tesla M40 原裝的散熱器為主動風(fēng)冷散熱,需選購 58 * 58 mm 孔距的散熱器,并且要確保板卡尾端的供電接口不會與散熱器翅片產(chǎn)生沖突。此外,還需要注意是否有孔位來固定 PCIE 擋板,否則顯卡只能依靠插槽支撐。根據(jù)搜集到的資料來看,改裝者們推薦的散熱器有:
- 影馳 GTX 1080Ti 大將(GALAX GTX 1080Ti EXOC)
- 七彩虹 RTX 2080Ti Turbo
- 耕升 GTX 1080ti 追風(fēng)
- 影馳海外版 GTX 960/970
- 影馳 GTX 970 骨灰黑將
上述散熱器的尾端都為供電接口留出了空隙,大多僅需要簡單的對散熱翅片進行修剪即可適用于 Tesla M40 計算卡。出于散熱效果的考慮,更推薦選購 1080Ti 及以上的散熱器。注意,僅實際上手確認影馳 GTX 1080Ti 大將可兼容修改,如欲使用其他散熱器型號,請確認是否兼容
影馳 GTX1080TI 大將,散熱器尾端的空隙為板卡的 EPS 8 pin 供電口留出了位置2.2.1 - 原裝散熱拆解
原裝散熱的拆解較為簡單,卸下所有螺絲即可,原裝散熱所使用的螺絲如下表所示:
| 外殼 | 內(nèi)六角沉頭 M2*5 | 8 |
| 背板 | 十字沉頭 M2.5*5 | 1 |
| 背板 | 十字沉頭 M2.5*7 | 14 |
| 核心散熱 | 十字沉頭彈簧螺絲 M2.5*9 | 4 |
| PCIe 擋板 | 十字沉頭 M2.5*5 | 3 |
由于購置的二手主動散熱器大多不帶背板,因此將繼續(xù)使用原裝散熱的背板。如若你希望更換背板上顯存的導(dǎo)熱墊,選購 1.5mm 厚度的即可,這個厚度的導(dǎo)熱墊也適用于正面顯存。
2.2.2 - 主動散熱安裝
在安裝過程中,我所用到的材料如下表所示:
| 散熱器 | 影馳 GTX 1080Ti 大將(GALAX GTX 1080Ti EXOC) | 閑魚 | 100 |
| 導(dǎo)熱硅脂 | 信越7921 | 淘寶 | 10 |
| 導(dǎo)熱泥 | 7W/m-K 20g | 淘寶 | 33.9 |
| PCIe 擋板 | 與影馳 GTX 1080Ti 大將配套的擋板 | 淘寶 | 15 |
| 風(fēng)扇溫控模塊 | 溫控風(fēng)扇調(diào)速模塊,DC調(diào)壓 | 淘寶 | 10 |
| 螺絲 | 與影馳 GTX 1080Ti 大將配套的 M2/M3 螺絲與墊片 | 自有 | - |
| 高溫膠帶 | 絕緣與固定溫控模塊 | 自有 | - |
| 跳線 | 用于延長散熱器風(fēng)扇供電線 | 自有 | - |
| 合計 | 168.9 |
值得一提的是,這里我選購的導(dǎo)熱泥為 7W/m-K,與萊爾德 HD90000 的導(dǎo)熱能力接近。實測 M40 計算卡在訓(xùn)練過程中的發(fā)熱量尚不需要如此高規(guī)格的導(dǎo)熱泥。出于成本考慮,選取 3W/m-K 左右導(dǎo)熱能力的導(dǎo)熱泥的即可。此外,20g 導(dǎo)熱泥只夠單面顯存及供電部分使用,如若你準備給背板處的顯存也更換為導(dǎo)熱泥,建議購置 40g。
涂抹導(dǎo)熱泥和導(dǎo)熱硅脂修剪散熱翅片,延長散熱器風(fēng)扇供電線,安裝螺絲固定散熱器后,更換工作便大功告成。雖然板卡上靠近散熱器部分的 EPS 鏈接器針腳為接地,還是建議修剪散熱器翅片后在斷面處黏貼高溫膠帶,以防后續(xù)拆裝時劃傷或短路。在安裝過程中可能出現(xiàn)需要添加墊片的情況,因此建議預(yù)先備好十來個左右的 M3 墊片。
使用高溫膠帶進行隔離 注意螺絲處添加的墊片2.2.3 - 裝機
測量沒有短路后,便可將其接入電腦進行測試了。在此之前,可以將購置的溫控風(fēng)扇模塊安裝好。建議使用高溫膠帶包裹其金屬頭部預(yù)防短路,并將溫控探頭伸入到散熱器的熱管之間,注意不要與散熱器風(fēng)扇有刮擦。
改裝主動散熱后的安裝效果3 - 散熱與訓(xùn)練測試
使用 Ki-Unet 的訓(xùn)練過程作為散熱與顯存容量測試。盡管訓(xùn)練過程中 GPU 利用率存在波動(可能為網(wǎng)絡(luò)結(jié)構(gòu)問題),因此測試結(jié)果僅供參考。GPU 熱點溫度維持在 70° 以下,平均溫度約 50°。數(shù)據(jù)集中圖像大小為 512 *512,縮放 0.5x 進行訓(xùn)練,顯存占用 14.7G。訓(xùn)練機安放在我身側(cè)20cm左右的位置上,整體訓(xùn)練過程中可以很明顯感受到溫控模塊在實時調(diào)整散熱器風(fēng)扇轉(zhuǎn)速,但整體噪音依舊在可接受的范圍內(nèi)。
訓(xùn)練過程中的溫度情況 訓(xùn)練過程中的資源利用情況總結(jié)
以上是生活随笔為你收集整理的Tesla M40 训练机组装与散热改造的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 公交管理系统 代码_java公
- 下一篇: PHP修改图片上的文字,ps图片中怎么更