弹性服务器架构-连接一切的力量
計算-互連-數據
一顆芯片,寄存器通過總線向運算器輸送數據。一臺服務器,內存通過DDR總線與處理器完成數據互動。一個數據中心,存儲集群通過以太網與計算集群形成對數據流的處理和加工。互連是算力與數據的紐帶,從芯片內部到數據中心,都能很好地詮釋這一基本體系組合。由此展開對服務器體系架構的遐想,在這個注重高效計算和存儲的時代,實現多元化系統資源的敏捷交付:端到端的解耦型部件資源,借助于高性能的可定義互連,按需組裝并柔性交付服務器,具備裸機性能,卻提供更靈活的生命周期管理效率。
GONGGA系統架構
GONGGA系統正是我們面向這一理念的全面實踐,讓服務器配置具備”可編程”的原力。科技演進步伐持續突飛猛進,芯片架構與工藝的迭代,物理顆粒的升級與創新,總線協議的優化與革命, 推動著供給側的多樣性。同時人工智能/云計算/IoT等業務的崛起,業務性能與配置配比需求的差異化訴求則是剛需。
如何做到內外融合的發展,具有騰訊基因的GONGGA服務器正是基于這樣的思考,開啟了對未來的一次探索:統一系統形態,靈活資源配置。2U規格的系統規格,在騰訊基礎架構中擁有最好的適配性。小小的機箱內,不再有CPU/內存等傳統計算單元,取而代之的是高速PCIe 互連芯片,通過PCIe內部互連拓撲,實現PCIe設備與傳統CPU計算資源的解耦合。基于PCIe互連拓撲,通過管理芯片實現PCIe資源的重構。這樣就實現了業務端在源擴充的精準匹配,可以更深層次的針對業務進行資源調整,為智能分配提供基礎。通過對傳統資源的解耦和重構, 依托騰訊自動化運營平臺, 滿足業務部門的動態需求。
高性能存儲
系統前窗(位置1)可以配置了多種模塊化結構,可以容納24塊U.2 NVMe盤或者32條Ruler
SSD,單盤30TB的存儲容量,讓單系統提供了多達1PB的高性能存儲密度。通過GONGGA系統內置的PCIe交換芯片,就可以開啟基于裸盤存儲的共享經濟初級模式。多用戶按需對物理盤位進行切分使用,屬于PCIe直掛形態,硬件性能無損。后期設計升級后可以基于SR-IOV進行更加精細化的空間劃分和管理。例如,當現有系統需要存儲升級或擴容時,用戶可以在現有核心系統增加一塊PCIe擴展卡,無須更換新服務系統,即可實現升級和擴容,避免大量數據遷移,并提高現有系統的使用有效性。
在后窗配置全高全長NVMeoF板卡, 那就是塊設備輸出的共享進階模式。多張NVMeoF板卡南向連接NVMe設備,北向提供100GbE網絡帶寬,以NVMeoF協議對外提塊設備服務,PCIe交換芯片內建板卡間通信鏈路,在未來能提供額外的硬件冗余擴展功能。通過這樣形態的組合,結合應用層的資源調度和負載均衡,就可以實現類似于AWS EBS的網絡塊設備服務了。NVMeoF板卡上的ARMv8擁有強大的處理能力,也支持相關二次開發,滿足自有協議的實現和優化。
AI
在AI in All的時代,GONGGA系統可以支持的部件中少不了各類計算加速硬件。從Training導向的全高全長規格GPU,多形態的Inference加速卡,到通用FPGA板卡,都可以量化支持。主流訓練GPU系統以一機8卡為主,使用GONGGA系統可以實現更靈活的擴展。4臺GONGGA系統組裝為擁有16卡計算的加速系統,GPU與處理器之間的帶寬可通過接線形式自由配置,還能支持一系列提升訓練效率的功能:GPUDirect
RDMA,GPU之間的P2P通信等。
當前窗裝滿24塊U.2形態的Inference加速卡,可以想象一下基于單機的圖片/語音/文本等數據處理能力了。GONGGA系統又融合了通用計算的支持能力,可容納8張單路高主頻x86微服務器刀片,滿足基于游戲和Web服務器等定向應用的訴求。
面向未來的互連理念
面向各類異構設備互連的解耦與融合,是GONGGA系統的基本設計思想。從1.0版本的PCIe互連開始,Gen-Z/OpenCAPI/CCIX等互連技術在業界蓬勃發展,需要我們深入探索和參與,結合騰訊運營理念,擁抱開放,
逐步迭代。
總結
以上是對系統設計和功能場景的介紹,我們也需要對GONGGA系統帶來的價值來進行分析比對。對于AI應用4U8卡形態的訓練機型,2臺GONGGA系統加上一臺通用服務器作為機頭可以滿足同等功能,由于采用了自主研發模式,保證成本透明度,比同期采購的4U8卡機型在L6級別顯著降低。針對NVMe塊設備系統,以2臺2路服務器并各配16塊NVMe盤為參照,1臺GONGGA系統可以配置32塊Ruler-SSD和內置2塊單路系統機頭,以1:16形式提供相同塊設備服務,而且具備機頭間互備的硬件能力,降低系統總成本的同時, 也實現機架位的隱性擴容。還有其他擴容和升級項目,面向硬件的連接方式,減少了數據遷移和整體升級的代價,可以有效提升存量服務器的使用率,不作一一展開討論了。
總結GONGGA系統的核心能力:1、面向多種硬件資源的解耦和重構能力;2、通用服務器形態下非凡的資源兼容和可視化能力;3、面對應用層完全透明的多種互聯技術;4、依托于騰訊高度自動化運維平臺的智能管理能力。仰望星空,勵志前行,We’re heading for GONGGA!
總結
以上是生活随笔為你收集整理的弹性服务器架构-连接一切的力量的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯AI Lab刘霁谈机器学习,异步计算
- 下一篇: 腾讯安全Blade团队亮相CanSecW