统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务
01 背景
統一調度項目 1.0 成功支持 2021 年雙 11 大促,統一調度方案實現了從容器調度到快上快下全流程的全面升級和優化。項目組 100 多位核心成員,成功走過了立項、POC、方案評審設計、封閉開發測試、大促沖刺各個階段,歷經考驗成功上線。
作為阿里巴巴的核心項目,阿里云(容器團隊和大數據團隊)聯合阿里巴巴資源效能團隊、螞蟻容器編排團隊,歷時一年多研發和技術攻堅,實現了從“混部技術”到今天“統一調度技術”的全面升級。
今天,統一調度已實現阿里巴巴電商、搜推廣、MaxCompute 大數據和螞蟻業務的調度全面統一,實現了 pod 調度和 task 高性能調度的統一,實現了完整的資源視圖統一和調度協同,實現了多種復雜業務形態的混部和利用率提升,全面支撐了全球數十個數據中心、數百萬容器、數千萬核的大規模資源調度。
云原生產品家族
02 統一調度技術全面升級
云計算的本質,就是把小的計算碎片變成更大的資源池,充分削峰填谷,提供極致的能效比。對數據中心低碳節能、綠色環保、科技發展、更高效運轉的追求下,阿里巴巴對技術的探索永無止境。阿里的技術人有一個理想,讓數據中心的算力成為水、電、氣一樣的基礎設施,開箱即用。
為了讓業務間峰谷互補的優勢發揮到最大,過去我們構建了混部技術,打破多資源池的割裂,不同計算領域的多調度大腦協同共用資源;老一代的混部技術帶來了資源的統一和利用率的巨大提升,但多調度器的本質讓我們的追求受限。
阿里巴巴持續追求構建可支撐更多復雜任務無差別混部、極致彈性互補、領先的新一代調度技術,實現極致的全局最優調度,提供更高質量的算力。今年我們在技術上到達一個新的臨界點,容器服務 ACK 牽頭并協同眾多團隊,啟動了基于 ACK 的新一代統一調度項目。
容器產品家族
今年雙 11 首次規模化亮相的統一調度,通過一套調度協議、一套系統架構,統一管理底層的計算、存儲、網絡資源,超大規模、高效率、自動化的資源彈性,實現了業界新的突破。在離線混部、離在線混部、新的快上快下技術,減少數萬臺服務器采購,帶來數億計的資源成本優化和大促效率提升。
今年首次引入大規模數據智能來進一步豐富調度能力,提供了包括實時的負載感知,自動規格推薦(VPA),差異化 SLO 工作負載編排,CPU 歸一化,支持周期性預測的 HPA,分時復用等,提供了更多維度的成本優化技術和高可靠的容器運行時保障。
圍繞著新一代的統一調度,阿里巴巴電商、搜索、大數據等眾多平臺、不同類型的復雜計算資源都以一致的方式申請資源,統籌的額度管理和資源規劃,數十萬核資源借用秒級即可完成。基于統一調度,阿里云與螞蟻也實現了調度技術融合,螞蟻生態全面升級為統一調度。調度平臺為未來帶來更多想象空間,例如,我們可以通過眾多手段,例如價格杠桿等經濟因素,驅動阿里內部的業務更合理使用各個數據中心的資源,確保數據中心全局資源水位盡可能平衡,以改進數據中心的能效比。
阿里云容器服務 ACK 對標準 Kubernetes 進一步增強,更高性能吞吐和更低的響應延遲構建穩定可靠的超大規模單集群能力,平穩支撐了 1.2 萬節點超 100 萬核的超大規模集群、為統一調度大資源池化的生產運行提供了堅實的基座。阿里巴巴眾多類型的復雜資源也實現了基于容器服務底座 ACK 的全面融合升級。
除電商、搜索、大數據等阿里經典場景外,統一調度也極大的賦能了新型的技術創新。以直播電商場景為例,決策對實時計算的需求很高,比如薇婭雙 11 直播間 9 千多萬在線觀看人數的產生的瀏覽、交易等實時數據的秒級數據分析。今年阿里將實時計算引擎 Blink 升級為基于統一調度的新一代引擎,在成本、性能、穩定性以及用戶體驗上獲得大幅提高,大規模作業拉起性能相比 Yarn 提速 40%,錯誤恢復效率提升 100%,通過統一調度技術在雙 11 大促備戰接節省數十萬 CPU,在集群 CPU 水位超過 65% 時,實現全局零熱點,保障了各直播推流的時效性。
在 Serverless 方面,函數服務首次在集團內得到大規模落地,并應用于雙 11 支撐了淘寶搜索推薦、數據處理、前端 SSR 等 10 多個業務場景。借助統一調度技術,函數計算可以和阿里資源池內實現大規模混跑,充分利用集群的碎片資源,徹底解決了 Serverless 場景在流量低峰期的資源閑置成本問題。基于 ACK 鏡像按需加載和網絡棧優化,函數實例的冷啟動時間小于 150ms,并結合池化技術保證了函數計算容器的冷啟動率小于 5%,這是保證雙 11 大促成功的關鍵。
03 未來展望
未來,容器服務 ACK 將阿里巴巴統一調度的經驗輸出到整個行業,支撐更多新型計算負載生態、新型技術形態的架構演進,實現云計算無處不在,全面賦能更多的企業,釋放更大的低碳價值紅利。
原文鏈接:https://developer.aliyun.com/article/804004?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
以上是生活随笔為你收集整理的统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重拾面向对象软件设计
- 下一篇: 如何让智能客服成为企业的生产力工具?