首次 统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务
簡(jiǎn)介:?今年雙 11 首次規(guī)模化亮相的統(tǒng)一調(diào)度,通過一套調(diào)度協(xié)議、一套系統(tǒng)架構(gòu),統(tǒng)一管理底層的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源,超大規(guī)模、高效率、自動(dòng)化的資源彈性,實(shí)現(xiàn)了業(yè)界新的突破。在離線混部、離在線混部、新的快上快下技術(shù),減少數(shù)萬臺(tái)服務(wù)器采購(gòu),帶來數(shù)億計(jì)的資源成本優(yōu)化和大促效率提升。
01 背景
統(tǒng)一調(diào)度項(xiàng)目 1.0 成功支持 2021 年雙 11 大促,統(tǒng)一調(diào)度方案實(shí)現(xiàn)了從容器調(diào)度到快上快下全流程的全面升級(jí)和優(yōu)化。項(xiàng)目組 100 多位核心成員,成功走過了立項(xiàng)、POC、方案評(píng)審設(shè)計(jì)、封閉開發(fā)測(cè)試、大促?zèng)_刺各個(gè)階段,歷經(jīng)考驗(yàn)成功上線。
作為阿里巴巴的核心項(xiàng)目,阿里云(容器團(tuán)隊(duì)和大數(shù)據(jù)團(tuán)隊(duì))聯(lián)合阿里巴巴資源效能團(tuán)隊(duì)、螞蟻容器編排團(tuán)隊(duì),歷時(shí)一年多研發(fā)和技術(shù)攻堅(jiān),實(shí)現(xiàn)了從“混部技術(shù)”到今天“統(tǒng)一調(diào)度技術(shù)”的全面升級(jí)。
今天,統(tǒng)一調(diào)度已實(shí)現(xiàn)阿里巴巴電商、搜推廣、MaxCompute 大數(shù)據(jù)和螞蟻業(yè)務(wù)的調(diào)度全面統(tǒng)一,實(shí)現(xiàn)了 pod 調(diào)度和 task 高性能調(diào)度的統(tǒng)一,實(shí)現(xiàn)了完整的資源視圖統(tǒng)一和調(diào)度協(xié)同,實(shí)現(xiàn)了多種復(fù)雜業(yè)務(wù)形態(tài)的混部和利用率提升,全面支撐了全球數(shù)十個(gè)數(shù)據(jù)中心、數(shù)百萬容器、數(shù)千萬核的大規(guī)模資源調(diào)度。
云原生產(chǎn)品家族
02 統(tǒng)一調(diào)度技術(shù)全面升級(jí)
云計(jì)算的本質(zhì),就是把小的計(jì)算碎片變成更大的資源池,充分削峰填谷,提供極致的能效比。對(duì)數(shù)據(jù)中心低碳節(jié)能、綠色環(huán)保、科技發(fā)展、更高效運(yùn)轉(zhuǎn)的追求下,阿里巴巴對(duì)技術(shù)的探索永無止境。阿里的技術(shù)人有一個(gè)理想,讓數(shù)據(jù)中心的算力成為水、電、氣一樣的基礎(chǔ)設(shè)施,開箱即用。
為了讓業(yè)務(wù)間峰谷互補(bǔ)的優(yōu)勢(shì)發(fā)揮到最大,過去我們構(gòu)建了混部技術(shù),打破多資源池的割裂,不同計(jì)算領(lǐng)域的多調(diào)度大腦協(xié)同共用資源;老一代的混部技術(shù)帶來了資源的統(tǒng)一和利用率的巨大提升,但多調(diào)度器的本質(zhì)讓我們的追求受限。
阿里巴巴持續(xù)追求構(gòu)建可支撐更多復(fù)雜任務(wù)無差別混部、極致彈性互補(bǔ)、領(lǐng)先的新一代調(diào)度技術(shù),實(shí)現(xiàn)極致的全局最優(yōu)調(diào)度,提供更高質(zhì)量的算力。今年我們?cè)诩夹g(shù)上到達(dá)一個(gè)新的臨界點(diǎn),容器服務(wù) ACK 牽頭并協(xié)同眾多團(tuán)隊(duì),啟動(dòng)了基于 ACK 的新一代統(tǒng)一調(diào)度項(xiàng)目。
容器產(chǎn)品家族
今年雙 11 首次規(guī)模化亮相的統(tǒng)一調(diào)度,通過一套調(diào)度協(xié)議、一套系統(tǒng)架構(gòu),統(tǒng)一管理底層的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源,超大規(guī)模、高效率、自動(dòng)化的資源彈性,實(shí)現(xiàn)了業(yè)界新的突破。在離線混部、離在線混部、新的快上快下技術(shù),減少數(shù)萬臺(tái)服務(wù)器采購(gòu),帶來數(shù)億計(jì)的資源成本優(yōu)化和大促效率提升。
今年首次引入大規(guī)模數(shù)據(jù)智能來進(jìn)一步豐富調(diào)度能力,提供了包括實(shí)時(shí)的負(fù)載感知,自動(dòng)規(guī)格推薦(VPA),差異化 SLO 工作負(fù)載編排,CPU 歸一化,支持周期性預(yù)測(cè)的 HPA,分時(shí)復(fù)用等,提供了更多維度的成本優(yōu)化技術(shù)和高可靠的容器運(yùn)行時(shí)保障。
圍繞著新一代的統(tǒng)一調(diào)度,阿里巴巴電商、搜索、大數(shù)據(jù)等眾多平臺(tái)、不同類型的復(fù)雜計(jì)算資源都以一致的方式申請(qǐng)資源,統(tǒng)籌的額度管理和資源規(guī)劃,數(shù)十萬核資源借用秒級(jí)即可完成。基于統(tǒng)一調(diào)度,阿里云與螞蟻也實(shí)現(xiàn)了調(diào)度技術(shù)融合,螞蟻生態(tài)全面升級(jí)為統(tǒng)一調(diào)度。調(diào)度平臺(tái)為未來帶來更多想象空間,例如,我們可以通過眾多手段,例如價(jià)格杠桿等經(jīng)濟(jì)因素,驅(qū)動(dòng)阿里內(nèi)部的業(yè)務(wù)更合理使用各個(gè)數(shù)據(jù)中心的資源,確保數(shù)據(jù)中心全局資源水位盡可能平衡,以改進(jìn)數(shù)據(jù)中心的能效比。
阿里云容器服務(wù) ACK 對(duì)標(biāo)準(zhǔn) Kubernetes 進(jìn)一步增強(qiáng),更高性能吞吐和更低的響應(yīng)延遲構(gòu)建穩(wěn)定可靠的超大規(guī)模單集群能力,平穩(wěn)支撐了 1.2 萬節(jié)點(diǎn)超 100 萬核的超大規(guī)模集群、為統(tǒng)一調(diào)度大資源池化的生產(chǎn)運(yùn)行提供了堅(jiān)實(shí)的基座。阿里巴巴眾多類型的復(fù)雜資源也實(shí)現(xiàn)了基于容器服務(wù)底座 ACK 的全面融合升級(jí)。
除電商、搜索、大數(shù)據(jù)等阿里經(jīng)典場(chǎng)景外,統(tǒng)一調(diào)度也極大的賦能了新型的技術(shù)創(chuàng)新。以直播電商場(chǎng)景為例,決策對(duì)實(shí)時(shí)計(jì)算的需求很高,比如薇婭雙 11 直播間 9 千多萬在線觀看人數(shù)的產(chǎn)生的瀏覽、交易等實(shí)時(shí)數(shù)據(jù)的秒級(jí)數(shù)據(jù)分析。今年阿里將實(shí)時(shí)計(jì)算引擎 Blink 升級(jí)為基于統(tǒng)一調(diào)度的新一代引擎,在成本、性能、穩(wěn)定性以及用戶體驗(yàn)上獲得大幅提高,大規(guī)模作業(yè)拉起性能相比 Yarn 提速 40%,錯(cuò)誤恢復(fù)效率提升 100%,通過統(tǒng)一調(diào)度技術(shù)在雙 11 大促備戰(zhàn)接節(jié)省數(shù)十萬 CPU,在集群 CPU 水位超過 65% 時(shí),實(shí)現(xiàn)全局零熱點(diǎn),保障了各直播推流的時(shí)效性。
在 Serverless 方面,函數(shù)服務(wù)首次在集團(tuán)內(nèi)得到大規(guī)模落地,并應(yīng)用于雙 11 支撐了淘寶搜索推薦、數(shù)據(jù)處理、前端 SSR 等 10 多個(gè)業(yè)務(wù)場(chǎng)景。借助統(tǒng)一調(diào)度技術(shù),函數(shù)計(jì)算可以和阿里資源池內(nèi)實(shí)現(xiàn)大規(guī)模混跑,充分利用集群的碎片資源,徹底解決了 Serverless 場(chǎng)景在流量低峰期的資源閑置成本問題。基于 ACK 鏡像按需加載和網(wǎng)絡(luò)棧優(yōu)化,函數(shù)實(shí)例的冷啟動(dòng)時(shí)間小于 150ms,并結(jié)合池化技術(shù)保證了函數(shù)計(jì)算容器的冷啟動(dòng)率小于 5%,這是保證雙 11 大促成功的關(guān)鍵。
03 未來展望
未來,容器服務(wù) ACK 將阿里巴巴統(tǒng)一調(diào)度的經(jīng)驗(yàn)輸出到整個(gè)行業(yè),支撐更多新型計(jì)算負(fù)載生態(tài)、新型技術(shù)形態(tài)的架構(gòu)演進(jìn),實(shí)現(xiàn)云計(jì)算無處不在,全面賦能更多的企業(yè),釋放更大的低碳價(jià)值紅利。
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。?
總結(jié)
以上是生活随笔為你收集整理的首次 统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何将一棵LSM-Tree塞进NVM
- 下一篇: Flink 1.14 新特性预览