阿里云与达摩院合作 AHPA 弹性预测论文被顶会 ICDE 录用
近日,阿里云容器服務(wù)團(tuán)隊與達(dá)摩院數(shù)據(jù)決策團(tuán)隊合作的論文《RobustScaler: QoS-Aware Autoscaling for Complex Workloads》被數(shù)據(jù)管理與數(shù)據(jù)庫國際頂級會議 ICDE 2022 長文錄用。ICDE 和 SIGMOD、VLDB 并稱為數(shù)據(jù)庫領(lǐng)域的三大國際頂尖學(xué)術(shù)會議,入選中國計算機(jī)學(xué)會(CCF)推薦 A 類國際會議列表。
阿里云容器服務(wù) ACK 管理著海量的 Kubernetes 集群,在集群管理、集群運維等領(lǐng)域積累了豐富的經(jīng)驗,并構(gòu)建了智能運維平臺 CIS(Container Intelligence Service),旨在通過智能化手段解決運維難題。達(dá)摩院數(shù)據(jù)決策團(tuán)隊在時間序列分析/預(yù)測/異常監(jiān)測/AIOps 方向深耕多年,數(shù)十篇文章發(fā)表在 KDD, SIGMOD, ICDE, AAAI 等頂會和多篇中美專利,獲得 2022 ICASSP AIOps Challenge 冠軍等多個國際獎項。
如今,企業(yè)業(yè)務(wù)流量往往呈現(xiàn)出明顯的波峰、波谷形態(tài),如果采用固定實例數(shù)會存在極大的資源浪費。為應(yīng)用配置彈性伸縮是提升資源利用率的有效方式。
Kubernetes 中現(xiàn)有的彈性伸縮策略如 HPA、CronHPA 等都存在彈性觸發(fā)滯后的問題,導(dǎo)致應(yīng)用的服務(wù)質(zhì)量下降。如何在保證應(yīng)用服務(wù)質(zhì)量的前提下,根據(jù)應(yīng)用的歷史數(shù)據(jù),基于時序算法提前進(jìn)行擴(kuò)縮容呢?
為解決該問題,我們在論文中提出了一種基于非齊次柏松過程(NHPP)和隨機(jī)約束優(yōu)化的智能彈性框架 RobustScaler。此外,研發(fā)了一種專門的交替方向乘子法 (ADMM) 來有效地訓(xùn)練 NHPP 模型,并證明了基于優(yōu)化的主動策略可以保證應(yīng)用的服務(wù)質(zhì)量。 大量實驗表明,RobustScaler 在各種實際場景中優(yōu)于常見的自動伸縮策略,并且在具有復(fù)雜周期性的應(yīng)用中也表現(xiàn)優(yōu)異。
RobustScaler 算法已經(jīng)應(yīng)用于智能運維平臺 CIS 的 AHPA 組件中。智能運維平臺 CIS 由異常發(fā)現(xiàn)、異常定位、異常修復(fù)、異常預(yù)測四大模塊組成,包含定時巡檢、網(wǎng)絡(luò)診斷、運行時診斷、CVE 漏洞修復(fù)、應(yīng)用配置優(yōu)化等眾多功能。AHPA 是 CIS 的核心組件之一,組件架構(gòu)如下圖所示,AHPA 彈性策略可分為主動預(yù)測和被動預(yù)測。主動預(yù)測從歷史數(shù)據(jù)中識別周期性趨勢,主動預(yù)測下個周期應(yīng)用的實例數(shù)量;被動預(yù)測基于應(yīng)用實時數(shù)據(jù)設(shè)定實例數(shù)量,可以很好的應(yīng)對突發(fā)流量。此外,AHPA 還增加了兜底保護(hù)策略,用戶可以設(shè)置實例數(shù)量的上下界。AHPA 算法中最終生效的實例數(shù)是主動預(yù)測、被動預(yù)測及兜底策略中的最大值。
AHPA 組件正在公測中,點擊申請白名單[1],歡迎大家試用并提寶貴意見。
點擊此處查看阿里云容器服務(wù) AHPA 彈性預(yù)測產(chǎn)品文檔詳情。當(dāng)前 AHPA 已開啟用戶邀測,歡迎感興趣的用戶點擊文檔中“提交工單”位置申請白名單,期待您的試用及反饋。
相關(guān)鏈接
[1]申請白名單https://help.aliyun.com/document_detail/412229.html
總結(jié)
以上是生活随笔為你收集整理的阿里云与达摩院合作 AHPA 弹性预测论文被顶会 ICDE 录用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云微服务引擎 MSE 2022 年
- 下一篇: OpenKruise v1.1:功能增强