阿里云故障演练平台获得可信云最高等级认证,为企业数字韧性能力保驾护航
7月27日,2021可信云大會在北京召開。會上,阿里云故障演練平臺入選可信云最佳技術實踐,并首批通過可信云混沌工程平臺能力要求最高等級-先進級認證。同時,由信通院牽頭,阿里云計算有限公司聯(lián)合多家企業(yè)共同發(fā)起的“混沌工程實驗室”宣布成立。
雙項認證,阿里云故障演練平臺獲可信云最高等級認證
?
隨著企業(yè)對于云計算的理解和實踐不斷深入,基于云計算的分布式架構成為越來越多企業(yè)應用構建的首選方案,如何通過混沌工程提升云原生系統(tǒng)穩(wěn)定性和保障業(yè)務連續(xù)性成為業(yè)內普遍關注的話題。
?
混沌工程是主要通過故障注入的方式,提前發(fā)現(xiàn)系統(tǒng)穩(wěn)定性等問題,旨在提升系統(tǒng)和組織韌性,打造韌性的架構,保障業(yè)務連續(xù)性。在信通院可信云混沌工程平臺測評中,阿里云故障演練平臺以最高分成績通過資源支持、故障場景、場景管理、實驗流程、實驗防護、實驗度量、權限管理、安全審計等8項能力測評,并入選2021可信云最佳技術實踐,雙項認證,再一次證明了阿里云在混沌工程領域的技術和產品實力。
?
故障演練隨著阿里巴巴系統(tǒng)架構從微服務,到容器化,再到云原生一起發(fā)展,內部已有近10年的混沌工程落地實踐經驗。阿里云故障演練平臺將阿里巴巴內部的實踐經驗以產品化的方式對外輸出,提供豐富的實驗場景和專家經驗庫、領域化的解決方案,滿足用戶的故障場景需求,在靈活的流程編排和開放的集成能力下,提供監(jiān)控、報告等實現(xiàn)混沌工程實施閉環(huán),通過權限管控和演練防護來控制故障演練的風險,幫助企業(yè)在云遷移、云就緒、云原生過程中提升系統(tǒng)穩(wěn)定性和業(yè)務連續(xù)性。
?
?
自混沌工程理論提出以來,很多企業(yè)在探索和實踐,但落地形式不同,阿里云故障演練平臺有何不同?
?
- 靈活的流程編排:制訂了一套標準化的演練流程,在此基礎上可以添加所需的流程節(jié)點。同時支持多場景的運行方式。
- 可視化故障演練:與架構感知集成,在架構拓撲可視化的基礎上,實現(xiàn)故障注入,同時可以配合架構巡檢,發(fā)現(xiàn)系統(tǒng)風險點,使用故障演練進行驗證。
- 多樣的專家經驗庫:將阿里巴巴內部多年的故障演練經驗沉淀到演練模板中,具備演練場景的真實性和實用性,極大的提升演練創(chuàng)建的效率,同時解決用戶上手混沌工程難的問題。
- 領域化的解決方案:提供對服務組件、系統(tǒng)架構等穩(wěn)定性驗證的產品化解決方案,通過架構感知、依賴分析等動態(tài)識別組件和架構,自動生成演練方案,達到快、準、全的演練目的。
使用故障演練平臺做混沌工程,可以衡量微服務的容錯能力,估算系統(tǒng)容錯紅線,衡量系統(tǒng)容錯能力。并且,故障演練平臺可以驗證容器編排配置是否合理,測試PaaS層是否健壯,驗證監(jiān)控告警的時效性,提升監(jiān)控告警的準確和時效性。通過故障突襲,隨機對系統(tǒng)注入故障,考察相關人員對問題的應急能力,以及問題上報、處理流程是否合理,達到以戰(zhàn)養(yǎng)戰(zhàn),鍛煉人定位與解決問題的能力。通過故障注入的方式,提前發(fā)現(xiàn)系統(tǒng)穩(wěn)定性等問題,旨在提升系統(tǒng)和組織韌性,打造韌性的架構,保障業(yè)務連續(xù)性。
?
阿里云故障演練平臺自2019年商業(yè)化以來,通過多樣化的實驗工具,自動化的工具部署,多維度的演練方式,靈活的流程編排,豐富的故障場景,實用的演練模板,專業(yè)的解決方案,安全的演練防護,深度的云產品集成,已經擁有近千個企業(yè)客戶,服務了包括華泰證券、比心科技、親寶寶等客戶,助力企業(yè)在云原生時代構建數(shù)字韌性能力。
?
推動標準統(tǒng)一,打造ChaosBlade 開源項目,縮短構建混沌工程路徑
?
近幾年,越來越多的企業(yè)開始關注并探索混沌工程,漸漸成為測試系統(tǒng)高可用,構建對系統(tǒng)信息不可缺少的工具。但混沌工程領域目前還處于一個快速演進的階段,最佳實踐和工具框架沒有統(tǒng)一標準。實施混沌工程可能會帶來一些潛在的業(yè)務風險,經驗和工具的缺失也將進一步阻止 DevOps 人員實施混沌工程。混沌工程領域目前也有很多優(yōu)秀的開源工具,分別覆蓋某個領域,但這些工具的使用方式千差萬別,其中有些工具上手難度大,學習成本高,混沌實驗能力單一,使很多人對混沌工程領域望而卻步。
?
阿里巴巴集團在混沌工程領域已經實踐多年,為了幫助企業(yè)更好地構建混沌工程路徑,阿里巴巴在2019年開源了混沌工程項目 ChaosBlade,并在今年成為 CNCF Sandbox 項目。將"自研技術"、“開源項目”、"商業(yè)產品"形成統(tǒng)一的技術體系,阿里云通過三位一體的正向循環(huán),實現(xiàn)了技術價值的最大化。
?
ChaosBlade 是一款遵循混沌工程原理的開源工具,包含混沌工程實驗工具 chaosblade 和混沌工程平臺 chaosblade-box,旨在通過混沌工程幫助企業(yè)解決云原生過程中高可用問題。實驗工具 chaosblade 支持 3 大系統(tǒng)平臺,4 種編程語言應用,共涉及 200 多個實驗場景,3000 多個實驗參數(shù),可以精細化地控制實驗范圍。ChaosBlade 已成為阿里云故障演練平臺基礎能力底座服務眾多企業(yè)客戶。
?
未來,ChaosBlade 將繼續(xù)以云原生為基礎,提供面向多集群、多環(huán)境、多語言的混沌工程平臺和混沌工程實驗工具;后續(xù)會托管更多的混沌實驗工具和兼容主流的平臺,實現(xiàn)場景推薦,提供業(yè)務、系統(tǒng)監(jiān)控集成,輸出實驗報告,在易用的基礎上完成混沌工程操作閉環(huán)。
?
業(yè)內首個混沌工程實驗室正式成立,推動混沌工程實踐落地
?
在數(shù)字化產業(yè)對系統(tǒng)穩(wěn)定性和云計算高可用要求越來越高的大背景下,由中國信通院牽頭,阿里云等眾多企業(yè)共同參與的混沌工程實驗室正式成立。混沌工程實驗室將推動混沌工程在各領域典型應用場景中的實踐落地,聯(lián)動云計算上下游企業(yè)來共同推進混沌工程快速發(fā)展。
?
阿里云擁有國內最豐富的混沌工程實踐經驗,并致力于打造云原生時代的混沌工程標準體系。阿里云在海量互聯(lián)網服務以及歷年雙11場景的實踐過程中,沉淀出了包括全鏈路壓測、線上流量管控、故障演練等高可用核心技術,并通過開源和云上服務的形式對外輸出,以幫助企業(yè)用戶和開發(fā)者享受技術紅利,提高開發(fā)效率,縮短業(yè)務的構建流程。
?
總結
以上是生活随笔為你收集整理的阿里云故障演练平台获得可信云最高等级认证,为企业数字韧性能力保驾护航的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【GOTC 预告】王思宇:从 OpenK
- 下一篇: 当容器应用越发广泛,我们又该如何监测容器