黑科技揭秘:百种异常随机注入,专有云为何稳如泰山
關鍵應用服務中斷引發一系列連鎖反應,起因僅是一塊磁盤被寫滿?為什么這么巧,兩個小概率的問題偏偏一起發生,造成保護失效?為什么我們做了測試演練,然而真正發生問題依然踩坑?”2018杭州云棲大會主論壇演示現場,阿里云專有云事業部兼企業應用事業部總經理馬勁一連發出讓技術人員感同身受的三連問。
百種異常現場隨機注入破壞系統
?
繼去年跑了分、斷了電,在9月19日下午的杭州云棲大會技術主論壇現場,專有云現場演示穩定性升級版,在現場搭建的專有云“企業號”數據中心系統上隨機注入異常搞破壞。該數據中心由8大品牌服務器搭建,模擬了客戶真實的復雜生產環境,同時現場直播應用便搭載在該數據中心的系統上,在注入異常后將直觀的通過觀察直播是否卡頓來判斷專有云系統是否真的穩定。
?
現場馬勁讓助手向觀眾席中扔出兩只猴子玩偶,搶到的觀眾可以在現場呈現的1-100個異常中隨機選取一個異常注入,兩位觀眾分別選擇了19號和66號,分別代表的是“ECS云產品網絡傳輸包亂序比例陡增”,模擬ECS網絡不穩定,網絡急速惡化,傳輸包亂序陡增的場景,以及“SLB云產品網絡傳輸時延陡增”,模擬SLB所在網絡不穩定,傳輸出現嚴重惡化,時延陡增的場景。在分別注入這兩個異常場景后,直播視頻仍然保持順暢毫無卡頓。這是因為專有云系統日常就是在通過注入這類異常收集反饋進行調整,從而不斷打磨系統構建出“專有云免疫系統”。
似乎是現場觀眾隨機挑選的異常“破壞力”不足,馬勁一狠心,演示了極端環境下的超級異常——核心ECS集群局部網絡異常且另一臺ECS計算資源飽和。“這模擬了業務高峰期服務器已經超高負載時的網絡故障,這類情況極易引發系統雪崩,一旦雪崩恢復時間很長。”馬勁解釋道。演示現場阿里云負載均衡的快速隔離及彈性伸縮服務智能資源分配及時發揮了作用,現場應用卻快速恢復正常,觀眾席響起熱烈的掌聲。
?
打磨產品穩定性,阿里云沒有好辦法只有“笨辦法”
阿里云專有云承載著眾多企業的關鍵業務,深知肩責任之重,也深知穩定性對客戶業務意味著什么,因此打磨穩定性是專有云不渝的追求。然而,過去大部分系統都搭建在DIY系統上,不具備全系統演練的條件,而今天在阿里云這個“云計算機”上,可以在準生產環境下進行全方位立體化的演練。
混沌工程是專有云針對理論科學搭建系統同時利用實踐科學不斷打磨系統的最佳組合。阿里云異常庫中擁有高達12600種的異常場景,一年365天都在全方位立體化的不斷注入打磨系統,以提前幫助客戶排除系統中80%的故障。當別人還困擾于硬件層級的異常發生該如何處理時,阿里云專有云已經在用更深層級的組合異常打磨系統。這一切的投入和執著錘煉穩定性都只為持續給客戶提供更穩定更可靠的產品。
現實往往不按照故事的劇本走,阿里云沒有“好辦法”只有笨辦法,那就是引入‘混沌工程’理念,在仿真的生產環境中做千倍高頻的異常注入,對不符合預期的系統反饋不斷優化,從而持續打磨穩定性,助力客戶業務穩定性提升。
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的黑科技揭秘:百种异常随机注入,专有云为何稳如泰山的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Nvidia GPU如何在Kuberne
- 下一篇: Spring Cloud Alibaba