面向云原生的混沌工程工具-ChaosBlade
作者 | 肖長軍(穹谷)阿里云智能事業(yè)群技術(shù)專家??
導(dǎo)讀:隨著云原生系統(tǒng)的演進(jìn),如何保障系統(tǒng)的穩(wěn)定性受到很大的挑戰(zhàn),混沌工程通過反脆弱思想,對系統(tǒng)注入故障,提前發(fā)現(xiàn)系統(tǒng)問題,提升系統(tǒng)的容錯能力。ChaosBlade 工具可以通過聲明式配置執(zhí)行混沌實(shí)驗,簡單高效。本文將會重點(diǎn)介紹 ChaosBlade 以及云原生相關(guān)的實(shí)驗場景實(shí)踐。
ChaosBlade 介紹
ChaosBlade 是阿里巴巴開源的一款遵循混沌實(shí)驗?zāi)P偷幕煦鐚?shí)驗執(zhí)行工具,具有場景豐富度高、簡單易用等特點(diǎn),而且可以很方便的擴(kuò)展實(shí)驗場景,開源后不久就被加入到 CNCF Landspace 中,成為主流的一款混沌工具。
實(shí)驗場景
目前支持的實(shí)驗場景如下:
- 基礎(chǔ)資源場景:CPU 負(fù)載、內(nèi)存占用、磁盤 IO 負(fù)載、磁盤占用、網(wǎng)絡(luò)延遲、網(wǎng)絡(luò)丟包、網(wǎng)絡(luò)屏蔽、域名不可訪問、shell 腳本篡改、殺進(jìn)程、進(jìn)程 Hang、機(jī)器重啟等;
- 應(yīng)用服務(wù)場景:支持 Java 應(yīng)用和 C 應(yīng)用內(nèi)的實(shí)驗場景。Java 的場景組件豐富,例如支持 Dubbo、RocketMQ、HttpClient、Servlet、Druid等,而且支持編寫 Java 或 Groovy 腳本實(shí)現(xiàn)復(fù)雜的實(shí)驗場景;
- 容器服務(wù)場景:支持 Kubernetes 和 Docker 服務(wù),包含 node、pod 和 container 三種資源的實(shí)驗場景,例如 Pod 網(wǎng)絡(luò)延遲、丟包等。
混沌實(shí)驗?zāi)P?/h3>
以上所有的實(shí)驗場景都遵循混沌實(shí)驗?zāi)P?#xff0c;此模型共分為四層,包含:
- Target:實(shí)驗靶點(diǎn)。指實(shí)驗發(fā)生的組件,如容器、應(yīng)用框架(Dubbo、Redis)等;
- Scope:實(shí)驗實(shí)施的范圍。指具體觸發(fā)實(shí)驗的機(jī)器或者集群等;
- Matcher:實(shí)驗規(guī)則匹配器。根據(jù)所配置的 Target,定義相關(guān)的實(shí)驗匹配規(guī)則,可以配置多個。由于每個 Target 可能有各自特殊的匹配條件,比如 RPC 領(lǐng)域的 Dubbo,可以根據(jù)服務(wù)提供者提供的服務(wù)和服務(wù)消費(fèi)者調(diào)用的服務(wù)進(jìn)行匹配,緩存領(lǐng)域的 Redis,可以根據(jù) set、get 操作進(jìn)行匹配;
- Action:指實(shí)驗?zāi)M的具體場景,Target 不同,實(shí)施的場景也不一樣,比如磁盤,可以演練磁盤滿,磁盤 IO 讀寫高等。如果是應(yīng)用,可以抽象出延遲、異常、返回指定值(錯誤碼、大對象等)、參數(shù)篡改、重復(fù)調(diào)用等實(shí)驗場景。
比如一臺 IP 是 10.0.0.1 機(jī)器上的應(yīng)用,調(diào)用 com.example.HelloService@1.0.0 Dubbo 服務(wù)延遲 3s,基于此模型可以描述為對 Dubbo 組件(Target)進(jìn)行實(shí)驗,實(shí)驗實(shí)施的范圍是 10.0.0.1 主機(jī)(Scope),調(diào)用 com.example.HelloService@1.0.0 (Matcher)服務(wù)延遲 3s(Action),對應(yīng)的 chaosblade 命令為:
blade create dubbo delay --time 3000 --service com.example.HelloService --version 1.0.0所以此模型很簡單清晰的表達(dá)出實(shí)驗場景,易于理解。下文中的云原生實(shí)驗場景也基于此模型定義。
面向云原生的實(shí)驗場景
實(shí)現(xiàn)方案
將混沌實(shí)驗場景按照上述的實(shí)驗?zāi)P?#xff0c;定義為 Kubernetes 中的資源,并通過自定義控制器來管理,可以通過 Yaml 配置或者直接執(zhí)行 blade 命令執(zhí)行。
ChaosBlade Operator 定義了資源控制器,并且會以 daemonset 的方式,在每個節(jié)點(diǎn)上部署一個 chaosblade-tool pod 來執(zhí)行混沌實(shí)驗。不同的實(shí)驗場景內(nèi)部實(shí)現(xiàn)方式不同,比如 Node 實(shí)驗場景,其上面部署的 chaosblade-tool 內(nèi)部執(zhí)行即可,而 Container 內(nèi)的實(shí)驗場景,控制器會將 chaosblade 包拷貝到目標(biāo) Container 中執(zhí)行。
使用方式
安裝必要組件
安裝 ChaosBlade Operator,可通過地址下載 chaosblade-operator-0.0.1.tgz,使用以下命令安裝:
helm install --namespace kube-system --name chaosblade-operator chaosblade-operator-0.0.1.tgz安裝在 kube-system 命令空間下。ChaosBlade Operator 啟動后會在每個節(jié)點(diǎn)部署 chaosblade-tool Pod 和一個 chaosblade-operator Pod。可通過以下命令查看安裝結(jié)果:
kubectl get pod -n kube-system -o wide | grep chaosblade執(zhí)行實(shí)驗
執(zhí)行方式有兩種:
- 一種是通過配置 yaml 方式,使用 kubectl 執(zhí)行;
- 另一種是直接使用 chaosblade 包中的 blade 命令執(zhí)行。
下面以指定一臺節(jié)點(diǎn),做 CPU 負(fù)載 80% 實(shí)驗舉例。
yaml 配置方式
apiVersion: chaosblade.io/v1alpha1 kind: ChaosBlade metadata:name: cpu-load spec:experiments:- scope: nodetarget: cpuaction: fullloaddesc: "increase node cpu load by names"matchers:- name: namesvalue:- "cn-hangzhou.192.168.0.205"- name: cpu-percentvalue:- "80"如上所示,配置好文件后,保存為 chaosbladecpuload.yaml,使用以下命令執(zhí)行實(shí)驗場景:
kubectl apply -f chaosblade_cpu_load.yaml可通過以下命令查看每個實(shí)驗的執(zhí)行狀態(tài):
kubectl get blade cpu-load -o json查看更多實(shí)驗場景配置事例。
blade 命令執(zhí)行方式
下載 chaosblade 工具包,解壓即可使用。還是上述例子,使用 blade 命令執(zhí)行如下:
blade create k8s node-cpu fullload --names cn-hangzhou.192.168.0.205 --cpu-percent 80 --kubeconfig ~/.kube/config使用 blade 命令執(zhí)行,會返回實(shí)驗的執(zhí)行結(jié)果。
修改實(shí)驗
yaml 配置文件的方式支持場景動態(tài)修改,比如將上述的 cpu 負(fù)載調(diào)整為 60%,則只需將上述 value 的值從 80 改為 60 即可,例如:
apiVersion: chaosblade.io/v1alpha1 kind: ChaosBlade metadata:name: cpu-load spec:experiments:- scope: nodetarget: cpuaction: loaddesc: "cpu load"flags:- name: cpu-percentvalue: "60"- name: ipvalue: 192.168.0.34然后使用 kubeclt apply -f chaosblade_cpu_load.yaml 命令執(zhí)行更新即可。
停止實(shí)驗
可以通過以下三種方式停止實(shí)驗:
根據(jù)實(shí)驗資源名停止
比如上述 cpu-load 場景,可以執(zhí)行以下命令停止實(shí)驗:
kubectl delete chaosblade cpu-load通過 yaml 配置文件停止
指定上述創(chuàng)建好的 yaml 文件進(jìn)行刪除,命令如下:
kubectl delete -f chaosblade_cpu_load.yaml通過 blade 命令停止
此方式僅限使用 blade 創(chuàng)建的實(shí)驗,使用以下命令停止:
blade destroy <UID>是執(zhí)行 blade create 命令返回的結(jié)果,如果忘記,可使用 blade status --type create 命令查詢。
卸載 chaosblade operator
執(zhí)行 helm del --purge chaosblade-operator 卸載即可,將會停止全部實(shí)驗,刪除所有創(chuàng)建的資源。
總結(jié)
ChaosBlade 基于混沌實(shí)驗?zāi)P?#xff0c;友好地將 Kubernetes 資源控制結(jié)合,部署簡單而且使用簡潔,實(shí)驗可控。除此之外 ChaosBlade 基于實(shí)驗?zāi)P蛯?shí)現(xiàn)了很多領(lǐng)域場景執(zhí)行器,可以很方便的擴(kuò)展實(shí)驗場景,可詳見附錄中的項目列表。
社區(qū)共建
ChaosBlade 自開源以來,共有近 30 多位貢獻(xiàn)者加入和很多企業(yè)的關(guān)注及使用,非常感謝各位。同時非常歡迎更多的人參與進(jìn)來,使 ChaosBlade 變的更加強(qiáng)大,覆蓋更多的場景,成為各個企業(yè)穩(wěn)定的、通用的混沌工程工具。
貢獻(xiàn)的形式可以是提 bug、提交代碼、編寫文檔、補(bǔ)充單元測試、參與問題討論等等。ChaosBlade 相信:開源世界中,任何幫助都是貢獻(xiàn)。
附錄
項目列表如下:
- ChaosBlade CLI(調(diào)用入口)
- ChaosBlade 實(shí)驗?zāi)P投x
- 基礎(chǔ)資源場景執(zhí)行器
- Docker 場景執(zhí)行器
- Kubernetes 場景執(zhí)行器
- Java 應(yīng)用場景執(zhí)行器
- C 應(yīng)用場景執(zhí)行器
“ 阿里巴巴云原生微信公眾號(ID:Alicloudnative)關(guān)注微服務(wù)、Serverless、容器、Service Mesh等技術(shù)領(lǐng)域、聚焦云原生流行技術(shù)趨勢、云原生大規(guī)模的落地實(shí)踐,做最懂云原生開發(fā)者的技術(shù)公眾號。”
總結(jié)
以上是生活随笔為你收集整理的面向云原生的混沌工程工具-ChaosBlade的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云和微软共同开源的 OAM 对 Ku
- 下一篇: 从函数计算架构看 Serverless