ChaosBlade 发布对 C++ 应用混沌实验的支持
前言
為滿足 C++ 應用系統故障演練,阿里媽媽安全生產團隊開源了 C++ 混沌實驗執行器,填補了 C++ 應用混沌工程實驗的空白,其遵循《混沌實驗模型》,可通過 ChaosBlade 工具直接執行。項目詳情點擊這里! 。
本文重點介紹該執行器的架構圖、支持的實驗場景,并以 Demo 為例介紹具體的使用方式,附錄介紹了阿里媽媽內部混沌實驗流程。
新版本 chaosblade 下載地址在這里!
實驗場景
目前支持的 C++ 混沌實驗場景如下,具體使用方式可詳見下文:
- 針對某個方法,或者某行代碼注入延遲故障;
- 針對某個方法,或者某行代碼注入替換變量,或者對象值,可以制造調用第三方接口返回結果中包含錯誤碼等等故障;
- 針對某個方法,或者某行代碼注入立刻退出方法并返回指定值(可以是錯誤值)的故障;
架構圖
解釋說明:
- C++ 混沌實驗執行器包括 8 個模塊:模型匹配器模塊、應用狀態獲取模塊、流程控制模塊、在應用運行中注入故障模塊、應用未啟動狀態啟動應用并注入故障模塊、故障恢復模塊、卸載實驗器模塊 和 日志記錄模塊;
- 模型匹配器模塊:會把用戶傳入的參數匹配《混沌實驗模型》,發現不符合規范的參數,將停止執行,并返回用戶相應提示;
- 應用狀態獲取模塊:獲取待注入故障的 C++ 應用目前的狀態;
- 流程控制模塊:可以控制整個實驗器的運行流程;
- 在應用運行中注入故障模塊:在 C++ 應用運行狀態時,在不改變應用原有代碼,和編譯文件的情況下,直接注入故障到進程;
- 應用未啟動狀態啟動應用并注入故障模塊:在 C++ 應用未啟動狀態,在不改變應用原有代碼,和編譯文件的情況下,啟動應用,并同時注入故障;
- 故障恢復模塊:當某一個實驗或演練場景完成,基于該模塊移除該場景的故障;
- 卸載實驗器模塊:當所有實驗或演練場景都完成,基于該模塊移除應用所有故障,并退出 C++ 混沌實驗執行器的進程;
- 日志記錄模塊:可以把 C++ 混沌實驗執行器運行過程中的情況記錄到日志中;
- C++ 應用:待注入故障的應用,在故障注入過程中,C++ 混沌實驗執行器通過 attach 方式把 C++ 應用做為自己的子進程進行狀態跟蹤;
- ChaosBlade:混沌實驗注入工具;
使用方法
可以通過如下三種方式對 C++ 應用注入故障:
- 登錄待注入故障的機器,使用 chaosblade 提供的命令行方式實施演練;
- 登錄待注入故障的機器,手動啟動 C++ 應用混沌實驗執行器,直接調用執行器提供的 api 實施演練;
- 通過混沌實驗平臺,可以很方便的對多臺機器,甚至整個分組集群同時注入故障,阿里云 AHAS 后續會支持此執行器;
接下來,通過一個 C++ 應用混沌實驗 DEMO 給大家介紹前兩種方式怎樣實現一次 C++ 應用的混沌實驗。
C++ 應用混沌實驗DEMO
這次實驗,我們演練 linux 系統下 C++ 實現的 socket server 應用和 socket client 應用通訊的過程中,socket server 接口延遲 3 秒。接下來我們下載所需要的 Socket Demo:
Socket-server.tar.gz下載地址,詳情參考這里!
下載完成后,解壓并編譯:
g++ -g -c tcp_server.cpp -o tcp_server.o g++ -g tcp_server.o main.cpp -I. -o serverSocket-client.tar.gz下載地址,詳情參考這里!
下載完成后,解壓并編譯:
g++ -g -c tcp_client.cpp -o tcp_client.o g++ -g tcp_client.o main.cpp -I. -o client啟動 socket server:
./server 9527啟動 socket client:
./client 127.0.0.1 9527啟動成功以后會提示:"send message to server"
接下來輸入想傳給 socket server 內容比如:666
socket server 應用收到消息以后提示:
Received a connection from 127.0.0.1Received message: 666
完成以上步驟表示 socket server 應用和 socket client 應用部署成功。
通過 chaosblade 的命令行方式實施演練
接下來我們要使用 blade 工具進行混沌實驗,在執行實驗前,我們需要先執行 prepare 命令,掛載所需要的 c++ agent:
返回以下結果,表示實驗準備成功:
{"code":200,"success":true,"result":"e669d57f079a00cc"}我們開始實施混沌實驗,調用 socket server 接口延遲 3 秒,我們執行以下命令:
./blade create cplus delay --delayDuration 3 --breakLine tcp_server.cpp:33 --fileLocateAndName /home/admin/socketServer/server --forkMode child --processName server --initParams 9527 --libLoad /home/lib返回以下結果,表示執行成功;
{"code":200,"success":true,"result":"ec695fee1e458fc6"}對實施實驗的命令進行解析:
- --delayDuration: 3,表示延遲 3 s;單位是 s (delay action 特有的過濾條件)
- --breakLine: tcp_server.cpp:33, 加入斷點的位置,可以是某一行,也可以是某個方法名 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
- --fileLocateAndName: /home/admin/socketServer/server,C++應用可執行文件的位置和名字 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
- --forkMode: child,表示我們把故障注入到子進程還是父進程 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
- --processName: server,可以唯一標識出C++應用進程的標識,比如進程名 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
- --initParams: 9527,C++ 進程正常啟動的時候,啟動命令中執行文件后面的參數 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
- --libLoad: /home/lib,如果啟動C++ 進程的時候如果需要設置類庫文件夾地址,可以在這里設置(比如 /home/lib),如果啟動時,不需要加載自定義類庫,該項可以填入空格 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
完成實驗后,可以執行如下命令停止當前延遲的混沌實驗:
./blade destroy ec695fee1e458fc6ec695fee1e458fc6 是之前創建實驗返回的 UID
注:接收到 destroy 請求后,會刪除與 UID 相對應的混沌實驗規則。
不盡興的話,我們再實施對 server 內部變量的修改,把 server 對外開放的監聽端口 9527 改成 9529。
和剛才延遲命令參數差不多,因為相同的參數是演練 C++ 應用所需要的,不同的是沒有了 --delayDuration,多了個 --varaibleName 和 --varaibleValue 參數。我們模擬調用剛才的服務對外開放的監聽端口 9527 改成 9529:
./blade c cplus modify --varaibleName listen_port --varaibleValue 9529 --breakLine tcp_server.cpp:11 --fileLocateAndName /home/admin/socketServer/server --forkMode child --processName server --initParams 9527 --libLoad /home/lib返回以下結果,并在 socket client 可驗證端口是否被修改。
{"code":200,"success":true,"result":"09dd96f4c062df69"}停止此次試驗:
./blade destroy 09dd96f4c062df69最后,我們撤銷剛才的實驗準備,即卸載 c++ Agent:
./blade revoke e669d57f079a00cc直接調用執行器提供的 api 實施演練
掛載所需要的 c++ agent:
開始故障注入,發送 url 請求:
chaosblade/create?suid=e669d57f079a00cc&target=cplus&action=delay&breakLine=tcp_server.cpp:33&fileLocateAndName=/home/admin/socketServer/server&forkMode=child&processName=server&delayDuration=3&initParams=9527&libLoad=其中請求參數為
{"suid": "e669d57f079a00cc","target": "cplus","action": "delay","breakLine": "tcp_server.cpp:33","fileLocateAndName": "/home/admin/socketServer/server","forkMode": "child","processName": "server","delayDuration": “3”,"initParams": "9527","libLoad": "" }這種方式增加了幾個參數,解析如下:
create: 創建混沌實驗請求
suid: 請求參數,實驗的 ID,后續停止實驗會用到此 ID
target: 請求參數,實驗的組件目標,cplus 代表 針對 C++ 應用的實驗
action: 請求參數,執行實驗的場景,delay
注:
suid、target、action 是 create 請求的必要參數, breakLine、fileLocateAndName、forkMode、processName、delayDuration、initParams、libLoad 參數根據 target 和 action 的不同而不同。
接收到請求,會根據 target 和 action 調用參數校驗器,驗證參數值是否合法,如果合法,則記錄此次試驗;
對應組件埋點觸發時,如果查詢到有此組件的實驗,則獲取匹配器所需參數,和下發的實驗規則進行匹配,匹配成功,則調用場景執行器觸發實驗。
停止此次試驗,通過發url 請求:chaosblade/destroy?suid=ec695fee1e458fc6
其中請求參數是:
{"suid": "ec695fee1e458fc6" }suid: 請求參數,之前創建實驗返回的 UID
最后,我們撤銷剛才的實驗準備,即卸載 c++ Agent,通過發url 請求:chaosblade/remove
后續規劃
后續會加入更多混沌實驗場景,也歡迎大家試用,提 issue、pr,star, 一起交流、探索和完善。
chaosblade github 地址點擊這里!
github 地址點擊這里!
附錄
實驗流程 & 原理
解釋說明:
以上流程中,在實際的故障模擬演練,或突襲演練中,實驗準備階段,故障注入階段,故障恢復階段 和 實驗器卸載階段,為故障注入方(或藍軍)操作,故障效果采集監控項有效性驗證,故障處置階段為故障模擬成功以后,故障注入方(或藍軍)確認故障注入效果,也是故障處置方(或紅軍)接收報警,定位,并處置故障的階段;
實驗執行器底層基于 GDB 實現,故障注入階段有提到啟動 gdb 一步。
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的ChaosBlade 发布对 C++ 应用混沌实验的支持的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Express 的使用
- 下一篇: Knative 健康检查机制分析