ChaosConf 2018:混沌实验的演变
在美國舊金山舉行的首屆ChaosConf大會上,Kolton Andrus做了一個有關混沌實驗在過去八年中如何演變的演講。他認為,與處理故障有關的人力和組織方面的內容不應該被忽略,并建議工具應該支持應用程序和請求級別的故障注入測試,以便最小化潛在的故障影響范圍。
\\Andrus是Gremlin的首席執行官,他通過談論混沌實驗在行業內的演變拉開了活動的帷幕。他將“level 0”實驗視為為云端的主機故障做準備。這需要較低的成熟度,而且通常需要使用諸如Chaos Monkey之類的工具將主機故障隨機地注入到系統中。隨著實踐的成熟,“level 1”和“level 1.5”實驗的實現變得訓練有素,并且將額外的重點放在試驗網絡故障上。這需要網絡專業知識和更高級的運營成熟度。
\\\\與處理故障有關的人力和組織方面的內容也成為level 1.5的一個焦點。這里的實驗通常是通過“游戲日”來實現的,這些游戲日提供了訓練機會,并模擬故障,以便觀察人們在真實情況下的反應。Andrus警告說,并非所有組織都認識到發展組織應對故障能力和對員工進行適當訓練的價值:
\\\我工作過的很多公司在進行輪班待命訓練時,擺出一副“這里是你的尋呼機和儀表盤——祝你好運”的姿態。這是不可接受的。
\\\接下來,Andrus表示,主機測試和基于OSI Layer 3和Layer 4的網絡測試對于很多想要運行混沌實驗的組織來說是不夠的,因為需要更精細的粒度來限制影響并安全地測試應用程序。他說,“運營人員通常考慮的是請求級別的東西”,為了使用請求級別的數據和元數據來選擇性地控制測試和實驗,工具需要知道應用級別(Layer 7)的東西。
\\在這個時候,Andrus宣布了Gremlin的新應用級故障注入(ALFI)產品。ALFI支持“level 2”的實驗。這是通過在系統中指定“坐標”并匹配針對一組目標運行的實驗來實現的。坐標包括應用程序的關注點,例如用戶標識符或A/B測試,以及平臺的關注點,例如服務或地理區域。工程師還可以使用自定義實現來定義自己的坐標。
\\在演講結束時,Andrus總結說,有針對性的坐標可以用來最小化實驗的潛在影響范圍,并且可以在不干擾整個系統的情況下重現生產環境的中斷。應該以迭代的方式安全地擴展實驗:
\\也可以使用類似的模式來重現中斷:
\\有關首屆ChaosConf的詳細信息可以在大會網站上找到,演講的錄像可以在Gremlin的YouTube頻道“ChaosConf 2018”中找到。
\\查看英文原文:An Evolution of Chaos Experimentation: Kolton Andrus at ChaosConf 2018
總結
以上是生活随笔為你收集整理的ChaosConf 2018:混沌实验的演变的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 树莓派3_win10下使用远程桌面连接与
- 下一篇: 在 ASP.NET Core 中集成 S