什么是盯屏中心?
本文始發于:云棲社區
時間:2020-06-01
原文鏈接:https://yq.aliyun.com/articles/763123
1.目標定位
1.1背景
- 告警管控平臺種類繁多
- 告警出現后未及時發現處理最終導致故障產生
- 專有云監控能力拉起依賴版本升級,操作復雜,迭代慢
- 異常問題和故障的感知力不如客戶
1.2目標
- 制定告警數據接入規范
- 實現告警統一集中展示
- 建設多種告警外發通知
- 獨立部署、快速迭代
- 告警嚴重程度區分,提升感知力
1.3定位
圖1:TAC定位
2.平臺簡介
2.1介紹
SRE技術保障平臺-盯屏中心(TAC-TAM Alarm Center)是TAM為混合云精心打造的一站式告警運維平臺,覆蓋混合云所涉及的云產品、大數據、云實例以及用戶所涉及的站點應用等告警,提供告警生命周期管理以及報警外發等解決方案。幫助混合云平臺快速發現、定位異常問題,協助產品團隊促進產品改進。
2.2特點
2.2.1告警匯聚
- 默認集成:云平臺、大數據、云實例、站點應用
- 支持擴展:自定義監控
2.2.2報警通道
- 釘釘&本地化釘釘
- 短信服務
- 企業郵箱
- 警務微信
2.3業務服務流程
圖2:TAC業務服務流程圖
3.主要功能及界面展示
3.1告警盯屏中心
- 實時展示云平臺當前所有的告警數據以及列出近7天的產品告警TOP排行, 一目了然告警數據, 提升感知力。
圖3:告警盯屏中心界面展示
3.2SRE運維大盤
- 通過指標化,更方便查看產品的健康狀況,判斷是否有故障;
- 指標項包含:健康率、成功率、轉實例、準時率、正常率、運行率、使用率、寫成功率、讀成功率。
圖4:SRE運維大盤界面展示
3.3告警工作臺
- 用戶可以在平臺告警頁面上認領新增的待處理告警,線下處理完成后可以在我的告警頁面上關閉該告警。
- 當認領了自己不擅長處理的產品告警,可以通過線上轉發的方式移交給擅長處理的同學。
- 若出現長期無法處理的告警,在確認無影響的情況下可以選擇忽略該告警,避免一直外發造成消息轟炸。
- 自動恢復的告警無需手動認領關閉,在歷史告警中可以進行查看。
圖5:告警工作臺界面展示
3.4事件服務中心
- 打破簽字、短信、郵件式古老的運維管理方式,為客戶將眾多的線下流程移?線上,預設相應的管理體系,以線上提交、線上反饋的模式,可以統一管理、追蹤閉環、數據存檔,為?常流程管理工作提供更多解決?法,逐步代替線下管理。
圖6:事件服務中心界面展示
3.5告警控制策略
- 支持設置自動分派策略,當指定產品出現告警自動認領告警;
- 當天首次出現的告警立即通知,非首次出現的告警遵循1440分鐘的靜默期后通知;
- 支持控制告警發送時的狀態,“發生時”、“認領時”、“關閉時”;
- 支持預約在指定的時間范圍內使某一類型的告警進入靜默期,告警外發暫時失效;
- 支持對告警推送的告警類型,產品,級別,部門,項目等進行自定義配置。
圖7:告警控制策略界面展示
3.6告警推送策略
- 提供用戶體系,系統會識別用戶的手機號碼以及郵箱地址來發送告警;
- 提供釘釘、短信、郵件的外發的webhook,api接口的配置;
- 可以選擇的一個或多個告警策略自定義配置推送告警
圖8:告警推送策略界面展示
3.7監控網關
- 支持在監控任務頁面配置用戶關心的網站、機器或某個接口,TAC根據規則進行監控;
- 若現場之前有提供過黑屏化的監控工具,用戶可以在注冊API頁面注冊一個APP,根據接口調用規范將監控結果上報至TAC以第三方告警來展示和外發。
圖9:監控網關界面展示
3.8釘釘通知
圖10:釘釘通知效果展示
4.結語
目前,混合云多數項目已通過TAC實現告警通知功能。有效提高告警處理效率,減少因告警未及時處理導致故障的情況,大幅提高項目運維質量,減少項目人力投入成本。
作者:黃家亮
阿里云智能GTS-SRE團隊資深技術支持工程師
7年IT從業經驗,超3年阿里專有云運維管理經驗,現就職于阿里云智能GTS-SRE團隊,負責運維開發工作,期間深度參與并負責銅雀、TAM企業服務運營管理平臺以及TAC報警中心三個系統從0到1的建設工作,有效提高專有云運維能力和效率。
我們是阿里云智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用云、基于云構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上云、用好云,讓客戶云上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里云SRE技術學院釘釘圈子,和更多云上人交流關于云平臺的那些事。
原文鏈接:https://developer.aliyun.com/article/771442?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
- 上一篇: 从技术视角看考拉海购的云原生之路
- 下一篇: 融合、协同系统的边缘云原生架构演进和实践