运维监控系统实战笔记(day3)
內容來自“極客時間”
架構概述:一個監控系統的典型架構是什么樣的?
監控系統的典型架構:
秦老師把本節的內容總結得很好,現摘抄如下:
采集器:用于收集監控數據,業界有不少開源解決方案,大同小異,總體分為推拉兩種模式,各有應用場景。Telegraf、Exporters 用得最廣泛,Grafana-Agent 和 Categraf 是后來者,當然還有 Datadog-Agent 這種商業解決方案,我的建議是優先考慮 Categraf,相對而言,它使用起來更加便捷。如果有些場景 Categraf 沒有覆蓋,可以考慮輔以一些特定的 Exporter。
時序庫:用于存儲時序數據,是一個非常內卷的行業,有很多開源方案可供選擇。如果規模比較小,1000 臺機器以下,通常一個單機版本的 Prometheus 就夠用了。如果規模再大一些,建議你考慮 VictoriaMetrics,畢竟架構簡單,簡單的東西可能不完備,但是出了問題容易排查,更加可控。其中TDEngine 姑且可以看做是國產版 InfluxDB,GitHub 的 Star 數上萬,針對物聯網設備的場景做了優化,性能很好,也可以和 Grafana、Telegraf 整合,對于偏設備監控的場景,TDEngine 是個不錯的選擇。
告警引擎:用于做告警規則判斷,生成告警事件。這是監控系統的一個重要組成部分,通常是基于固定閾值規則來告警。當然,隨著時代的發展,也有系統支持統計算法和機器學習的方式做告警預判,我覺得是可以嘗試的。AiOps 概念中最容易落地,或者說落地之后最容易有效果的,就是告警引擎。不過 Google SRE 的觀點是不希望在告警中使用太多 magic 的手段,這個就見仁見智了。
數據展示:用于渲染展示監控數據。最常見的圖表就是折線圖,可以清晰明了地看到數據變化趨勢,有些人會把監控大盤配置得特別花哨,各種能用的圖表類型都用一下,這一點我不敢茍同,我還是覺得實用性才是最核心的訴求。很多監控系統會內置看圖功能,開源領域最成熟的就是 Grafana,如果某個存儲無法和 Grafana 對接,其流行性都會大打折扣。
學習來源:極客時間?運維監控系統實戰筆記(day3)
總結
以上是生活随笔為你收集整理的运维监控系统实战笔记(day3)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Proe4.0折叠椅产品建模设计视频教程
- 下一篇: 一波三折的云计算HCIE之旅