當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SRE学习笔记

發布時間：2023/12/29 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了 SRE学习笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近項目快落地了，為了顯得項目很有用，需要制定一些指標來描述項目的可靠性穩定性等，之前沒接觸過sre的內容，所以先學習一波。

SRE是指Site Reliability Engineer (網站可靠性工程師)。我的理解是，SRE就是運維的進化形態~負責把控web的穩定，并對各種突發情況做出應對。

通過在網上搜的得知，SRE重要理念有：
SLA （service level agreement）:服務等級協議指整個服務可靠性協議，包含SLO和SLI以及不同情況的應對措施
SLO （service level objective）:服務等級目標字面意思，例如響應時間達10ms
SLI（service level indicator）:服務等級對象例如可用性、延遲、準確性等
Availability:可用性
Reliability:可靠性
Maintainability :可維護性

SRE的穩定性指標是一套MT開頭的縮寫，分別是：
MTBF，Mean Time Between Failure，平均故障時間間隔
Pre-MTBF 階段（無故障階段，故障演練，預案系統）
Post-MTBF 階段（無故障階段，事后總結，事件管理）
MTTR，Mean Time To Repair，故障平均修復時間
MTTI ，Mean Time To ldentify，平均故障發現時間
MTTK ，Mean Time To Know，平均故障認知時間
MTTF ，Mean Time To Fix，平均故障解決時間
MTTV ，Mean Time To Verify，平均故障修復驗證時間

根據項目的需求，選擇了一些比較合適的指標進行使用：

可用性比例，為了顯得項目很好用，Availability的值越大越好，這項指標可以作為每次向服務器請求服務的參考依據，Availability有兩種計算方式：
1)Availability = uptime ÷ (uptime + downtime)
2)Availability = Successful request ÷ Total request
由于我們項目每次使用的時間間隔較大且不穩定，更適合使用第二種計算方式。

2.MTBF，如上文，這是衡量平均故障時間間隔的指標，MTBF的值越大越好，這項指標可以作為解析結果的參考依據：
MTBF = ∑ (TOT) / F ——（TOT：Total Operational Time 總運行時間）
TOT = ∑ (Start of Downtime after last Failure – Start of Uptime after last Failure) —— ∑ (自上次Downtime后的總運行時間)
F = Number of Failures
MTBF也可以寫作故障率FR，FR為MTBF的倒數，因此FR的值越小越好：
FR = 1 / MTBF

其他的指標也有相應的公式，當有具體需求的時候就可以用上。

總結

以上是生活随笔為你收集整理的SRE学习笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： matlab复合形法优化设计,基于MAT
下一篇：自动打电话服务器,MIUI v4 自己架