SRE学习笔记
最近項目快落地了,為了顯得項目很有用,需要制定一些指標來描述項目的可靠性穩定性等,之前沒接觸過sre的內容,所以先學習一波。
SRE是指Site Reliability Engineer (網站可靠性工程師)。我的理解是,SRE就是運維的進化形態~負責把控web的穩定,并對各種突發情況做出應對。
通過在網上搜的得知,SRE重要理念有:
SLA (service level agreement):服務等級協議 指整個服務可靠性協議,包含SLO和SLI以及不同情況的應對措施
SLO (service level objective):服務等級目標 字面意思,例如響應時間達10ms
SLI(service level indicator):服務等級對象 例如 可用性、延遲、準確性等
Availability:可用性
Reliability:可靠性
Maintainability :可維護性
SRE的穩定性指標是一套MT開頭的縮寫,分別是:
MTBF,Mean Time Between Failure,平均故障時間間隔
Pre-MTBF 階段(無故障階段,故障演練,預案系統)
Post-MTBF 階段(無故障階段,事后總結,事件管理)
MTTR,Mean Time To Repair, 故障平均修復時間
MTTI ,Mean Time To ldentify,平均故障發現時間
MTTK ,Mean Time To Know,平均故障認知時間
MTTF ,Mean Time To Fix,平均故障解決時間
MTTV ,Mean Time To Verify,平均故障修復驗證時間
根據項目的需求,選擇了一些比較合適的指標進行使用:
可用性比例,為了顯得項目很好用,Availability的值越大越好,這項指標可以作為每次向服務器請求服務的參考依據,Availability有兩種計算方式:
1)Availability = uptime ÷ (uptime + downtime)
2)Availability = Successful request ÷ Total request
由于我們項目每次使用的時間間隔較大且不穩定,更適合使用第二種計算方式。
2.MTBF,如上文,這是衡量平均故障時間間隔的指標,MTBF的值越大越好,這項指標可以作為解析結果的參考依據:
MTBF = ∑ (TOT) / F ——(TOT:Total Operational Time 總運行時間)
TOT = ∑ (Start of Downtime after last Failure – Start of Uptime after last Failure) —— ∑ (自上次Downtime后的總運行時間)
F = Number of Failures
MTBF也可以寫作故障率FR,FR為MTBF的倒數,因此FR的值越小越好:
FR = 1 / MTBF
其他的指標也有相應的公式,當有具體需求的時候就可以用上。
總結
- 上一篇: matlab复合形法优化设计,基于MAT
- 下一篇: 自动打电话服务器,MIUI v4 自己架