从工程文化和运维理念理解Netflix
http://www.infoq.com/cn/news/2018/01/netflix-engineering-culture
?
在技術圈兒,Netflix 是一家非常有特色的互聯網公司。他們信奉“自由與責任”的企業文化,鼓勵工程師發揮自己的愛好與特長;特別開放,很多內部系統都開源了;所有業務都運行在云上,隨之而來,有很多自己的工具,特色的運維文化。
在明年 4 月 20~22 日的 QCon 北京 2018 上,我們有幸邀請到 Netflix 工程總監 Katharina Probst,她將分享 Netflix 的工程文化以及運維方面的理念和經驗。
InfoQ 曾有文章介紹 Netflix 的企業文化(技術漫談:為什么Netflix的企業文化會備受整個硅谷的推崇?),而這次,Katharina 將現場分享《工程文化:挖掘工程師的最大價值》。
丹尼爾·平克的《驅動力》一書,指出了如何提高績效、煥發熱情的三大要素:自主(Autonomy)、專精(Mastery)和目的(Purpose)。本次演講也將從這三個方面出發,探討如何讓工程師發掘出自己的最大潛能。
- 自主:設定良好的環境,但是不控制目標的日常執行。
- 專精:為每個人提供鍛煉技能的條件,并對成長提供反饋。
- 目的:將工程師連接起來,為公司的使命而奮斗。
Katharina 還曾撰文介紹 Netflix 背后獨特的運維理念。
在Netflix,“自由與責任”的價值觀體現的淋漓盡致。一方面,工程團隊可以自由地向產品添加功能和服務,不需要審批和繁瑣的程序。另一方面,作為產品的所有者,要負責服務的運維和支持。
優勢當然是各團隊可以靈活快速地實現新功能。當然,有利就有弊,整個系統的規模也隨之爆炸性增長,沒有人能記著所有系統的所有變更。
這種情況下,Netflix 是如何保證其服務的高可用性和用戶體驗的呢?秘密就在于 Netflix 的 CORE SRE 團隊。
SRE 是指 Site Reliability Engineer (網站可靠性工程師)。這個概念大家應該并不陌生。
CORE 是幾個單詞的首字母縮寫:Cloud(云)、Operations(運維)、Reliability(可靠性)、Engineering(工程)。一語雙關,既可以看成“云運維可靠性工程”,也可以看成“核心”。
這個團隊非常小,不到 10 個人。雖然人少,但是都是骨干人才。可以把這個團隊看作 Netflix 服務的中樞神經系統。這個團隊是干什么的呢?
他們要盡可能多的從整體上把握 Netflix 的系統,進而讓系統更好、更可靠。具體而言,其工作是:
理解事故
事故發生時,SRE 往往是第一響應人。這個人要定位問題,深入了解事故,確定嚴重等級,看看應該找誰來解決問題。要找的人可能是服務的所有者,或者外部合作伙伴(比如設備供應商)。
CORE SRE 團隊要根據自己對整個系統的理解,決定在既定情況下,采用哪種緩解策略最好,比如把流量切到其他區域。
發現事故和健康運維狀況下的模式
事故解決后,SRE 的工作才算真正開始。下一步是仔細研究事故,提很多問題。比如:?
? 事故是什么原因導致的??
? 我們之前怎么做,能夠避免這次事故??
? 是不是有某個最佳實踐并沒有遵守??
? 是不是團隊遵守了某個最佳實踐,但是沒起到預期效果??
? 團隊應該怎么做,以避免再次發生類似事故??
? 在事故發生時,我們掌握了哪些信息,能讓我們更快地理解事故原因??
? 有什么工具可以幫我們降低事故嚴重性和持續時間??
? 這種問題之前發生過嗎?有沒有什么模式??
? 卷入事故的團隊,是不是犯了更多主動失誤?發生了什么?
除了提問分析,還要分析事故數據,發現模式。
將模式轉變成工具和最佳實踐,防患于未然
讓 Core SRE 團隊和關鍵工程團隊配合工作,一方面 SRE 團隊可以更好地理解痛點,一方面也可以傳達最佳實踐等理念。
工具建設,收集各方面指標,這個就不一一具體介紹了。
在現場,Katharina 將為我們具體闡述背后的各種理念和做法。
2018QCon全球軟件開發大會北京站目前正在8折報名中,感興趣的不要錯過。有任何問題可咨詢購票經理Hanna,電話:15110019061,微信:qcon-0410。
轉載于:https://www.cnblogs.com/linkenpark/p/8472368.html
總結
以上是生活随笔為你收集整理的从工程文化和运维理念理解Netflix的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Turtle库(海龟)
- 下一篇: (4.14)向上取整、向下取整、四舍五入