TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)
7月28日,騰訊技術(shù)工程運維技術(shù)沙龍-深圳站在騰訊大廈2樓多功能廳舉行。現(xiàn)場集結(jié)了數(shù)十家知名企業(yè)的技術(shù)開發(fā)和運維小伙伴,通過5個小時的思維碰撞,運維人員和導(dǎo)師們一起打造了一場運維人的知識盛宴。
這次,我們請來了四位有豐富數(shù)據(jù)庫運維和優(yōu)化經(jīng)驗的嘉賓,為大家分享他們的技術(shù)經(jīng)驗。
為了照顧更多沒到現(xiàn)場的朋友,我們聯(lián)合「騰訊大講堂」(微信號:TX_DJT)拍攝了嘉賓的分享視頻,各位可以直接點擊文章里的小程序卡片即可觀看。
騰訊數(shù)據(jù)中心運維介紹
熊操 騰訊華南廣佛片區(qū)運維負責(zé)人
一、數(shù)據(jù)中心運維工作
數(shù)據(jù)中心的運維框架分為3層,最下面是設(shè)備廠商,包含IT設(shè)備廠商、電力廠商和空調(diào)廠商,他們依托維保合同為數(shù)據(jù)中心運維團隊提供相應(yīng)的維保服務(wù)。
數(shù)據(jù)中心運維團隊主要分為IT運維團隊和基礎(chǔ)設(shè)施運維團隊。
IT團隊主要負責(zé)服務(wù)器和網(wǎng)絡(luò)設(shè)備的日常運維,基礎(chǔ)設(shè)施團隊主要負責(zé)電力和制冷的運維。
這兩個團隊又向數(shù)據(jù)中心經(jīng)理負責(zé),數(shù)經(jīng)將整個數(shù)據(jù)中心的運維能力打包向業(yè)務(wù)部門提供服務(wù),保證業(yè)務(wù)在數(shù)據(jù)中心的安全。
接下來導(dǎo)師從運維場景和基礎(chǔ)設(shè)施運維為我們詳細介紹了運維人員的日常工作
運維場景:設(shè)備搬遷-設(shè)備直配-設(shè)備保全-備件存放-IT故障處理
基礎(chǔ)設(shè)施運維:日常巡檢-設(shè)備維保-日常演練-高危巡檢-故障處理
二、業(yè)務(wù)重保支持
數(shù)據(jù)中心主要從以下四個方面配合業(yè)務(wù)重保:
應(yīng)急保障-高危巡檢-機架電流統(tǒng)計分析-整體電力容量確認
三、業(yè)務(wù)優(yōu)化建議
第一個建議:重要的設(shè)備和群組要分開放置
①不要在同一個機架 ??
②不要在相鄰的機架
③不要在同一列機架 ??
④不要在同一個房間
第二個建議:電源故障莫忽視
①一個電源模塊告警后,雖然服務(wù)器還能正常工作,但可靠性已經(jīng)嚴重降低
②收到電源模塊告警后,需及時更換避免服務(wù)器斷電停機
混合云環(huán)境下監(jiān)控系統(tǒng)建設(shè)的探索與實踐
張波 虎牙直播運維研發(fā)架構(gòu)師
點擊小程序卡片即可收看嘉賓現(xiàn)場精彩視頻
一、開源監(jiān)控系統(tǒng)對比
Zabbix--成熟度相對較高、但可擴展性不高
Prometheus-監(jiān)控設(shè)計超前、成熟度不夠
Openfaclon-架構(gòu)設(shè)計合理、產(chǎn)品活躍度強
Openfaclon的模塊設(shè)計
改造后的Openfaclon
二、TSDB(時序數(shù)據(jù)庫)
什么是TSDB?
可以唯一標(biāo)識的序列名/ID 及meta-data
一組數(shù)據(jù)點{timestamp, value}。
timestamp是一個Unix時間戳
TSDB的特點:
數(shù)據(jù)結(jié)構(gòu)簡單
數(shù)據(jù)量大
寫多于讀95%+
TSDB的可伸縮性與可靠性:
使用Hbase作為存儲中心
無須采樣
支持上萬機器和上億數(shù)據(jù)點的采集
一個無狀態(tài)服務(wù)橫向擴展能力強
三、監(jiān)控系統(tǒng)的三個挑戰(zhàn)
①可伸縮性與可靠
24小時 平均查詢延遲10ms 200w+TPS/s 支持秒級存儲
7天數(shù)據(jù)平均查詢延遲50ms 100w+TPS/s 支持1分鐘存儲
永久存儲平均查詢延遲300ms 60W+TPS/s 數(shù)據(jù)降采樣
②使用者對監(jiān)控系統(tǒng)的濫用
限制指標(biāo)單周期上報上線:最高10000
上報數(shù)據(jù)按配額分配,超額告警,數(shù)據(jù)丟棄
不同監(jiān)控數(shù)據(jù)存儲不同引擎
依賴監(jiān)控數(shù)據(jù)的業(yè)務(wù)必須實現(xiàn)failover
根據(jù)元數(shù)據(jù)預(yù)測查詢數(shù)據(jù)量實現(xiàn)fastover
③成本控制:使用云上資源提高系統(tǒng)彈性能力降低成本
集群混合云部署集群
?A集群自建方案,B集群公有云方案
?A集群 元數(shù)據(jù)服務(wù):elasticsearch
? ? 全量數(shù)據(jù)存儲引擎:openTSDB
?B集群 元數(shù)據(jù)查詢引擎:SLS
? ? 26小時數(shù)據(jù)存儲引擎: datastore
? ? 7天數(shù)據(jù)存儲引擎: histsdb
? ? 多維數(shù)據(jù)查詢引擎:SLS
支撐10萬級設(shè)備的運營系統(tǒng)設(shè)計與實現(xiàn)
王子勇 騰訊織云Lite技術(shù)負責(zé)人
點擊小程序卡片即可收看嘉賓現(xiàn)場精彩視頻
一、包系統(tǒng)精髓
早期的發(fā)布方式&包系統(tǒng)的方式
早期的發(fā)布方式:傳文件→執(zhí)行命令
包系統(tǒng)的方式:創(chuàng)建版本→安裝/升級
包系統(tǒng)-后臺架構(gòu)
SVN存儲&消息隊列&異步架構(gòu)&緩存
命令通道-后臺架構(gòu)
二、CMDB資源與流水線
為什么需要CMDB資源模型?
基于文檔的部署
基于腳本/定制流程的部署
①業(yè)務(wù)零開發(fā)成本
②極低操作門檻
③全局自動伸縮
④一人vs上千業(yè)務(wù)
流水線設(shè)計要點:
①用戶可創(chuàng)建流水線
②支持參數(shù)輸入
③支持參數(shù)傳遞 (管道的哲學(xué))
④工具庫 (代碼復(fù)用)
⑤支持人工介入 (審批)
⑥支持失敗步驟重試
⑦執(zhí)行節(jié)點橫向擴展
⑧數(shù)據(jù)運營 工具/流程耗時、成功率統(tǒng)計
支撐10萬級設(shè)備的運營系統(tǒng)設(shè)計與實現(xiàn)
蔣常春 CDB運維負責(zé)人
點擊小程序卡片即可收看嘉賓現(xiàn)場精彩視頻
一、CDB--云數(shù)據(jù)庫 MySQL
老師詳細給學(xué)員們介紹了云數(shù)據(jù)庫MySQL
CBD平臺實例數(shù)目數(shù)萬個,機器數(shù)量上萬臺,人均運維實例10000個,每天都有設(shè)備故障。
平臺大了,問題成倍放大,每個組件、每項DBA工作,都要考慮平臺化、工具化。
二、優(yōu)化思路
常老師從數(shù)據(jù)采集-告警收斂-系統(tǒng)集成-自動處理四個方面闡述了優(yōu)化的思路
告警收斂可以從收斂的目標(biāo)和收斂的方向去規(guī)避和優(yōu)化
數(shù)據(jù)采集之后上報收斂,實現(xiàn)告警自動化
三、技術(shù)方案
監(jiān)控和數(shù)據(jù)拉取:Python、Go
存儲:Elasticsearch、Redis、CDB
Web server:Flask
Frontend:Vue.js
前后端分離,數(shù)據(jù)API化
四位導(dǎo)師在本次沙龍分享的內(nèi)容干貨滿滿,期待未來可以在多個城市與更多的技術(shù)人見面。
下一站,再見!
溫馨提示:
需要獲取四位導(dǎo)師現(xiàn)場PPT的同學(xué)請在「騰訊技術(shù)工程」公眾號后臺回復(fù)關(guān)鍵字“沙龍PPT”即可獲取下載地址
總結(jié)
以上是生活随笔為你收集整理的TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 参加腾讯DevDays是一种什么样的感受
- 下一篇: 腾讯计费:助力游戏千亿级营收,覆盖180