解决方案|电力行业应如何应对数字化转型危机
背景與挑戰(zhàn)
隨著電網(wǎng)公司數(shù)字化轉(zhuǎn)型工作的推進和云平臺、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動化、智能化等新技術(shù)的應(yīng)用,推進高效一體化網(wǎng)絡(luò)排障定位與深入推進人工智能及大數(shù)據(jù)技術(shù)等在電網(wǎng)信息系統(tǒng)運維中的應(yīng)用,以及運用前沿科技技術(shù),提高生產(chǎn)管理效益,提升數(shù)字電網(wǎng)建設(shè)過程中數(shù)據(jù)的價值已成為電網(wǎng)公司數(shù)字化轉(zhuǎn)型工作的必然要求。
與此同時,伴隨著電力行業(yè)數(shù)字化轉(zhuǎn)型的不斷發(fā)展,相關(guān)企業(yè)業(yè)務(wù)系統(tǒng)的不斷更新與設(shè)備數(shù)量的大幅增加,由此引發(fā)了電力行業(yè)以下痛點:
-
監(jiān)控層面:缺乏非侵入式的業(yè)務(wù)數(shù)據(jù)監(jiān)控手段;
-
工作流程層面:缺乏統(tǒng)一的IT服務(wù)入口和服務(wù)管理流程;
-
人員層面:業(yè)務(wù)體系復雜,不同業(yè)務(wù)部門各自為政;
-
故障處理層面:問題發(fā)生后被動處理,且故障分析定位困難。
基于以上背景及痛點,如何在不植入探針或 Agent 的情況下監(jiān)控業(yè)務(wù)鏈路運行情況,業(yè)務(wù)管理人員如何統(tǒng)計分析關(guān)鍵業(yè)務(wù)指標數(shù)據(jù),運維人員如何準確定位故障、排查故障對電力行業(yè)相關(guān)企業(yè)來說均是極大的挑戰(zhàn)。
場景需求分析
基于上述背景及挑戰(zhàn)分析,電力行業(yè)具體包含以下運維場景需求:
-
非侵入式監(jiān)控:通過非侵入式手段或工具實現(xiàn)對業(yè)務(wù)拓撲和業(yè)務(wù)指標數(shù)據(jù)的監(jiān)控;
-
運維數(shù)據(jù)分析:統(tǒng)一收集、處理、分析業(yè)務(wù)系統(tǒng)運維數(shù)據(jù)、日志數(shù)據(jù)和關(guān)鍵指標數(shù)據(jù);
-
統(tǒng)一處理展示:對業(yè)務(wù)系統(tǒng)的物理鏈路、邏輯拓撲以及指標數(shù)據(jù)進行集中監(jiān)控展示;
-
故障定位分析:統(tǒng)一告警信息收集、對故障進行關(guān)聯(lián)分析,準確定位故障問題和根因,提升故障處理效率。
解決方案
整體產(chǎn)品技術(shù)架構(gòu)
下圖為整體產(chǎn)品技術(shù)架構(gòu),包含底層立體化監(jiān)控與管理工具集、中層數(shù)字化運維數(shù)據(jù)中臺、頂層數(shù)據(jù)價值與管理產(chǎn)品集。底層立體化監(jiān)控與管理工具集包含基礎(chǔ)設(shè)施監(jiān)控(DOIM)、業(yè)務(wù)性能監(jiān)控(DBPC)以及其他開源及非開源監(jiān)控工具與日志分析(DOLA);中層數(shù)字化運維數(shù)據(jù)中臺包含數(shù)字化運維指標管理體系(DOMM)、面向服務(wù)的配置管理(CMDB)、智能分析(DOIA)、數(shù)字化運維數(shù)據(jù)庫 (DODB )以及采控平臺(DOCC);頂層數(shù)據(jù)價值與管理產(chǎn)品集包含數(shù)字化運維監(jiān)控中心(DOMC)、數(shù)字化運維事件管理(DOEM)數(shù)字化運維工作臺、報告報表以及數(shù)字化運營服務(wù)管理。
產(chǎn)品列表及功能
業(yè)務(wù)性能監(jiān)控工具
下圖為業(yè)務(wù)性能監(jiān)控工具監(jiān)控網(wǎng)絡(luò)流量鏡像的具體流程。通過抓取網(wǎng)絡(luò)鏡像流量的方式對業(yè)務(wù)數(shù)據(jù)進行分析。業(yè)務(wù)發(fā)起后,業(yè)務(wù)流量經(jīng)過多層鏈路一體化展示,直觀明了地展示業(yè)務(wù)在哪個層級消耗的時間情況。
數(shù)字化運維數(shù)據(jù)庫
數(shù)字化運維數(shù)據(jù)庫能夠?qū)崟r高效的接入用戶環(huán)境的多種數(shù)據(jù)源,收集用戶環(huán)境中的IT和業(yè)務(wù)數(shù)據(jù),進行統(tǒng)一的管理和存儲,通過便捷和強大的建模分析工具,將數(shù)據(jù)進行關(guān)聯(lián)分析、業(yè)務(wù)建模,結(jié)果實時輸出給可視化以及其他應(yīng)用。
-
數(shù)據(jù)處理:通過數(shù)據(jù)處理pipeline對流式數(shù)據(jù)進行實時處理,內(nèi)置多種數(shù)據(jù)處理組件以及數(shù)據(jù)處理模版,開箱即用,全方面滿足數(shù)據(jù)預處理的要求。
-
數(shù)據(jù)存儲:高性能的分布式列式存儲數(shù)據(jù)庫,大大減少數(shù)據(jù)對磁盤空間的占用,在相同容量下,能夠?qū)Ω蠓秶臄?shù)據(jù)進行實時查詢。
-
數(shù)據(jù)計算:豐富的聚合計算函數(shù)和強大的計算能力,充分利于 CPU 資源面。聚合查詢的平均響應(yīng)時間可在3秒以內(nèi),一些簡單查詢可以在毫秒級。
數(shù)字化運維算法平臺
數(shù)字化運維算法平臺包含指標異常檢測、指標預測、日志模式識別、根因分析與推薦、多指標分析、告警降噪等6大 AIOps 場景的20余個智能算法。提供了豐富的算法庫,開箱即用,能夠支撐豐富的運維場景。
-
單指標異常檢測:動態(tài)基線算法、自動閾值算法、分段閾值算法、頻域分析算法、自動選擇算法
-
多指標異常檢測:多指標異常檢測算法
-
日志解析:CWdrain算法、CWspell算法
-
指標預測:CWprophet算法、CWrnn算法
-
根因分析:基于調(diào)用鏈的RCA算法
-
智能告警降噪:日志統(tǒng)計異常檢測算法
數(shù)字化運營指標體系管理平臺
數(shù)字化運營指標體系管理平臺作為上層應(yīng)用側(cè)產(chǎn)品監(jiān)控中心重要的數(shù)據(jù)來源之一,幫助其通過整合業(yè)務(wù)與IT資源、指標、健康度、告警事件,圍繞業(yè)務(wù)價值構(gòu)建多維度的運維監(jiān)控體系,以實現(xiàn)能夠快速發(fā)現(xiàn)、分析并定位故障,達到全方位、立體化監(jiān)控的能力。
靜態(tài)閾值
-
手動設(shè)定數(shù)據(jù)區(qū)間梯度
-
根據(jù)數(shù)值坐落區(qū)間獲取指標健康度
動態(tài)閾值
-
選定算法進行指標異常檢測
-
歷史數(shù)據(jù)訓練獲得算法模型
-
算法結(jié)果判定指標健康度
健康度設(shè)置
生死線指標嚴重異常時,可一票決定健康度。健康度得分是表征對象健康狀態(tài)的絕佳指示器。
-
選擇參與計算的指標元素
-
根據(jù)業(yè)務(wù)情況分配元素的權(quán)重
-
生成健康素計算公式
數(shù)字化運維監(jiān)控中心
數(shù)字化運維監(jiān)控中心是一款全方位、立體化的實時監(jiān)控產(chǎn)品,面向企業(yè)業(yè)務(wù)價值與 IT 運維的頂層規(guī)劃,對業(yè)務(wù)數(shù)據(jù)以及基礎(chǔ)設(shè)施、中間件、服務(wù)、應(yīng)用、調(diào)用鏈等 IT 資源進行統(tǒng)一監(jiān)控,并通過構(gòu)建業(yè)務(wù)關(guān)聯(lián)關(guān)系,結(jié)合指標、日志、告警等,幫助快速發(fā)現(xiàn)、分析并定位故障。
數(shù)字化運維事件管理
數(shù)字化運維事件管理基于大數(shù)據(jù)技術(shù)和機器學習算法,統(tǒng)一接入與處理來自于各種監(jiān)控系統(tǒng)的告警消息與數(shù)據(jù)指標,支持告警事件的過濾、通知、響應(yīng)、處置、定級、跟蹤以及多維分析,最終實現(xiàn)面向告警事件全生命周期的閉環(huán)管控。
整體方案流程
在數(shù)據(jù)采集側(cè),通過業(yè)務(wù)性能監(jiān)控工具抓取旁路流量,獲取業(yè)務(wù)系統(tǒng)監(jiān)控數(shù)據(jù),同時通過業(yè)務(wù)流程梳理,建立業(yè)務(wù)鏈路拓撲,實現(xiàn)基于業(yè)務(wù)實際鏈路的監(jiān)控分析,監(jiān)控數(shù)據(jù)通過kafka傳遞至運維數(shù)據(jù)庫。
運維數(shù)據(jù)庫接收到數(shù)據(jù)后,對數(shù)據(jù)進行處理(包括字段提取、拆分、合并、格式轉(zhuǎn)換等)并基于場景需求將不同數(shù)據(jù)存儲到不同的數(shù)據(jù)庫,同時通過查詢引擎為應(yīng)用場景提供數(shù)據(jù)支撐。
最后,在監(jiān)控中心對業(yè)務(wù)系統(tǒng)拓撲和數(shù)據(jù)指標進行統(tǒng)一展示,基于規(guī)則進行健康度分析和事件告警,通過智能運維算法和大數(shù)據(jù)分析,實現(xiàn)指標數(shù)據(jù)的趨勢預測和對事件告警的根因分析。
某電網(wǎng)企業(yè)案例分享
需求分析
-
希望通過不植入代碼的方式來監(jiān)控業(yè)務(wù)層的指標數(shù)據(jù),形成業(yè)務(wù)鏈路拓撲圖,跟蹤業(yè)務(wù)數(shù)據(jù)流向,并實時展示關(guān)鍵數(shù)據(jù);
-
通過指標歷史數(shù)據(jù),動態(tài)提供指標預測基線、預測數(shù)值范圍;
-
針對問題,能夠進行根因分析,快速進行問題定位;
-
對接當前使用的告警系統(tǒng),分析出數(shù)據(jù)結(jié)果后,通過當前正在使用的的告警系統(tǒng)去觸發(fā)事件。
云智慧解決方案
-
通過DBPC工具通過旁路鏡像流量的方式獲取實時業(yè)務(wù)數(shù)據(jù),以非侵入的方式實現(xiàn)了對業(yè)務(wù)的監(jiān)控;
-
建立運維大數(shù)據(jù)平臺,實現(xiàn)對接收的數(shù)據(jù)進行統(tǒng)一存儲和處理,并提取關(guān)鍵指標數(shù)據(jù);
-
利用智能算法,對歷史數(shù)據(jù)進行學習,實現(xiàn)了對未來一段時間內(nèi)的數(shù)據(jù)趨勢預測;
-
通過告警事件管理,對接客戶現(xiàn)有告警系統(tǒng),實現(xiàn)了告警信息的壓縮、清洗,并且與現(xiàn)有的工單系統(tǒng)實現(xiàn)關(guān)聯(lián)。
FlyFish開源福利
云智慧已開源數(shù)據(jù)可視化編排平臺 FlyFish 。通過配置數(shù)據(jù)模型為用戶提供上百種可視化圖形組件,零編碼即可實現(xiàn)符合自己業(yè)務(wù)需求的炫酷可視化大屏。 同時,飛魚也提供了靈活的拓展能力,支持組件開發(fā)、自定義函數(shù)與全局事件等配置, 面向復雜需求場景能夠保證高效開發(fā)與交付。
點擊下方地址鏈接,歡迎大家給 FlyFish 點贊送 Star。參與組件開發(fā),更有萬元現(xiàn)金等你來拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址:https://gitee.com/CloudWise/fly-fish
總結(jié)
以上是生活随笔為你收集整理的解决方案|电力行业应如何应对数字化转型危机的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C语言笔记含源码(变量、输入输出、分支、
- 下一篇: 由电能高频率变化使物质发生衰变的机器