面向智能电网的电力大数据存储与分析应用
面向智能電網的電力大數據存儲與分析應用
崔立真1, 史玉良1, 劉磊1, 趙卓峰2, 畢艷冰3
1. 山東大學計算機科學與技術學院,山東 濟南 250101
2. 北方工業大學云計算研究中心,北京 100041
3. 國網信息通信產業集團有限公司,北京 102211
摘要:闡述了智能電網面臨的挑戰以及大數據關鍵技術對電力行業的可持續發展和堅強智能電網建立的重要意義。分別從智能電網主數據管理、用電信息統一存儲管理、電能質量分析、配網運營能力分析等幾個典型大數據系統分析了大數據關鍵技術在智能電網中的應用。
關鍵詞:智能電網;大數據;存儲;智能分析
doi:10.11959/j.issn.2096-0271.2017060
論文引用格式:崔立真, 史玉良, 劉磊, 等. 面向智能電網的電力大數據存儲與分析應用[J]. 大數據, 2017, 3(6): 42-54.
CUI L Z, SHI Y L, LIU L, et al. Applications of key technologies of storage and analysis in electric power big data for smart grid[J]. Big Data Research, 2017, 3(6): 42-54.
1? 引言
電力工業正朝著以物理電網為基礎的智能電網發展,我國物理電網是以特高壓電網為骨干網架,各電壓等級電網協調發展的堅強電網為基礎,將現代先進的傳感測量技術、通信技術、信息技術、計算機技術與物理電網高度集成而形成的新一代現代化電網。智能電網以充分滿足用戶對電力的需求和優化資源配置,確保電力供應的安全性、可靠性和經濟性,滿足環保約束,保證電能質量,適應電力市場化發展等為目的,面向用戶提供可靠、經濟、清潔、互動的電力供應和增值服務,提高電網的可靠、安全、經濟、高效和環境友好等特性。
智能電網一般具有自愈、互動、優化、兼容以及集成等特點[1],其“智能”主要體現在實時調度和管理、雙向信息流、新能源發電的智能接入。其中,實時調度和管理指的是對電網進行實時的管理,在此基礎上進行主動的節能與增效,同時能夠對安全隱患進行及時發現并且診斷和修復。雙向信息流指的是實現發電和用電的實時交互,從而對兩者進行綜合調度,實現高設備利用率的目標。以上特點以及目標都是基于對電網的觀察和控制,為了實現對電網的觀察和控制,必須獲得電網全景實時數據。這些數據能夠反映系統的運行狀態,系統能夠快速處理和分析這些數據,然后將其轉換成可以指導電網運行的決策信息,從而實現對電網的智能管理和實時調度。
為了實現對電網的智能管理和實時調度的目標,就必須在智能電網的發電、輸電、變電、配電和用電五大環節安裝大量的信息采集設備和信息管理系統。例如,在用電網中采用智能電表代替傳統的老式機械電表,采集數據的頻率從15 min/次變為1 s/次;在輸電網中需要采集各種開關信號量信息以及遙測信息,其刷新頻率也能達到1 s/次。在智能電網安裝這些信息采集設備和信息管理系統,對電網各個環節進行實時而精確的監控,必將在智能電網中產生大量的數據。這些在電網運行和設備檢查、檢測過程中產生的數據量呈指數級增長(從TB級逐漸增長為PB級),使得電力行業也進入大數據時代[2,3]。智能電網中的大數據具有典型的“4V”特征,即數據體量巨大(volume)、數據種類繁多(variety)、價值密度低(value)和處理速度快(velocity)[4]。利用智能電網中的大數據為電網的發展和運行控制提供科學的決策,不僅是智能電網發展的迫切需求,也是實現智能電網堅強、自愈、兼容、經濟、集成、優化的必由之路[5]。
電網業務數據大致可分為3類:電網運行和設備檢測、實時狀態數據;電力企業營銷數據;電力企業管理數據。其中,電力企業營銷數據又包括交易電價、售電量、用電客戶等方面的數據[6]。隨著我國智能電網的建設越來越深入,大數據技術成為支撐智能電網安全運行最重要的方法。為此,本文將從面向智能電網應用的電力大數據存儲管理、智能分析的4個實例出發,闡述大數據技術在智能電網中的具體應用。
2 ?基于主數據管理的智能電網全業務統一數據中心
在智能電網信息化和自動化建設過程中,不同部門之間分散式地開發、運行和管理信息系統,系統之間的信息無法互聯,造成“信息孤島”現象,帶來硬件冗余、數據多源、格式不一致等問題,使不同電力企業單位及部門之間數據不能及時共享、訪問、管理與分析挖掘的矛盾變得突出,難以制定企業級決策,增加了電力部門的運營成本,甚至造成與用戶之間的交流障礙[7]。數據融合與管理是智能電網大數據的應用基礎。在電力行業,最早提出的電力系統公共信息模型(common information model,CIM)[8]系統性地描述了電力企業尤其是與電力運行有關的所有主要對象,介紹了面向電力生產與電力交易全環節實體及關系的建模方法,并被國際電工委員會(International Electrotechnical Commission,IEC)釆納,成為IEC 61970、IEC 61968、IEC 61925 系列標準的一個重要組成部分[9]。目前已形成了國家電網公司公共數據模型(SG CIM)[10]等多個地區性、公司性私有模型,但是對于多領域的完整應用架構與系統調優來說,這些模型與拓展方法并不適用。
國家電網各業務條線信息系統建設和應用的深入發展暴露出跨專業業務協同與信息共享不足,數據多頭輸入,數據反復抽取、冗余存儲、質量不高等一系列問題,對數據的準確性、實時性等要求逐漸提高。為加快構建全球能源互聯網,全面建成電網堅強、資產優良、服務優質、業績優秀的現代公司,企業需提高全業務協同性和全流程貫通性,深入挖掘數據價值,實現用數據管理企業、用信息驅動業務。數據是信息化的核心,建設全業務統一數據中心[11]是源端全業務融合、后端大數據分析的必然選擇,對建設信息化企業具有重要意義。同時,大數據、云計算等新技術日趨成熟,為全業務統一數據中心的建設提供了技術保障。通過建設全業務統一數據中心,實現對公司全業務數據資源的統一規劃、管理和使用,提高企業信息化水平,為公司開展跨專業數據綜合利用,實現用數據管理企業、用信息驅動業務的目標,奠定了堅實基礎。
2.1 ?全業務統一數據管理架構
從對基于主數據管理的現有數據中心的進一步發展和完善的角度出發,本文提出一種全業務統一數據中心,主要包括數據處理分中心、數據分析分中心和數據管理分中心3部分,其總體架構如圖1所示。
圖1 全業務統一數據中心總體架構
2.2 ?數據處理分中心
數據處理分中心可對公司生產經營管理過程中各類業務數據進行存儲、處理和融合,是對原業務系統各個分散數據庫的歸并、發展與提升,為公司各業務應用提供邏輯統一的數據支撐,使過去數據復制的業務集成方式向共享使用方式轉變,實現企業級端到端流程的真正貫通,同時解決系統之間數據集成及數據復制過程中存在的數據安全、效率低下和資源浪費等問題,逐步實現源端數據的干凈透明。數據處理分中心包括業務處理數據庫和統一數據訪問服務兩部分,物理上實現兩級部署。遵循公司統一數據模型和數據架構要求設計業務處理數據庫,按照業務主線對業務處理數據庫進行合理劃分、部署。為了隔離應用與數據庫的直接連接,構建統一數據訪問服務,為不同類型數據庫構建統一接口提供靈活的訪問權限管理、數據路由與調度能力,實現統一的數據管控。數據處理分中心目標架構如圖2所示。
圖2 數據處理分中心目標架構
2.3 ?數據分析分中心
數據分析分中心匯集了全業務、全類型、全時間維度的數據,可為公司各類分析決策應用提供完備的數據資源、高效的分析計算能力及統一的運行環境,改變過去需要反復抽取分析型應用數據和數據冗余存儲的局面,由“搬數據”轉變為“搬計算”,促進企業級數據分析應用的全面開展。數據分析分中心依托企業級大數據平臺構建,由統一存儲服務、企業數據倉庫和統一分析服務3部分組成,物理上兩級部署。統一存儲服務實現對結構化數據、非結構化數據、采集監測類數據和外部數據的統一存儲和管理。企業數據倉庫支撐結構化數據的抽取、清洗、存儲和多維分析模型的構建,適用于多維分析應用。統一分析服務為數據分析應用提供計算能力和應用構建的支撐,具備高效、便捷訪問數據分析分中心數據的能力。數據分析分中心目標架構如圖3所示。
圖3 數據分析分中心目標架構
2.4 ?數據管理分中心
數據管理分中心從企業業務全局出發,對企業數據的定義、存儲、訪問等進行統一規劃和管控,為全企業范圍內數據的一致性、準確性和可靠性提供保障,為企業內跨專業、跨系統的數據集成與應用提供有力的支持。數據管理分中心物理上一級部署、兩級應用,以統一數據模型及主數據管理為建設核心。基于本體論的思想,可以將現實世界中的事物抽象為實體及實體之間的關系,主數據管理可以在此基礎上建立信息模型,實現數據含義的表達、共享與重現,利用信息技術對數據進行加工處理,使數據之間建立交互關系,并轉化為能回答特定問題的信息,對信息進行概率統計、分類與數據挖掘,可進一步形成有助于決策規劃和行動指導的知識。通過對電力系統的公共信息模型(common information model,CIM)建模,得到系統中實體的抽象表示,它表述的對象及其關系構成電力數據及相關外部數據的本體[12,13]。
3 ?基于MongoDB的用電信息大數據存儲技術
智能電網以電力數據的采集和存儲為基礎[4],電力用戶數量和終端數量的快速增長使用電數據成為典型的行業大數據[14]。用電數據具備大數據的規模大、種類多、要求處理速度快和價值密度低等特性[15],為滿足大數據管理需求,以非關系型數據庫NoSQL為代表的大數據存儲技術應運而生,NoSQL技術的優點包括非關系型、分布式數據存儲和可橫向擴展等,一般分為:基于鍵值對存儲技術,如Redis、Voldemort 等;基于數據列分組存儲技術,如Cassandra、HBase等;基于文檔存儲技術,如CouchDB、MongoDB等;基于圖存儲,如Neo4J、InfoGrid等[16]。MongoDB[17-19]作為典型的面向文檔的數據庫,支持的數據結構非常松散,因此可以存儲復雜的數據類型,保留了SQL一些友好的特性(如索引),另外還支持自動分片、自動故障轉移等功能。MongoDB的上述特性滿足了用電大數據對存儲容量、存儲速率等方面的要求,其自動分片機制增強了集群水平擴展能力[20],可解決用電大數據基本的存儲問題;MongoDB的高并發讀寫性能可實時緩存高速采集到的數據流,解決數據流到達速度與生產庫寫入速度不匹配的問題;其自動故障轉移機制為平臺的高可用性提供了有效保障;對于存儲模式靈活、時效性低且利用率相對較低的通信源幀、采集狀況等數據,可采用模式自由的鍵值對作為文檔存儲結構,而對于存儲時效性高、利用率高的數據,可采用MongoDB內置的分布式文件存儲結構。
3.1 ?用電信息系統大數據存儲架構
用電信息采集系統對用電信息的自動采集、計量異常和電能質量監測、用電分析和管理提供了技術支持。為適應大規模用電信息數據的存儲要求,設計了一種具有高并發、高可靠性和高效存儲等特點的存儲架構,加快數據訪問速度,本節提出如圖4所示的面向用電信息大數據的存儲架構,為實現用電信息的自動采集、計量異常等功能,并適應用電數據種類繁多的特點,將數據平臺劃分為前置通信平臺數據庫、生產數據庫和分析數據庫。
圖4 電力用戶用電信息采集系統邏輯架構
3.2 ?采集數據的存儲過程
MongoDB能夠存儲并支持大數據集的部署和高并發吞吐量的操作,對數據的高效存儲便于實時、低時延地訪問數據。本節介紹了基于面向用電信息大數據的存儲架構對數據的存儲過程:前置通信平臺負責數據格式轉換,當啟動數據采集服務和數據處理單元時,從前置通信平臺關系數據庫加載檔案數據,用于數據幀解析和原始數據轉存。首先將原始的二進制數據幀轉換為JSON (JavaScript object notation)[21]格式的數據,再進一步轉換為業務數據,并存儲至應用系統數據庫,如圖5所示。分布式存儲技術具有良好的可擴展性,并對數據充分共享,有助于電力大數據的管理和存儲,綜合利用分布在各處的資源,能避免由于單個節點失效而使整個系統崩潰的情況出現。
圖5 前置通信平臺采集數據存儲
3.3 ?基于MongoDB私有云的電力大數據存儲關鍵技術
3.3.1 ?存儲模式
作為一種分布式文檔存儲數據庫,MongDB可以存儲比較復雜的數據類型,本節提出通過對不同類型的采集數據采取不同的存儲方式來優化大規模數據的存儲和查詢效率,采用多集群存儲方式提高數據讀寫速率。MongoDB的自動分片機制支持集群擴展,將9臺服務器組成一個MongoDB集群,3臺服務器提供路由服務,3臺服務器提供配置服務,另外包括由副本集構成的3組數據分片。經大量測試發現,路由服務和配置服務對內存的依賴程度較低,因此可將路由服務和配置服務置于數據分片所在的服務器上,從而提高云資源的利用率。
3.3.2 ?分片負載均衡
MongoDB 的自動分片機制促進了分布式存儲的水平擴展,均衡器在一定程度上確保了數據塊在每個分片上的均勻分布。MongoDB 將數據按用戶指定的分片鍵劃分為多個chunk(均衡器進行數據遷移的基本單位),使用均衡器檢查各分片內的chunk數,若擁有chunk最多的分片和擁有chunk最少的分片的chunk數之差超過某個閾值(例如8),均衡器則對這些不均勻的分片進行遷移,將前者的chunk移至后者。僅考慮各分片內chunk的數目無法從根本上解決云存儲數據訪問的動態均衡問題,本文考慮分片所在數據節點負載差異,提出從數據量和負載兩方面對負載均衡進行優化,通過路由mongos獲取分片所在節點負載,考慮負載因素在遷移限制條件判斷、遷移源分片與目標分片選取等環節帶來的影響。
3.3.3 ?讀寫分離
云存儲和副本集技術促進了從副本對讀擴展的適用。在從副本上執行查詢請求時,會按實際負載情況均衡“讀寫請求”,增大數據吞吐量。采用響應速度均衡策略執行請求的從副本,向從副本發出探測請求,并將請求分發給最短時間內給出響應的從副本,以較準確地反映節點的運行狀態。
4 ?基于關聯分析的電網電能質量監測分析
目前,電能質量干擾源的發展呈現多樣化、大容量、高電壓等趨勢。同時,由于大電網之間高度互聯,電能質量擾動的傳播和影響范圍增大。例如,2011年青藏直流發生了多起直流閉鎖事件,均是由700 km外的750 kV主變充電引起的[22]。電網電能質量往往受多個動態隨機干擾源的共同影響。傳統的仿真建模方法在電網范圍確定、參數獲取以及干擾源特征模擬等方面均存在較大困難,不利于分析電能質量擾動事件發生的具體原因。
面向電網擾動事件的提取、定位和原因分析,本節提出了一種基于異常指標關聯分析的電能質量擾動事件挖掘方法,通過挖掘頻繁共現的異常指標組,形成能表征特定類型擾動事件的特征集合,進而發現電網中可能存在的電能質量擾動事件。
4.1 ?電能質量監測與分析方法流程
本文提出的電能質量擾動事件特征挖掘方法面向電網監測點采集的電能質量監控指標,在不依賴于特定業務背景和業務知識的情況下,通過識別和關聯電能質量異常指標來定位電能質量擾動事件。由于若干監測點往往受到某個特定干擾源(如電鐵、光伏發電站、風電站)的影響而產生電能質量擾動,本文提出的挖掘方法關注不同監測點周期出現的具有相同特征的電能擾動事件之間的關聯。
圖6給出了電能質量監測與分析方法的流程示意。首先,基于監測點實時獲取的三相電壓電流提取分析電能質量的監測指標;然后,根據電能質量監測指標提取指標異常數據,形成異常指標時序數據;接著,基于異常指標時序數據分析指標間的關聯關系,形成一組擾動事件特征的關聯指標;最后,通過分析多個檢測點的空間分布情況和監測點之間的關聯,過濾不相干的擾動特征,提高擾動特征的可用性。
圖6 電能質量監測與分析方法流程
4.2 ?異常指標提取
本文提出通過監測指標數值的異常來定位電能質量擾動事件。公用電網對諧波的變化范圍進行了規范,一般來講,可將超出規范范圍的指標作為異常電能質量指標。然而,在實時獲取的電能質量監測數據中,多數情況下并不存在超標數據,導致可用于電能質量分析的數據很少。事實上,監測數據中存在大量數據孤立點,這些孤立點雖然沒有超標,但是可以用于區別正常數據,因而可將這些數據孤立點作為分析電能質量數據的異常電能質量指標。
電網某監測點C功率因數的時間曲線如圖7所示。根據電能質量公用電網諧波GB/T 14549 93規范,當功率因數小于閾值0.9時,指標異常。如圖7所示,實際數據中功率因數曲線始終高于0.9,而功率因數小于0.93的指標數據極少,這些數據從一定程度上也可以用于異常指標分析。因此從整體來看,選取0.93而非0.9作為閾值更為合適。
圖7 功率因數時間曲線
本文通過對指標數據的數值分析來提取異常指標,基本思想為:找出數據中分布稀疏的數值區間,并將這些數值區間的邊界作為判定指標異常的閾值。一般來講,這些閾值為指標數值的上下界。本文提取異常指標的過程以指標時序數據為輸入,選取異常指標時序數據作為輸出。首先,計算每個監測指標數值的累計分布概率,以得到累計分布曲線;然后,計算該曲線拐點,以訓練出該監測指標所屬區間的上下界;最后,將不在數值區間的時序數據定義為異常指標數據,并輸出異常指標時序數據。表1為應用此提取異常指標方法得到的一組異常指標。
表1 異常指標限值舉例
4.3 ?異常指標關聯分析
某一個監測指標的異常可能由多個干擾源造成,而特定的干擾源也往往會導致多個檢測指標出現異常,故通過單一監測指標異常無法直接定位擾動事件及干擾源,本文考察異常指標之間的關聯關系,將有關聯的若干異常指標視為被同一個干擾源擾動的結果,并將這些異常指標視為電能質量擾動特征。
本文將一組同時出現異常的電能質量監測指標視為一組電能質量頻繁項,因此可以將電能質量異常指標的關聯分析定義為異常電能質量監測指標的頻繁項挖掘問題,并采用FP-Growth算法[23]挖掘頻繁項,圖8為異常指標關聯分析示意,橫坐標為異常指標時序,縱坐標為用于分析的異常指標,指標“電流有效值C相”和指標“電流有效值A相”在t2、t3和t4時刻同時出現異常,因此可將這兩個指標視為一組異常電能質量監測指標的頻繁項。FP-Growth算法為數據挖掘領域的經典算法,由于篇幅限制,本文不進行詳細描述。
圖8 異常指標關聯分析示意
5 ?基于大數據的配網運營能力業務模型
配電網直接面向終端用戶,是保障電力能源“落得下、配得出、用得上”的關鍵環節。但由于運營調配信息共享不足,管理協同不夠,無法及時判斷和定位配電故障,停電原因、停電范圍分析困難,故障搶修效率低,客戶投訴處理不及時等問題,無法滿足國家電網公司提出的面向用戶提供優質服務的要求。如何利用大數據提高配網運營服務質量和配網運營效能是實現配電網精益化管理的關鍵,研究如何利用大數據技術提升公司分析決策水平,對推動電力行業有效、可持續發展具有重要的理論與現實意義。
本文通過對配網業務現狀進行需求調研,提出了基于大數據的配網運營能力的業務架構,對配網運營服務分析、運營效能分析兩大業務域進行設計,完成終端運行情況分析、配變負載情況分析、業擴報裝流程分析、配網投入產出分析等10個業務主題的研究與設計,并在此基礎上實現基于大數據的配網運行服務情況、客戶服務情況、配網項目全過程執行效率、配網故障搶修效率、配網投入產出分析等方面的大數據應用,挖掘國網信息通信產業集團公司數據的潛在價值,實現其在戰略決策、業務應用、管理模式等方面的創新[10]。配網運營在服務和效能兩個業務域的問題及需求見表2。在配網運營服務大數據分析方面,主要可以提供終端運行情況分析、配變負載情況分析、配網電壓情況分析、業擴報裝流程分析、故障搶修流程分析、投訴舉報流程分析、用戶停電情況分析。在配網運營效能大數據分析方面,主要提供配網項目全過程執行效率分析、配網故障搶修效率分析、配網投入產出分析。
表2 配網運營能力業務應用需求梳理
6 ?結束語
本文給出了基于主數據的統一數據中心建設、用電信息的大數據存儲、電網智能監測與分析、配網運營能力大數據分析等方面的幾個典型實例,討論如何利用大數據技術應對智能電網挑戰,詳細介紹了典型智能電網應用的大數據系統與關鍵技術以及基于大數據的配網運營能力業務模型。目前智能電網應用發展趨勢猛烈,但是電力大數據在電力系統中的應用才剛剛起步,因此結合大數據的技術優勢和電力系統的應用需求,發揮電力大數據的價值,增強“信息孤島”之間的互操作,將為智能電網的建設帶來新的發展契機。電力企業應該牢牢抓住這個契機,積極與第三方大數據分析平臺廠商合作,從數據政策、人才培養、關鍵技術研發等層面最大化挖掘電力大數據的市場潛力,充分地挖掘電力大數據具有的資產價值,促進企業未來的可持續發展。
點擊下方?閱讀原文?即可獲取全文
作 者 簡 介
崔立真(1976-),男,博士,山東大學計算機科學與技術學院教授、博士生導師,主要研究方向為大數據科學與工程、智能數據分析與大圖深度學習、服務計算與協同計算等。
?
史玉良(1978-),男,山東大學計算機科學與技術學院教授、博士生導師,主要研究方向為云計算、大規模數據管理、隱私保護等。
?
劉磊(1981-),男,山東大學計算機科學與技術學院副教授、碩士生導師,主要研究方向為網絡性能工程、軟件定義網絡、網絡輿情監測系統等。
?
趙卓峰(1977-),男,北方工業大學云計算研究中心副研究員、副主任,主要研究方向為云計算、海量感知數據處理、服務計算、智慧城市建設等。
?
畢艷冰(1980-),女,就職于國網信息通信產業集團有限公司,主要研究方向為軟件與數據工程、云計算數據管理、電力系統監控和配電自動化等。
?
《大數據》期刊
《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的面向智能电网的电力大数据存储与分析应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 恶意代码的分类
- 下一篇: 看雪学院课程《汇编语言详解与二进制漏洞初