【2017年第1期】智慧城市多源异构大数据处理框架
劉巖1,王華2,秦葉陽3,朱興杰1
1. 泰康保險集團股份有限公司數據信息中心,北京??102206
2.?中國人民大學,北京 ?100872
3.?北京大學,北京 ?100871
摘要:智慧城市建設的重心已由傳統IT系統和信息資源共享建設,轉變為數據的深度挖掘利用和數據資產的運營流通。大數據中心是數據資產管理和利用的實體基礎,其核心驅動引擎是大數據平臺及各類數據挖掘與分析系統。討論了智慧城市大數據中心建設的功能架構,圍繞城市多源異構數據處理的實際需要,對數據中心大數據平臺的架構進行了拆分講解,并以視頻大數據處理為例,闡述了數據中心中大數據平臺的運轉流程。
關鍵詞:智慧城市;大數據;多源異構;視頻分析
中圖分類號:TP391 ? ?文獻標識碼:A
doi:?10.11959/j.issn.2096-0271.2017007
Multisource heterogeneous big data processing architecture in smart city
LIU Yan1, WANG Hua2, QIN Yeyang3, ZHU Xingjie1
1.?Data & Information Services Center, Taikang Insurance Group Co., Ltd., Beijing 102206, China
2. Renmin University of China, Beijing 100872, China
3. Peking University, Beijing 100871, China
Abstract: The focus of smart city construction has been transferred from the tradition IT systems and sharing of information resources construction into the data mining operations and the flow of data assets. Big data center is the physical infrastructure of data assets management and utilization. Its core driver includes big data platform and kinds of data mining and analysis systems. The functional architecture of big data center in smart cities was discussed. And around the actual needs of urban multisource heterogeneous data processing, the structure of the big data platform used by parts was explained. Then taking the video processing as an example, the working flow of big data platform in the big data center was described.
Key words: smart city, big data, multisource and heterogeneous, video analysis
論文引用格式:劉巖,王華,秦葉陽,等. 智慧城市多源異構大數據處理框架[J]. 大數據, 2017, 3(1): 51-60.
LIU Y, WANG H, QIN Y Y, et al. Multisource heterogeneous big data processing architecture in smart city[J]. Big Data Research, 2017, 3(1): 51-60.
1 ?引言
隨著智慧城市建設逐步由信息基礎設施和應用系統建設邁入數據資產集約利用與運營管理階段,城市大數據中心已成為智慧城市打造核心競爭力、提升政府管理效能的重要工具。一方面政府借助大數據中心建設可以將有限的信息基礎設施資源集中高效管理和利用,大幅降低各自為政、運維機關龐雜、財政壓力過大的問題;另一方面,可以在國務院、發展和改革委員會大力支持的政策東風下,打破部門間數據壁壘,推動政府各部門職能由管理轉為服務,提高數據共享利用率和透明度。以大數據中心為核心構建城市駕駛艙,實現城市運轉過程的實時全面監控,提高政府決策的科學性和及時性。智慧城市大數據中心建設功能框架如圖1所示,其中針對不同部門的數據源,由數據收集系統完成數據的匯聚,并根據數據業務類型和內容的差異進行粗分類。為避免過多“臟數據”對大數據平臺的污染,對于批量數據,不推薦直接將數據匯入大數據平臺,而是單設一個前端原始數據資源池,在這里暫時存儲前端流入的多源異構數據,供大數據平臺處理調用。
圖1 ?智慧城市大數據中心功能框架
大數據平臺是城市大數據中心運轉的核心驅動引擎,主要完成多源數據導入、冗余存儲、冷熱遷移、批量計算、實時計算、圖計算、安全管理、資源管理、運維監控等功能[1],大數據平臺的主體數據是通過專線連接或硬件復制各政府部門數據庫的方式獲得,例如地理信息系統(geographic information system,GIS)數據、登記信息等。部分數據通過直連業務部門傳感監測設備的方式獲得,例如監控視頻、河道流量等。大數據平臺的輸出主要是結構化關聯數據以及統計分析結果數據,以方便各類業務系統的直接使用。
不同部門間共享與交換的數據不推薦直接使用原始數據,一方面是因為原始數據內容密級存在差異,另一方面是因為原始數據內容可能存在錯誤或紕漏。推薦使用經過大數據平臺分類、過濾和統計分析后的數據。不同使用部門經過政務信息門戶統一需求申請和查看所需數據,所有數據的交換和審批以及數據的監控運維統一由數據信息中心負責,避免了跨部門協調以及數據管理不規范等人為時間的損耗,極大地提高了數據的流通和使用效率。另外,針對特定的業務需求,可以基于大數據平臺擁有的數據進行定制開發,各業務系統屬于應用層,建設時不宜與大數據平臺部署在同一服務器集群內,并且要保證數據由大數據平臺至業務系統的單向性,盡量設置業務數據過渡區,避免應用系統直接對大數據平臺核心區數據的訪問。?
目前主流大數據平臺都采用以Hadoop為核心的數據處理框架,例如Cloudera公司的CDH(Cloud er a Distribution for Hadoop)和星環信息科技(上海)有限公司(Transwarp)的TDH(Transwarp Data Hub)、Apache Hadoop等。以Hadoop為核心的大數據解決方案占大數據市場95%以上的份額,目前國內80%的市場被 Cloudera占有,剩余20%的市場由星環信息科技(上海)有限公司、北京紅象云騰系統技術有限公司、華為技術有限公司等大數據公司分享。隨著數據安全意識的增強、價格競爭優勢的擴大,國內企業在國內大數據市場的份額和影響力正在快速提升。大數據的應用歷程可歸納為3個階段:第一個階段是面向互聯網數據收集、處理的搜索推薦時代;第二個階段是面向金融、安全、廣播電視數據的用戶畫像和關系發現時代;第三個階段是面向多數據源與多業務領域數據的融合分析與數據運營時代,并且對數據處理規模和實時性的要求大幅提高。
本文在智慧城市大數據中心建設方案的基礎上,闡述了多源異構大數據處理的框架和流程,并以最典型的非結構化視頻大數據處理為例,介紹了多源異構大數據處理框架運轉的流程。
2 ?多源異構大數據處理框架
2.1 ?系統整體架構
多源異構是大數據的基本特征[2],為適應此類數據導入、存儲、處理和交互分析的需求,本文設計了如圖2所示的系統框架,主要包括3個層面的內容:基礎平臺層、數據處理層、應用展示層。其中,基礎平臺層由Hadoop生態系統組件以及其他數據處理工具構成,除了提供基本的存儲、計算和網絡資源外,還提供分布式流計算、離線批處理以及圖計算等計算引擎;數據處理層由多個數據處理單元組成,除了提供基礎的數據抽取與統計分析算法外,還提供半結構化和非結構化數據轉結構化數據處理算法、數據內容深度理解算法等,涉及自然語言處理、視頻圖像內容理解、文本挖掘與分析等,是與人工智能聯系最緊密的層,該層數據處理效果的好壞直接決定了業務應用層數據統計分析的準確性和客戶體驗;應用展示層由SSH(Struts+Spring+Hibernate)框架及多類前端可視化工具組成,對應用層的約束是比較寬松的,主要是對數據處理層結果的進一步歸納和總結,以滿足具體業務的需要。系統框架的使用優先推薦開源生態系統及其組件,系統存儲主要依托Hadoop分布式文件系統(Hadoop distributed file system,HDFS)、HBase,同時支持Oracle、MySQL等結構化數據存儲系統,計算框架涵蓋MapReduce、Storm、Spark以及定制分布式視頻流處理引擎,可視化系統基于SSH框架設計,可根據實際需求,靈活配置。?
圖2 多源異構大數據處理框架
2.2 ?多源數據導入
鑒于數據存儲介質、數據存儲類型和數據傳輸方式的差異,系統在數據導入單元設計了如下數據導入框架,借助不同的導入工具,實現不同源數據和不同結構數據的導入,如圖3所示。其中,對實時性要求較高的監測數據以分布式消息隊列的形式由Kafka分發;關系型數據庫使用Sqoop等工具,直接將數據導入HDFS[3,4];對于安全等級較高的數據和其他一些離線數據,使用硬件復制或文件 傳輸 協議(file transfer protocol,FTP)傳輸的方式導入;對于日志等文本數據使用Flume工具導入;對于互聯網數據使用爬蟲程序爬取,并導入;對于視頻等多媒體數據,使用各廠商提供的定制碼流軟件開發工具包(software development kit, SDK)開發導入程序,或者利用多媒體流處理引擎直接抓取和在線處理。在智慧城市建設過程中,數據來源差異一般較大,數據庫中存放的主要是經過業務系統加工后的數據,而描述行為過程的數據一般都未被記錄,此時,需要定制開發能夠直接連接原始數據源的數據采集工具。?
圖3 多源數據導入框架
2.3 ?異構數據處理
根據數據類型的差異,選擇不同的計算和存儲引擎。對于非實時性數據計算,選擇MapReduce計算引擎[5];對實時性要求較高的數據計算,選擇Spark或Storm計算框架[6,7];對時序不可分的流媒體數據處理,選擇定制流媒體計算引擎,如圖4所示。對于結構化或鍵值對數據,采用Hive或HBase存儲,兼容Oracle和MySQL等關系型數據庫;對于日志、多媒體等半結構化和非結構化數據,采用HDFS存儲。數據倉庫可以統一建立在HDFS上,統一的存儲有助于最大化地發揮分布式系統的數據處理能力,充分利用內網帶寬,減少異構數據倉庫自身性能瓶頸導致的大數據系統性能下降問題。
圖4 異構數據處理框架
對于結構化數據的處理主要包括內容清洗、統計分析、關聯分析等;對于半結構化數據的處理涉及模板分類、字段檢索、關鍵字段提取等;對于非結構化數據的處理涉及音視頻內容的結構轉化、文本內容的挖掘與分析、語義理解與情感分析等。隨著數據結構多樣性和內容不確定性的增加,數據處理的復雜度和難度呈現指數型非線性增長,諸多數據處理問題在這個階段轉變為人工智能算法問題。
2.4 ?統一運維管理
大數據平臺的運維管理借助統一運維管理平臺實現,管控平臺具備大數據平臺定制化組件安裝、資源靈活配置、字段級權限控制、賬戶管理等功能,借助統一的運維管理平臺,對平臺安裝節點的CPU、內存、硬盤資源進行控制,并對節點所在機架進行規劃,通過運維管理主節點,可實現大數據平臺的自動部署和安裝,與此同時,運維管理平臺可實時監控正在運行的各服務的資源使用情況和任務進度情況,為各服務提供資源隔離或資源搶占式兩種選擇方案,靈活配置服務運行節點,大大節省運維管理人員的工作量。
3 ?視頻數據處理應用示例
在智慧城市建設中,視頻不僅是存儲規模最大的數據,同時也是最典型的異構大數據,數據內容在不同的處理階段,表現為不同的數據形式:非結構化(視頻、圖像)、半結構化(特征點)、結構化(特征向量、描述屬性)。視頻數據[8]不僅用于治安偵查、違章監測,還被用于城市人群密度監測,結合輿情、地理定位等信息,可用于對城市不同區域安全等級的評估。視頻數據處理算法框架如圖5所示,視頻數據處理的過程是逐步將非結構化數據轉為結構化數據,然后做統計和關聯分析的過程。
圖5 視頻數據處理流程
3.1 ?視頻數據標記
視頻數據標記有助于提高視頻內容提取和描述的準確性和穩定性,使得視頻內容檢測與分析算法的設計更有針對性,原則上對視頻內容的結構化描述信息越全面越好,但是容易受標記人員主觀因素干擾,因此只選擇容易區分和定義的以下幾類標記信息:視頻場景、視頻主色、運動方向、適用算法。視頻場景可分為:卡口、路口、廣場、街道等,視頻主色可分為:彩色和灰色,運動方向根據圖像坐標系分為8個方向,適用算法主要用于標記該視頻適用于哪類算法,例如行人檢測、遺留物檢測、交通標志檢測、車牌檢測等。標記后的視頻經過視頻分割算法處理,被切分成大小適合MapReduce處理的文件塊。
3.2 ?視頻內容挖掘
視頻多媒體數據包含的信息非常豐富,這里僅以視頻中的人、車、自行車目標的檢測與跟蹤為例,闡述非結構化視頻大數據內容挖掘的實現過程。
視頻內容挖掘是通過對視頻文件或視頻流的解碼,逐幀進行分析處理的。視頻中的運動目標是檢測的主要對象,通過背景建模、前景目標分割算法確定潛在運動目標的位置,然后通過運動目標跟蹤算法對粘連目標、誤分割目標以及特征不穩定目標進行切分、合并和過濾處理,處理流程如圖6所示,圖6中對不同的運動目標分別建立檢測存儲隊列、跟蹤存儲隊列、結果存儲隊列,用以實現基于視頻前后幀序列的目標過濾與判定。整個處理過程可以使用MapReduce框架實現,值得注意的是,視頻對象處理需要耗費大量的內存資源,單靠Java虛擬機(Java virtual machine,JVM)已難以滿足需求,因此,推薦使用C+Java的混合語言編程處理模式。
圖6 ?視頻內容挖掘流程
3.3 ?視頻目標分類
對視頻內容挖掘單元輸出的目標圖像文件做進一步顯著性檢測與分類判定,主要包括圖像中的人體檢測、車輛檢測、自行車檢測,并對目標圖像中包含多個目標的情況進行切分,對誤檢或位置不精確的目標進行過濾或校正。
本文使用優化的彈性形變模型(deformable parts model,DPM)算法對目標圖像進行二次檢測,如圖7所示。為提高檢測精度,對尺寸(寬或高)小于320像素的圖像進行插值處理,擴大至(寬或高)640像素,二次檢測的結果仍以圖像文件的形式存儲在HDFS上,文件屬性及其與原視頻流的對應關系記錄在HBase中,該對應關系主要包括原視頻路徑、圖像對應視頻中的幀序號等。
圖 7 基于優化 DPM 的行人二次定位示例
3.4 ?視頻目標檢索
視頻目標檢索是在視頻目標分類結果的基礎上,對圖像內容進行結構化特征描述[9],特征向量冷數據存儲在HBase中,熱數據存儲在內存中,每一次的檢索查詢是對所有圖像數據特征的相似性比較。其中特征向量的構建綜合考慮顏色不變性和尺度不變性的現實需求,使得特征向量對顏色變化敏感而對尺度變化頑健,目標間的相似性通過特征向量余弦計算。視頻監控目標檢索示例如圖8所示。
圖8 視頻監控目標檢索示例
3.5 ?區域密度監測
如圖9所示,將檢測到的人、車、自行車等以行為人為主體的目標與監控攝像機的地理位置結合在一起,得出人車分布情況和城市活躍度情況。圖9(a)以曲線形式展示了不同時刻的人車分布情況,圖9(b)為基于密度波動的城市活躍度評分。
圖9 城市區域密度監測示例
4 ?結束語
在智慧城市建設中,大數據中心扮演著城市大腦的角色,匯聚了來自不同業務部門、不同企事業單位和不同行為人的過程、行為和位置等數據,這些城市主體元素的監測數據組成了大數據中心龐雜的數據源,大數據平臺及各類數據挖掘與分析系統組成了大數據中心的數據分析引擎。在政府角色由城市管理轉向城市運營和服務的過程中,大數據中心建設起到了重要的推動作用。本文從智慧城市大數據中心運轉的角度,介紹了大數據中心對多源異構大數據處理的架構體系,并且以最典型的視頻大數據處理為例,講解了大數據平臺中非結構化數據處理的方法和流程,最后給出了數據挖掘結果如何服務于智慧城市的應用示例。
參考文獻:
[1] 程學旗, 靳小龍,王元卓,等. 大數據系統和分析技術綜述[J]. 軟件學報, 2014, 25(9): 1889-1908.
?CHENG X Q, JIN X L, WANG Y Z, et al. Survey on big data system and analytic technology[J]. Journal of Software, 2014, 25(9): 1889-1908.
[2] 石宇, 詹明, 尹璐, 等. 面向對象的多源異構數據關聯組織與分析[J]. 測繪通報, 2015(1): 102-104.
?SHI Y, ZHAN M, YIN L, et al. Research on associated orgabization and analysis of ?target-orientedmulti-source?heterogeneous data[J]. Bulletin of Surveying and Mapping, 2015(1): 102-104.
[3] GHEMAWAT S, GOBIOFF H, LEUNG S. File and storage systems: the Google file system[J]. ACM Sigops Operating Systems Review, 2003, 37(5): 29-43.
[4] HE H, DU Z, ZHANG W, et al. Optimization strategy of Hadoop small file storage for big data in healthcare[J]. Journal of Supercomputing, 2015, 72(10): 1-12.
[5] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.
[6] 孫大為, 張廣艷, 鄭緯民. 大數據流式計算:關鍵技術及系統分析[J]. 軟件學報, 2014, 25(4): 839-862.
SUN D L, ZHANG G Y, ZHENG W M. Big data stream computing: technologies and instances[J]. Journal of Software, 2014, 25(4): 839-862.
[7] 齊開元, 趙卓峰. 針對高速數據流的大規模數據實時處理方法[J]. 計算機學報, 2012, 35(3): 477-490.
?QI K Y, ZHAO Z F. Real-time processing for high speed data stream over large scale data[J ]. Chinese Journal of?Computers, 2012, 35(3): 477-490.
[8] DING S H, LI G, LI Y, et al. SurvSurf: human retrieval on large surveillance video data[J]. Multimedia Tools & Applications, 2016(1): 1-29.
[9] ZHU H D, SHEN Z, SHANG L, et al. Parallel image texture feature extraction under Hadoop cloud platform[J]. Springer International Publishing, 2014(8588):
459- 465.
劉巖(1982-),男,泰康保險集團股份有限公司數據信息中心高級工程師、高級主管,中國計算機學會會員,主要研究方向為智慧城市建設與規劃、多源異構大數據內容挖掘與分析、人工智能理論與應用等,在大數據系統設計、人臉識別、OCR識別等領域具有豐富的實踐經驗,曾作為首席專家參與多個城市智慧化發展規劃與實施建設。目前已發表學術論文25篇,申請美國發明專利4項,中國發明專利17項,軟件著作權3項,榮獲省科技進步獎一項,承擔多個“973”計劃項目、國家自然科學基金等項目。
王華(1985-),男,中國人民大學碩士生,主要研究方向為大數據處理架構與應用、多源異構數據內容清洗及結構化轉化等,對Hadoop、Spark生態系統及組件具有豐富的應用實踐經驗。
秦葉陽(1986-),女,就職于北京大學,安徽榮創智能科技有限公司聯合創始人,主要研究方向為智慧城市信息化建設、大數據處理系統設計與應用、信息安全等,在信息化系統建設、項目組織與運營管理、公共關系管理等方面具有豐富的經驗。
朱興杰(1986-),男,泰康保險集團股份有限公司數據信息中心應用創新高級工程師,主要研究方向為視頻數據內容挖掘與分析、人臉檢測與識別、機器學習等。
總結
以上是生活随笔為你收集整理的【2017年第1期】智慧城市多源异构大数据处理框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: markdown编辑模式添加除水印图片方
- 下一篇: 何为.sh文件?