【2016年第3期】大数据治理的数据模式与安全
馬朝輝1,聶瑞華1,譚昊翔1,林嘉洺1,王欣明1,唐華2,楊晉吉1,趙淦森1
?1. 華南師范大學計算機學院,廣東? 廣州? 510630;
2. 華南師范大學軟件學院,廣東? 佛山? 528225
摘要:大數據治理的主要目的是使數據的利用價值和利用效率最大化,治理后的數據在利用過程中也不可避免會涉及敏感數據或者隱私數據。從大數據治理出發,基于實際應用案例,討論大數據治理過程中如何利用數據模式的重組實現數據價值的提升和數據處理效率的提升。同時,也提出了數據安全訪問策略的自動生成,保障數據在重組后得到相應的安全防護。
關鍵詞:大數據治理;數據融合;訪問控制
中圖分類號:TP391 ?????????文獻標識碼:A
doi: 10.11959/j.issn.2096-0271.2016033
引用格式:馬朝輝,聶瑞華,譚昊翔,等.?大數據治理的數據模式與安全[J]. 大數據, 2016, 2(3): 83-95.
MA C H, NIE R H, TAN H X, et al.?Research on data schema and security in data governance[J]. Big Data Research,?2016, 2(3): 83-95.
Research on data schema and security in data governance
MA Chaohui1, NIE Ruihua1, TAN Haoxiang1, LIN Jiaming1, WANG Xinming1, TANG Hua2, YANG Jinji1, ZHAO Gansen1
1. School of Computer, South China Normal University, Guangzhou 510630, China
2. School of Software, South China Normal University, Foshan 528225, China
2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China
Abstract: One of the key objectives of big data governance is to maximize the value and efficiency of data usage. It is less than possible to privacy while processing data that has been subjected to data governance. With case study, the way to improve data value and data processing efficiency by re-construct data schemas was investigated. A mechanism for calculating new access control policies was also presented. The generated access control policies could provide appropriate security protection over reconstructed data.
Key words: data governance, data fusion, access control
1? 背景
據IBM公司的分析,人類文明有90%的數據是在過去兩年內產生的,到2020年,全世界所產生的數據規模將達到今天的44倍[1]。而我國截至2015年12月,已經擁有6.88億的互聯網用戶,13.06億的手機用戶,每天可產生海量的數據。大數據無論在大型企業,還是政府部門都發揮著相當的作用。在2015年7月1日國務院辦公廳印發的《關于運用大數據加強對市場主體服務和監管的若干意見》中提到,充分運用大數據的先進理念、技術和資源是提升國家競爭力的戰略選擇,是提高政府服務和監管能力的必然要求,有利于政府充分獲取和運用信息,更加準確地了解市場主體需求,提高服務和監管的針對性、有效性。此外,大數據為醫療、能源、智慧城市、生物醫學、基因組學、交通運輸等領域提供了不同的應用視角。如何通過大數據治理來解決上述城市化問題以及更廣泛的問題是數字時代的趨勢。
數據治理當前已經成為IT業界一門新興的學科,被廣泛研究,但是數據治理這個概念則廣泛應用在企業界。數據治理是指“從使用零散數據變為使用同一主數據、從具有很少或沒有組織和流程治理到企業范圍內的數據治理、從嘗試處理主數據混亂狀況到主數據井井有條的一個過程,并最終使企業能將數據作為企業的核心資產來管理”[2]。大數據治理這個概念形成于大數據時代,但是對于大數據治理的定義眾說紛紜。美國學者桑尼爾·索雷斯[3]將大數據治理定義為:大數據治理是廣義信息治理計劃的一部分,即制定與大數據有關的數據優化、隱私保護與數據變現的政策。梁芷銘[4]綜合不同觀點認為:大數據治理是不同的人群或組織機構在大數據時代為了應對大數據帶來的種種不安、困難與威脅,運用不同的技術工具對大數據進行管理、整合、分析并挖掘其價值的行為。
大數據治理對國家治理同樣重要。大數據技術為提升國家的科學決策、社會監管、公共服務以及應急管理能力都提供了良好的契機,現在國家治理的多元主體已經和信息化、數字化分不開了,但是大量數據藏身于互聯網和各種數字媒介,難分真假、難以辨清,國家治理主體容易迷失在其中,因此大數據治理會是國家治理的重要方面。對于國家治理過程中的大數據進行治理,其主要的作用主要體現在以下幾個方面。
第一,大數據能有效提升科學決策水平[5]。因為大數據收集了整個國家各個領域方面的信息資源,對這些數據資源進行整合之后相當于一個龐大的信息資源庫,面對數據洪流,客觀、理性地進行數據分析,強化大數據治理,能更好地幫助國家治理決策科學化,為國家治理提供重要的數據支持和決策依據。
第二,大數據通過增強對現象之間的關聯與研究,可以有效減少社會危機發生的不確定性,增強風險預警能力,降低社會危機帶來的危害。大數據和社會公共管理的有效對接能夠高效實現跨部門、跨領域的管理信息共享,能有效提升公共危機事件的源頭治理、事前預警、動態監控和應急處置能力。
第三,數據共享為政府各職能部門的溝通提供了便利,模糊政府各部門之間、政府與公眾之間的邊界,使得信息孤島現象大幅度減少。
?
2? 相關工作
2.1 ?數據融合
數據融合能夠成為計算機領域內的研究熱點,與實際需求和數據融合技術的巨大潛能息息相關。數據融合最初是由于軍事作戰需求而提出的,是為了使多種作戰設備上多傳感器的數據信息能夠協調、整合與集成而形成的一種數據橫向綜合信息處理技術。因而,國內早期研究數據融合的研究者[6],從技術的觀點把數據融合理解為一種技術思路,視為多源信息協調處理技術的總稱。隨著計算機科學技術的迅猛發展,數據融合概念已經不再局限于多傳感器數據融合技術領域,概念的覆蓋領域進一步擴充。在計算機領域,隨著硬件設備性能和軟件服務能力的不斷提升,面對多源數據系統的數據融合,數據集成的技術手段不再缺乏。而在如何構建多源數據的集成模型,提供給用戶統一的數據視圖的問題上,國外數據研究者Lenzerini M提出了自己的一些思考與想法[7],他針對各種數據源和全局數據模式之間如何建立關聯關系,提出了global-as-view和localas-view兩種基礎方法論,并對如何在數據整合中處理查詢、如何處理數據源不一致性問題等提出了相關的觀點和方法。
近年來,云計算技術新軍突起,成為計算機領域分布式計算的一面旗幟。而伴隨著移動互聯網時代的到來,信息數據資源激增,也是所謂的“大數據”時代的到來,面對越來越多的信息源和數據源,各種數據使用實體對數據融合的實際需求更加迫切。大數據時代,數據的產生、收集和處理規模空前,在數據集成處理上,Dong X L等從多個維度提出了大數據集成與傳統數據集成的區別[8],這些維度包括了數據源的數量、數據源的動態性、數據源異構和數據源的質量差異。面對大數據,數據融合要充分考慮數據源對象的各種特性,充分考慮大數據融合過程中可能出現的數據問題。為了降低處理大量復雜數據源整合過程中的任務復雜度,Caruccio L等提出了一種基于可視化語言的方法和工具[9]。基于概念層次上的數據融合,該可視化語言能夠提供對數據源概念數據模型構建的操作接口或操作方式,這種工具能夠生成多個數據源之間的關聯模式,自動生成元數據并且提供一種機制,保證階段性地從各個數據源中加載更新的數據。
《中國大數據技術與產業發展白皮書(2014年)》中對大數據發展趨勢的預測總結為“融合、跨界、基礎、突破”,可以看出在未來的一個時間階段內,大數據領域數據融合成為最為顯著的發展趨勢。數據融合因為實際需求而提出,技術成果要服務于實際應用。互聯網將各種異構網絡、各種不同的信息系統連在一起,變成一個更龐大的信息資源網絡。面對Web數據形式多樣、表達自由等特點帶來的數據集成信息冗余、準確度差、數據離散等問題,張永新博士對Web數據融合進行了深入探究[10]。數據融合是數據分析挖掘的重要前提,提高集成數據的質量十分關鍵,張永新針對海量Web信息的數據沖突、多源數據關聯、數據融合的可回溯機制等保證數據集成質量的多個方面進行了研究和探討。此外,為了解決大數據給數據融合帶來的新挑戰,北京郵電大學穆化鑫嘗試使用分布式計算的能力來應對[11],他提出基于Storm實時計算引擎對物聯網的異構數據進行融合處理,其工作主要是構建一種系統架構,將現有的數據融合相關算法與Storm分布式實時計算引擎結合起來,形成一個算法與數據分離、高解耦且可擴展的實時分布式數據融合系統。大數據帶來了數據融合的挑戰,也催生了解決問題的技術,特別地,數據融合對于大數據與社會治理也提供了強有力的技術支撐。針對電子政務工程建設中政府信息資源利用效率低下的問題,電子科技大學石西慶提出了一種基于“任務”的城市級基礎數據融合服務模型,實現政務基礎數據的快速融合服務發布,確保基礎數據的時效性和服務能力,進而構建一種電子政務信息共享服務平臺[12]。類似地,北京大學化柏林教授對大數據環境下多源信息數據融合的應用進行了深入研究[13],從國家、社會和企業的不同層次、不同角度的應用研究(如國家政府“單獨兩孩”政策、城市綜合治理和產業優化調整、企業的發展決策等),表征了數據驅動決策的思路貫穿社會多個領域,更體現出數據融合在社會治理中的重要作用。
2.2? ?數據融合安全
數據融合作為大數據治理的一個重要環節,數據機密性及隱私保護是其主要面臨的安全問題。數據融合的生命周期包括收集、融合、檢索、處理分析,每個階段都存在破壞數據的風險。在數據收集階段,數據融合匯聚了來自多個機構或組織的數據源,每個數據源由不同的安全策略管控,數據很有可能沒有按照其安全策略進行收集或者不同機構的安全策略存在沖突[14]。在數據融合階段,數據被融合集成到一個公共平臺,例如data.gov等數據開放平臺,孟小峰[15]等指出數據被外包或開放到一個不可信的公共平臺,沒有索引加密或訪問控制等安全保護措施,很可能會引起數據的泄露。在數據檢索階段,融合數據提供檢索服務來共享數據,這是最容易發生數據泄露的階段。因為每個用戶都可以從搜索引擎獲取數據,如果沒有全局安全策略[18]來管控數據,將面臨著數據泄露的風險。為了解決這個問題,常見的方法是采用加密文本檢索技術[19,20]。在數據處理分析的階段,同樣存在數據泄露的問題,主要原因有:多數據源之間的交叉分析挖掘,很可能發現機密信息或者暴露隱私;數據的處理往往依托大數據平臺進行分析,如Hadoop和Spark,平臺計算資源是共享的,因而也存在暴露數據的可能。
訪問控制是數據融合安全防護的主要機制之一。Carlo等[19]認為多機構合作并共享數據的環境需要提供一種靈活的訪問控制來使用資源,因此提出了管理融合數據的訪問框架,該框架將系統劃分成本地環境以及融合環境,并用屬性標記數據資源,通過將本地屬性映射到全局屬性,以達到統一的訪問控制。Huseyin等[20]認為應該為數據集成分析提供細粒度的訪問控制,并設計了一種細粒度的訪問控制系統GuardMR,該系統使用一種對象約束語言,并自動將策略轉換成Java字節碼來對MapReduce過程實施訪問控制。Gedare和Rahul[21]認為在分布式環境中,訪問控制通過一個中心的訪問管理器進行決策,但這樣會制約系統的性能,因此提出了一種硬件級別的權限緩存,提高系統的決策速度。
數據融合集成了來自多個數據源的數據,每個數據源由不同的安全策略管控,因此上述方法存在以下問題:擴展性受限,上述方法都是對安全策略進行統一管理,隨著數據源及數據量的增加,將制約系統的擴展;策略存在沖突,不同機構有自身的安全策略,它們之間很有可能存在沖突的情況。因此,研究數據融合的安全策略融合對其安全防護有重要意義。安全策略融合是將多個訪問策略融合,解決安全沖突并生成一個新的策略,該策略能夠符合原有的安全要求。現有的研究工作中,Rao[22,23]使用邏輯代數表示安全策略,并提出一種基于代數運算的方法生成融合策略。但由于數理邏輯運算極有可能返回未知的結果,導致系統決策的不確定性,影響系統的可用性。Hu[24]使用基于語義的安全策略,通過本體映射和合并,將查詢語句重寫成實體和屬性名稱,并映射到本地查詢。Cruz將本地策略存儲在RDF(resource description framework,資源描述框架)中,并在融合過程將本地RDF轉變成一個全局RDF。
?
3? 數據融合中的模式轉換
3.1? 圖模型
圖是由一個頂點的有窮非空集合V(G)和一個弧的集合E(G)組成,通常記作G=(V,E)。圖中的頂點即數據結構中的數據元素,弧的集合E是定義在頂點集合上的一個關系。用有序對<v,w>表示從v到w的一條弧。弧是有方向性的,用帶箭頭的線段表示,v為弧尾(始點),w為弧頭(終點),該圖為有向圖,如圖1所示。其中V(G)={v,w,u},E(G)={<v,w>,<w,u>}。如果圖中從v到w有一條弧,同時從w到v也有一條弧,那么該圖稱為無向圖,如圖2所示,用無序對(v,w)表示v和w之間的一條邊,其中,V(G)={v,w,u},E(G)={(v,w),(w,u)}。
圖 1 ? 有向圖
圖 2 ? 無向圖
3. 2? 數據庫的圖表示
一個學生管理系統的數據庫可以采用 如圖3所示的有向圖表示其依賴關系。 假設以下條件。
圖 3?? 數據庫的圖表示
ti:表示數據庫中的一個表。
T:表示數據庫中表的集合。
G=<V,E>:有向無環圖(DAG),表示數據庫的關系圖。其中,vi表示圖中的一個節點,對應數據庫中的一個表i,V={v1,v2,…,vk│1≤k≤n}是圖中的點集,表示數據庫中所有表的集合;e=<vi,vj>是圖中的一條有向邊,表示數據庫中表ti外鍵引用表tj,E={<vi,vj>│1≤i,j≤n,i≠j}是圖中的邊集,表示數據庫中所有外鍵引用關系的集合。規定|V|≥1。
數據庫DB的表集合T={t1,t2,…,tk│1≤k≤n},則數據庫DB的圖表示為:G=f(DB)。令G=<V,E>,?t∈DB.T,則有vt∈G.V和et=<vt,vj>∈G.E,此外沒有其他的V和e屬于G。
上述建模過程生成了數據庫的依賴圖,圖中節點(數據庫的表)的依賴關系由圖中的邊來表示。因此,當兩個節點之間有邊相連時,兩個節點之間有相應的依賴關系,具體由邊的方向決定。
數據融合過程在一定程度上是針對圖進行邊的消減的過程,以形成一個或者多個獨立的節點。每一條邊的消除,同時需 要把邊的兩端節點的數據進行融合,減少對應的節點外在依賴,即形成了融合后的數據。當一個節點的所有邊都消除后,該節點就成為自包含的數據節點。
算法的主要問題是擴展順序,即節點間的消邊順序。如圖4所示,本算法思想是從葉子節點開始往上層節點擴展處理,因為只有葉子節點和孤立節點是當前已經包含完整信息的節點,即數據表。它們不再需要引用其他表的信息,那么它們就是已經包含完整信息的表。所以按照這種順序擴展后能保證被嵌套擴展的節點已經包含了完整信息,那么擴展后的節點也就會包含完整信息。
圖 4 ? 算法消除邊的示意
核心算法就是從傳統關系型數據庫的模式圖G中的葉子節點集P里取出節點v,取出以該節點為弧尾的邊<u,v>,對該邊的弧頭節點u進行擴展,即把v節點的全部信息插進節點u中。當節點u擴展完畢,即沒有以該點為弧頭的邊,就把節點u放入葉子節點集P。當葉子節點v不再被任何節點依賴,即沒有以該節點為弧尾,就把該節點v移出節點集P,放入孤立節點集T。如此循環處理葉子節點集,直到葉子節點集P為空集。
本算法輸入G=(V,E)是有向無環圖,其中,V為G的點的集合,E為G的邊的集合。規定|V|≥1。輸出是一個二元組序列S={<u,v>|<u,v>∈E},表示擴展順序。按照順序S擴展后,模式轉換為G'=(V',E')。其中,V'為G'的點的集合,E'為G'的邊的集合,為空集。為了表述方便,下面將“節點”簡稱為“點”,“關系邊”簡稱為“邊”。
4? ?安全策略融合
如圖5所示,在每個數據源上有多個數據集,而這些數據源需要進行整合,融合在一起形成一個新的數據集。用戶在搜索融合的數據集得到查詢結果。因此,融合搜索由以下幾個關鍵部分組成,分別是用戶、搜索引擎、融合數據、數據源、數據集、記錄、安全策略融合模塊以及策略處理模塊等,其中安全策略融合模塊將每個數據源的訪問策略進行融合,生成一個融合訪問策略,而策略處理模塊則是對融合生成數據集根據安全策略進行安全標記,并且過濾不符合安全要求的結果。
圖 5?? 融合數據搜索系統的架構示意
假定每個數據源都是基于BLP(Bell-LaPadula)模型下建立訪問策略的。因此,根據BLP模式,訪問策略Pi定義為Pi=(fi,LTCi,Mi),其中,i表示第i個數據源。當不同的數據源合并在一起,就會產生一個新的融合數據集。因為不同的數據源之間存在一些差異,所以融合的訪問策略為PG=(fG,LTCG,MG)必須處理融合時的沖突,并且保持與原有數據源中的訪問策略一致。而融合過程主要是3部分的融合:Lattice的融合、映射函數的轉換以及訪問控制矩陣的融合。
4.1? Lattice融合
Hasse圖是一種用于表達有限的偏序關系集合的圖,以圖形形式表現偏序關系集合的傳遞關系在偏序集合<S,≤>,S的每個元素在Hasse圖是一個頂點。而對于兩個元素s1和s2滿足偏序關系,即s1∈S和s2∈S并且s1≤s2,則在Hasse圖里偏序關系表示一段有向線段,從s2指向s1。
因為Lattice是一種特殊的偏序關系集合,所以Lattice也可以用Hasse圖來表示。因此,Lattice的融合可以轉換為兩幅Hasse圖的合并。合并過程主要分為3個階段:初始化階段、沖突處理階段和化簡階段。初始化階段是在兩幅原始的Hasse圖之間添加滿足偏序關系的線段。在添加關聯線段后,融合Hasse圖可能會存在與原有Hasse圖的沖突,所以需要對融合Hasse圖進行沖突檢測和處理,刪除一些沖突線段。最后,還需要對融合Hasse圖進行化簡,刪除冗余的線段。
4.1.1 初始化階段
假設兩個Lattice表示為LTC1=<S1,R1>和LTC2=<S2,R2>。在初始化階段,需要對兩個Lattice之間的節點關系進行考慮。而兩個節點之間的關系分為兩種:一種是相等關系,另一種是支配關系。
定義1? 假設l1=<c1,k1>、l2=<c2,k2>分別是兩個安全等級。當且僅當c1=c2和k1=k2時,l1與l2是相等關系。
定義2? 假設l1=<c1,k1>、l2=<c2,k2>分別是兩個安全等級。當且僅當c1≥c2和k1?k2,則l1與l2是支配關系。
如圖6所示,根據以上兩個定義,在Lattice融合的初始化階段,針對兩個Hasse圖之間的節點關系,得出以下規則:
圖 6?? Lattice 圖合并示意
● 若兩個Hasse圖之間的頂點滿足相等關系,則在兩個頂點之間添加兩條互相指向的有向線段;
● 若兩個Hasse圖之間的頂點滿足支配關系,則在兩個頂點之間添加一條由支配頂點指向被支配頂點的有向線段。
4.1.2? 沖突處理階段
在添加了兩個節點的關系線段之后,此時的融合Hasse圖可能存在冗余的線段或者沖突線段。因此,接下來要處理的就是那些與原有Lattice的Hasse圖沖突的線段。首先,給出Hasse圖里的線段定義。
定義3? 路徑在Hasse圖中是一系列的有向線段,連接著一系列的頂點,而連接之間的頂點只出現一次。
定義4? 回路在Hasse圖中是一條特殊的路徑,開始頂點與結束頂點是同一個頂點,且經過多于2個頂點。
在Hasse圖里面的兩個節點的關系可分為可比關系和不可比關系。
定義5? 假設s1和s2分別是Hasse圖里的兩個節點,當且僅當s1和s2之間存在路徑時,s1和s2之間的關系是可比關系。
定義6? 假設s1和s2分別是Hasse圖里的兩個節點,當且僅當s1和s2之間不存在路徑時,s1和s2之間的關系是不可比關系。
定義7? 當如下兩種情況之一出現時,表示一條路徑是沖突的:若這條路徑是回路;若這條路徑起始點和結束點在原有的Hasse圖中是不可比關系,但這條路徑在合并Hasse圖中變得可比。
根據上述定義,對合并過程中出現的兩種沖突情況進行討論,如圖7所示。
圖 7?? Lattice 圖沖突解決示意
(1)合并Hasse圖存在回路
在初始化階段添加了兩個原有Hasse之間節點的全部關聯線段后,在生成的合并Hasse圖可能會存在一條回路。
(2)在原有Hasse圖中,不可比的兩個節點在合并的Hasse圖中存在路徑
在原來的Hasse圖中存在兩個不可比的節點。但因為初始化節點添加關聯線段后,使得這兩個節點變得可比。即在某個Lattice里,兩個安全等級l1和l2是不可比的。但在添加了兩個Lattice之間的關聯線段后,l1和l2之間可能就存在一條路徑,使得l1和l2變得可比。
針對這兩種情形,給出以下兩條規則來處理沖突的線段。
● 規則1:刪除在沖突路徑中出現次數最多的關聯線段。
● 規則2:若規則1不適用,則刪除在沖突路徑中涉及的安全級別最高的關聯線段。
4.1.3 化簡階段
經過沖突處理階段后,合并Hasse圖應該不存在任何具有沖突的路徑,但此時的圖可能會比較冗余,因此需要對Hasse圖進行最后一個步驟,化簡操作,如圖8所示。
圖 8 ? Lattice 圖化簡示意
定義8? 假設在Hasse圖中有兩個節點s1和s2。當且僅當兩條路徑互相直接指向對方,即s1→s2和s1→s2,則這兩條路徑是平等關系。
定義9? 假設在Hasse圖中有兩個節點s1和s2。當且僅當一條路徑是s1直接指向s2,如s1→s2,而另一條路徑是由s1到s2,并且中間經過若干個節點,如s1→…→s2,則這兩條路徑是覆蓋關系。
定義10? 冗余線段就是指那些滿足平等關系或覆蓋關系的關聯線段。
因此,若沖突處理后的Hasse圖存在冗余線段,按照以下兩條規則對冗余線段進行刪除,并化簡Hasse圖,得到最終簡化的Hasse圖。
●? 若兩條路徑是平等關系,則對路徑涉及的兩個節點進行合并,生成新的節點。
●? 若兩條路徑是覆蓋關系,則刪除那條從起始點直接指向結束點的關聯線段。
4.2? 映射函數轉換
在安全策略融合后,需要將原始的Hasse圖上的安全等級映射到新生成的Lattice圖的安全等級。在Hasse圖中,每個安全級別對應的是圖中的節點。因此,安全級別的映射轉換就等同于在原有Hasse圖上的節點映射到融合Hasse圖的節點。
本文定義了兩個映射函數的轉換函數。fiG表示從原始Latticei映射轉換為融合Lattice映射,其中,i表示原始的格LTCi。fiG表示從融合Lattice映射轉換為原始Latticei映射。fiG函數是將原始的安全等級轉換為全局的、融合的安全等級。而fGi則相反,即將全局的、融合的安全等級轉換為原始的安全等級。
4.3? 矢量空間數據寫HBase
訪問控制矩陣標識了主體對客體是否擁有訪問權限,若主體擁有客體的訪問權限,則將訪問矩陣對應的元素設置為真。在合并兩個訪問控制矩陣形成新的訪問控制矩陣時,融合數據集的訪問屬性與進行合并的數據集訪問屬性相關。為了保護數據的機密性,當合并前兩個數據集在訪問矩陣中均能訪問時,合并后的數據集才可以訪問。
當兩個訪問控制矩陣進行合并時,新的訪問控制矩陣的主體是兩個數據源的主體的并集,客體是兩個數據源的并集與新融合的數據集。若主體對兩個融合數據集具有訪問權限,則主體對兩個數據集都具有訪問權限,那么主體對新數據集擁有訪問權限,新矩陣中對應的元素設置為真,否則設置為假。
?
5? 案例分析
刑事共犯的追蹤主要是要融合相關情報部門整理的多個情報源的數據,根據給定人員的信息,通過融合的情報數據對關聯任務進行發現和追蹤。情報部門的每個情報源刻畫的是一個社會側面的活動,如出租屋信息刻畫的是社會人員租賃房屋和居住的信息,鐵路出行刻畫的是市民利用鐵路作為交通工具的乘坐信息。融合后的數據可以同時反映出不同側面的活動,提供了更加完整的信息。刑事共犯的數據融合將相關人員的證件號碼、電話號碼等信息作為關聯的依據。
通過這些信息,融合后的數據可以提供同行同住、頻繁鄰近空間交往、疑似同伴等偵查過程需要的分析挖掘能力,如圖9所示。若依靠傳統手段,如市民A做了壞事,市民B是A的親戚,A做不做壞事,B都跟A是親戚,沒有意義。融合后的數據要找的是A做了壞事,當時跟A在一起的有什么人,比如他們在相近時間住在相鄰的酒店、他們經常在某些地方先后出現等。這種關聯不是很明顯,但是它是很有價值的,因為就算他們不是同行,他也有可能是見證人,有可能見證了事件的發生。所以需要融合數據來分析怎么把不相關的事情關聯起來,這就需要從數據處理的角度分析,在事件網絡上做信息的協同挖掘,找到他們有可能關聯的行為。
圖 9?? 刑事共犯數據融合示例
6? 結束語
本文從大數據治理中的數據模式轉換和安全防護的角度,討論了大數據中割裂數據的融合問題,通過發現結構化數據的數據模式和識別數據中的實體以及實體之間的關聯關系,依據關聯關系重組數據的存儲和組織形式,消除數據的外部依賴,以減少在大數據分析挖掘過程中對數據的重復查找和組合的工作。同時,針對數據的重組過程提出了基于Bell-LaPadula模型的數據保護機制。該機制在數據按照相應需求進行重組的同時,對數據訪問控制的安全策略進行了相應調整。調整后的新安全策略能夠使數據的私密性得到保障,提供不低于原有安全策略的數據訪問保護。
?
參考文獻:
[1]? 馬雙榮.該如何面對大數據來襲[N].解放軍 報, 2014-04-17.
?MA S R. How to face the incoming data[N]. Jiefangjun Bao, 2014-04-17.
[2]? 張一鳴. 數據治理過程淺析[J].中國信息界, 2012(9): 15-17.
?ZHANG Y M. Analysis of the data governance process[J]. Information China, 2012(9): 15-17.
[3]? 桑尼爾·索雷斯. 大數據治理[M]. 匡斌,譯. 北京: 清華大學出版社, 2014.
?SUNIL S. Big data governance[M]. Translated by KUANG B. Beijing: Tsinghua University Press, 2014.
[4]? 梁芷銘. 大數據治理:國家治理能力現代化 的應有之義[J].吉首大學學報(社會科學版), 2015, 36(2): 34-41.
LIANG Z M. Mega data governance: an essential approach to the modernization of state governance[J]. Journal of Jishou University(Social Science Edition), 2015, 36(2): 34-41.
[5]? 張蘭廷. 大數據的社會價值與戰略選擇[D].北 京: 中共中央黨校, 2014.
?ZHANG L T. Social value and strategic choice of big data [D]. Beijing: Party School of the Central Committee of C.P.C, 2014.
[6]? 謝紅衛, 汪浩, 蘇建志. 數據融合技術[J]. 系 統工程與電子技術, 1992(12): 40-49.
?XIE H W, WANG H, SU J Z. Data fusion technology [J]. Systems Engineering and Electronics, 1992(12): 40-49.
[7]? LENZERINI M. Data integration: a theoretical perspective[C]//The 21st ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, June 2-6, 2002, Madison, WI, USA. New York: ACM Press, 2002: 233-246.
[8]? DONG X L, SRIVASTAVA D. Big data integration[C]// 2013 IEEE 29th International Conference on Data Engineering (ICDE), April 8-11, 2013, Brisbane, Australia. New Jersey: IEEE Press, 2013: 1245-1248.
[9]? CARUCCIO L, DEUFEMIA V, MOSCARIELLO M, et al. Data integration by conceptual diagrams[C]// Database and Expert Systems Applications, Sep 1-5, 2014, Munich, Germany. Berlin: Springer International Publishing, 2014: 310-317.
[10]? 張永新. 面向Web數據集成的數據融合問題 研究[D]. 濟南: 山東大學, 2012.
?ZHANG Y X. Research on data fusion for web data interation[D]. Jinan: Shandong University, 2012.
[11]? 穆化鑫. 基于Storm引擎的物聯網異構數據融 合系統的設計與實現[D]. 北京:北京郵電大學, 2015.
?MU H X. Design and implementation of IoT data fusion system based on Storm[D]. Beijing: Beijing University of Posts and Telecommunications, 2015.
[12]? 石西慶. 基于數據融合技術的電子政務信息 共享服務平臺模型[D]. 成都:電子科技大學, 2013.
?SHI X Q. A model of e-government information sharing service platform based on data fusion technology[D]. Chengdu: University of Electronic Science and Technology of China, 2013.
[13]? 化柏林,李廣建. 大數據環境下多源信息 融合的理論與應用探討[J].國書情報工作, 2015(16): 5-10.
?HUA B L, LI G J. Discussion on theory and application of multi-source information fusion in big data environment[J]. Library and Information Service, 2015(16): 5-10.
[14]? PAN L, XU Q. Visualization analysis of multidomain access control policy integration based on treemaps and semantic substrates [J]. Intelligent Information Management, 2012, 4(5): 188-193.
[15]? 孟小峰,張嘯劍. 大數據隱私管理[J]. 計算機 研究與發展, 2015(2): 265-281.
?MENG X F, ZHANG X J. Big data privacy management[J]. Journal of Computer Research and Development, 2015(2): 265-281.
[16]? SELLAMI M, GAMMOUDI M M, HACID M S. Secure data integration: a formal concept analysis based approach[J]. Database and Expert Systems Applications, 2014(8645): 326-333.
[17]? SUN W, WANG B, CAO N, et al. Privacypreserving multi-keyword text search in the cloud supporting similaritybased ranking[C]//The 8th ACM SIGSAC Symposium on Information, Computer and Communications Security, May 8-10, 2013, Hangzhou, China. New York: ACM Press, 2013: 71-82.
[18]? CAO N, WANG C, LI M, et al. Privacypreserving multi-keyword ranked search over encrypted cloud data[J]. IEEE Transactions on Parallel and Distributed Systems, 2014, 25(1): 222-233.
[19]? RUBIO-MEDRANO C E, ZHAO Z, DOUPé A, et al. Federated access management for collaborative network environments: framework and case study[C]//The 20th ACM Symposium on Access Control Models and Technologies, June 1-3, 2015, Vienna, Austria. New York: ACM Press, 2015: 125-134.
[20]? ULUSOY H, COLOMBO P, FERRARI E, et al. GuardMR: finegrained security policy enforcement for MapReduce systems[C]// The 10th ACM Symposium on Information, Computer and Communications Security, Apr 14-17, 2015, Singapore. New York: ACM Press, 2015: 285-296.
[21]? BLOOM G, SIMHA R. Hardwareenhanced distributed access enforcement for role-based access control[C]//The 19th ACM Symposium on Access Control Models and Technologies, June 25-27, 2014, London, ON, Canada. New York: ACM Press, 2014: 5-16.
[22]? RAO P, LIN D, BERTINO E, et al. An algebra for fine-grained integration of XACML policies [C]// The 14th ACM Symposium on Access Control Models and Technologies, June 3-5, 2009, Stresa, Italy. New York: ACM Press, 2009: 63-72.
[23]? RAO P, LIN D, BERTINO E, et al. Finegrained integration of access control policies [J]. Computers & Security, 2011, 30(2-3): 91-107.
[24]? HU Y J, YANG J J. A semantic privacypreserving model for data sharing and integration [C]//The International Conference on Web Intelligence, Mining and Semantics, May 25-27, 2011, Sogndal, Norway. New York: ACM Press, 2011: 1-12.
馬朝輝(1974-),男,華南師范大學計算機學院博士生,廣東外語外貿大學思科信息學院講師,主要研究方向為網絡安全、云計算和大數據等。
聶瑞華(1963-),男,華南師范大學計算機學院教授,中國計算機學會高性能計算專業委員會委員,廣東高等教育學會信息網絡專業委員會副理事長,華南師范大學“教育部互聯網應用創新開放平臺示范基地”負責人,主要研究方向為計算機網絡及應用、云計算與大數據等。
譚昊翔(1990-),男,華南師范大學計算機學院碩士生,主要研究方向為信息安全和大數據等。
王欣明(1980-),男,博士,華南師范大學計算機學院講師,IEEE會員,主要研究方向為軟件工程、程序分析和大數據等。
唐華(1973-),男,華南師范大學軟件學院院長助理、副教授,廣東省科技咨詢專家庫專家,中國計算機學會計算機應用專家委員會委員,主要研究方向為計算機網絡、信息安全、云計算和大數據等。
林嘉洺(1992-),男,華南師范大學計算機學院碩士生,主要研究方向為大數據和數據挖掘等。
楊晉吉(1968-),男,華南師范大學計算機學院教授,主要研究方向為邏輯、信息安全。
趙淦森(1977-),男,博士,華南師范大學計算機學院教授、副院長,廣東省服務計算工程中心副主任,中國電子學會云計算專家委員會專家委員,粵港信息化專委會委員,中國信息系統專委會委員,廣東省計算機學會常務理事,主要研究方向為信息安全、云計算和大數據等。
總結
以上是生活随笔為你收集整理的【2016年第3期】大数据治理的数据模式与安全的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数字三角形(洛谷P1216题题解,C++
- 下一篇: 【项目管理】风险分析