HugeGraph
HugeGraph體系結構
HugeGraph已經在GitHub上開源,項目地址是https://github.com/hugegraph。HugeGraph包含了10多個關聯子項目,其中包括:
1. HugeGraph
HugeGraph子項目是HugeGraph項目的核心部分,包含Core、Backend、API等子模塊。該模塊實現了TinkerPop框 架接口,并提供Schema元數據管理,事務、緩存和序列化等功能。HugeGraph可以支持多種后端存儲系統,用戶可以根據實現需求靈活選擇;另外通 過內置的HugeGraph-Server(簡稱為HugeServer)對外提供Restful API,該接口也可以接收Gremlin查詢。
2. HugeGraph-Client
簡稱為HugeClient,提供了Rest API的客戶端,用于連接HugeServer,目前實現Java版,其他語言用戶可自行封裝實現;
3. HugeGraph-Loader
簡稱為HugeLoader,是基于HugeClient的數據導入工具,可將普通JSON、CSV等文本數據轉化為圖的頂點和邊并快速插入圖數據庫中;
4. HugeGraph-Studio
簡稱為HugeStudio,是HugeGraph的Web可視化工具,可用于執行Gremlin語句并將圖的鏈接關系通過Web可視化呈現。
HugeGraph各組件之間的關系如圖3所示:
圖3 HugeGraph各組關系圖
4. HugeGraph的應用場景
百度安全每天需要處理大量的日志數據,并對數據進行挖掘分析以識別各種安全問題,HugeGraph為安全業務提供關聯分析能力。HugeGraph在百度安全內部的應用場景非常廣泛,包括網址安全檢測、設備關系圖譜和數據安全治理等。
4.1 網址安全檢測
搜索是百度的核心業務之一,為保證用戶訪問的網站是安全的,我們需要對搜索引擎的每一個網頁進行安全檢測,以防止用戶通過搜索引擎入口訪問惡意網 站。在網址安全檢測項目中,我們使用HugeGraph存儲網站的基本信息包括域名Whois、IP和外鏈等,安全分析人員可以方便分析站點之間的關系。 另外從鏈接關系入手,結合PageRank等圖挖掘算法可以發現網站鏈接異常行為,識別網絡黑產業。據此我們發現了黑產利用運營商漏洞進行用戶隱私竊取的 行為,也發現了虛擬點擊和非法推廣等非法行為,切實維護了網民的權益。
4.2 設備關系圖譜
關聯分析是威脅情報、黑產打擊和案件溯源等業務所需要的核心能力,構建設備關系圖譜,提供設備關聯分析能力是黑產對抗所需要的核心能力。我們使用 HugeGraph存儲手機號碼、帳號ID、設備指紋等設備信息,通過ID-Mapping和關聯分析,精確識別黑產作弊設備,并為業務風控提供細粒度的 反作弊策略。
4.3 威脅情報分析
在威脅情報處理方面,利用HugeGraph將惡意攻擊記錄、惡意IP、惡意域名、Whois信息、漏洞庫、文件、郵件地址、殺軟檢測、開源情報等 信息結合構建威脅情報關系網,為風控業務和安全應急響應中心提供服務。另外在偽造設備識別、群控挖掘、自然人識別等方面,HugeGraph也發揮了很大 的作用。
4.4 安全數據治理
在安全領域之外之外,圖數據庫也可以應用在知識圖譜、企業圖譜、推薦系統、社交網絡、IT運維等多種場景中應用。目前我們也將HugeGraph應 用到安全數據治理中項目中。我們將數據資產作為圖數據庫的頂點,將對數據資產的ETL處理作為圖數據庫的邊,通過頂點和邊的關聯關系分析數據血緣,并在此 基礎上實施安全數據治理策略。
圖4 HugeGraph在數據治理中的應用
總結
- 上一篇: 实战:开直通车别再走进这5个误区
- 下一篇: ca-certificates.crt