【2017年第1期】大数据能力开放平台创新和发展
李大中,劉劍,鄧景文
中國聯合網絡通信集團有限公司,北京 ?100033
摘要:大數據能力開放平臺依托中國聯通大數據生產平臺優勢,構建總部數據域大數據對外合作平臺,打造一個內外合作、共存、共贏可持續發展的綠色生態系統。開放平臺從能力接入、資源隔離、運營、安全、數據服務等方面以租戶的形式全方位多角度地給省公司及合作伙伴提供平臺服務,滿足內外部的存儲計算能力、數據服務、平臺工具能力需求,通過開放平臺釋放中國聯通總部積累的大數據紅利。
關鍵詞:大數據能力開放平臺;數據服務;多租戶
中圖分類號:TP31 ?文獻標識碼:A
doi: 10.11959/j.issn.2096-0271.2017009
Innovation and development of big data ability?open platform
LI Dazhong, LIU Jian, DENG Jingwen
China United Network Communications Group Co., Ltd., Beijing 100033, China
Abstract:?China Unicom has built a cooperation platform called big data ability open platform based on its own advantages in order to establish a win-win cooperative, coexistent, and sustainable eco-system. The open platform provides variety services in the form of multi-tenancy model for branch companies and partners in aspects of ability access, resource isolation, operation, security, and data services. The open platform satisfies the requirements of internal and external storage capacity and computing ability, data services, and platform tools, thus brings enormous benefits to China Unicom Headquarters.
Key words:?big data ability open platform, data service, multi-tenancy
論文引用格式:李大中,劉劍,鄧景文. 大數據能力開放平臺創新和發展[J]. 大數據, 2017, 3(1): 72-79.
LI D Z, LIU J, DENG J W.Innovation and development of big data ability open platform[J]. Big Data Research, 2017, 3(1): 72-79.
1 ?引言
2012--2013年,中國聯合網絡通信集團有限公司(以下簡稱中國聯通)成立數據中心,完成數據頂層規劃和數據采集,數據中心負責經營分析系統建設,主要為公司經營生產分析提供服務;2014--2015年,中國聯通重點發展平臺戰略,完成總部大數據平臺的建設和布局,采集范圍從傳統的BSS域、MSS域擴展到內外部移動互聯網數據、用戶位置信息,嘗試數據對外合作,全方位落地數據安全管理工作;2016年開始,中國聯通持續擴大數據采集范圍,重點打造對外服務大數據能力開放平臺以及相關數據產品,實現從單純技術支撐向以業務運營為核心的全鏈條服務轉型升級[1]。
經過3個階段的發展,中國聯通大數據在組織、架構、平臺、服務、運營、規模等方面處于運營商中領先地位。截至2016年初,中國聯通大數據的用戶樣本已經涵蓋4億用戶,沉淀九大類3 000余個用戶標簽,識別3.8億個URL地址和6萬個互聯網產品,識別3 000個手機品牌、8.2萬個手機型號,日處理3 800億條上網記錄信息、 170億條計費詳單。中國聯通大數據系統由大數據生產平臺和大數據能力開放平臺兩部分組成,共計2 000個節點Hadoop集群,120臺MPP集群,存儲總量達20 PB。
中國聯通大數據逐漸形成六大產品體系,分別是精準營銷服務、企業與個人征信、位置服務、能力開放平臺、標簽服務、沃指數,合作的伙伴涵蓋政府、保險、金融、地產、汽車、互聯網等多個行業。
本文將重點介紹大數據能力開放平臺的架構、能力和建設情況,通過分享一些典型的應用場景來描述能力開放平臺和大數據生產平臺之間的生產協作關系。
2 ?能力開放平臺的定位
大數據能力開放平臺對內支撐省公司個性化大數據應用,對外支撐合作運營,為入駐的租戶提供“SMP+MPP+Hadoop+ 數據流”的各類存儲和計算框架,租戶之間計算資源、存儲資源、數據資源相互隔離。依托生產服務平臺為租戶提供經過脫敏后的用戶個體明細數據、個體匯總數據、個體標簽數據和群體化數據,同時還提供多種建模工具、安全組件、報表展示工具和容器環境等內容。
生產服務平臺主要完成BSS域、MSS域、OS S 域的數據采集、清洗和加工工作,數據處理方式包括傳統的Oracle批量處理、Flume+Kafka數據流處理、Hive/Spark/Mr的海量離線處理、Hbase+Redis混搭的海量查詢架構,最后通過SMP(對稱多處理結構)架構數據庫進行跨域數據整合并對外提供查詢、報表和相關的數據服務。
開放平臺中的租戶進行模型訓練所需的元數據和樣本數據全部來源于生產服務平臺。中國聯通大數據系統平臺架構如圖1所示。
圖1 中國聯通大數據系統平臺架構
3 ?能力開放平臺的架構和能力
能力開放平臺分為能力交付層、能力整合層和基礎資源層,其中能力整合層是開放平臺最重要的一層,核心能力都處于這層,由下自上主要完成動態資源調度、數據計算及存儲、數據能力展示、數據獲取、工具組件和容器環境部署等。能力開放平臺架構如圖2所示。
圖2 能力開放平臺架構
3.1 ?能力交付層
能力交付層包含了能力中心、工作臺、能力集成、租戶管理和系統管理5個模塊。通過能力中心,租戶可以查詢平臺提供的全部工具組件的種類、版本、容量、技術支持等信息,并根據需要申請使用;通過工作臺,租戶可以查看到已申請的各類資源歷史和當前的使用情況,數據加工作業的運行情況,各類業務和數據工單的流轉狀態,并綜合平臺整體資源監控指標和租戶資源監控指標,形成租戶性能和服務等級協議(service level agreement,SLA)評估報告,為租戶資源擴容、縮容申請提供數據依據;能力集成模塊實現了數據中心所有應用程序編程接口(application programming interface,API)集中注冊、發布、訂閱、發現、安全管理控制與運行質量分析的管理;租戶管理模型實現租戶的注冊、入駐、退租、資源擴容和縮容、計費等功能;系統管理模塊實現了對租戶各類角色的功能權限和數據權限管理、應用日志和系統日志的管理。
3.2 ?能力整合層
能力整合層是整個開放平臺的核心部分,由工具與組件、數據服務、標簽庫產品、數據框架、容器服務、動態資源調度(DC/OS)6個模塊組成。
(1)工具與組件
面向租戶提供元數據、數據質量、ETL工具、自定義報表、交互式探索、建模、統一日志服務等工具和服務,協助租戶完成數據作業加工和展示的全過程。其中統一日志服務主要實現全平臺一站式日志集中采集和分析服務,協助提升運營運維效率。平臺的整個監控體系也是建立在統一日志管理服務基礎上的,租戶的各種資源運行情況、各類公共服務的狀態、租戶自行部署各類應用狀態,都要通過統一日志分析形成診斷結果。
(2)數據服務
數據服務主要包括數據資產管理和數據獲取服務,數據資產管理指的是對固網、移動網絡和寬帶用戶資料、明細話單、賬單信息、關系圈信息、上網行為日志和位置信息等數據結構進行管理。數據獲取服務主要是租戶訂閱和獲取樣本數據的服務過程,可以按照自定義用戶群、特定賬期、連續賬期、用戶群關聯關系、全樣本抽取比例等多個樣本提取規則自助獲取適配數據。
(3)標簽庫產品
標簽庫產品涵蓋數據中心發布的公共標簽產品、行業標簽產品和租戶自己定義的個性化標簽產品,公共標簽和行業標簽支持標簽樹展示和標簽權限管理,個性化標簽除此之外還支持新建、刪除、解析、匹配規則定義的能力。標簽的內容包括標簽的層級定義、取值范圍定義、生命周期、標簽使用建議等方面。
(4)數據框架
由于不同的租戶業務需求不一樣,對于各類計算資源的熟悉程度也不一樣,他們對計算框架的選用有自己的偏愛,所以開放平臺需要在框架層提供豐富、多樣的大數據計算框架種類,用于滿足海量數據計算、復雜邏輯關聯、流式數據處理、高并發低時延海量數據查詢、消息分發等多種場景,種類隨發展需要還在不斷增加。關系型數據庫主要是Oracle和MySQL,一般處理關聯程度比較高的結構化數據。MPP數據庫主要是Impala和Vertica,Impala是一款SQL on Hadoop開源數據庫,其最顯著的特點是結合了Hadoop分布式文件系統(HDFS)分布式存儲系統和SQL查詢語句,它采用“列式存儲”的設計,這使其成為了一款高速的分析型數據庫;Vertica既可部署于傳統的本地硬盤存儲,也可部署在HDFS上,方便與Hadoop系統集成,根據用戶查詢特性優化存儲結構和查詢算法,進一步提升了查詢性能(關聯、分組等查詢性能可再提高5~10倍),具有查詢效率更高、運行更穩定、資源管理更方便等優勢[2]。KV數據庫有HBase和Redis,數據庫采用HBase+Redis混搭架構可以實現毫秒級的數據接口服務。離線計算提供了Hive/MR/Spark等最為大家熟悉的計算框架。在數據流處理上提供了Flume+Kafka+Spark streaming (Storm)的混搭結構,一個完整的數據流處理過程包括數據采集、數據接入、流式計算、數據輸出,采用Flume從各個采集點上實時采集數據,由于采集數據和處理數據速度不一定同步,采用Kafka作為消息中間件作為緩沖,數據處理環節由Spark streaming來完成,數據輸出后進入持久化環節[3]。FTP環境主要是方便租戶帶入自有數據和帶出結果數據(指向安全網關),FTP集群為3個層級結構,自上向下依次為負載均衡層、服務器群組層、存儲共享層。集群對外提供VIP地址訪問,負載均衡服務器根據內部規則合理指向實際的FTP服務器,存儲則直接掛接HDFS。
(5)容器服務
能力開放平臺提供Kuber nete s+ Docker的容器環境服務。容器服務一方面是為開放平臺自身的門戶、工具、組件、 API網關等提供部署環境,另一方面為租戶自身開發的Web和Service提供部署環境。 Docker消除了線上線下的環境差異,保證了應用生命周期的環境一致性和標準化。支持開發人員使用鏡像實現標準開發環境的構建,開發完成后通過封裝完成環境和應用鏡像分組封裝,測試和運維人員可以直接通過部署軟件鏡像進行測試和發布,大大簡化了持續集成、測試盒發布的過程[4]。
(6)動態資源調度
動態資源調度選用的是Mesosphere Open DC/OS,選用理由主要是社區支持能力強、版本迭代速度快、通用程度強。 Open DC/OS 是Mesosphere 2016年上半年發布的企業數據中心操作系統,主要是圍繞開源的Apache Mesos附加了面向企業級的管理功能,核心內容分為兩支——面向微服務治理的Marathon和通過Framework管理大數據類應用,能力開放平臺主要用它來完成后者。目前DC/OS最新版是1.7,其中的Mesos版本是0.28.2。能力開放平臺上Hadoop的資源調度是通過Myriad連接Mesos和YARN。通過兩級調度體系,一方面提高了集群資源利用率,另一方面使跨數據中心的資源管理得以統一。在這種情況下,YARN的工作負載是運行在共享的集群上,相比獨立的YARN集群來說更加動態和彈性。其他類的計算框架則主要是通過Framework的方式承載在Mesos之上。
3.3 ?基礎資源層
基礎資源層涵蓋了x86機群、集中存儲、小機、網絡等設備。其中,x86機群設備分為兩類,一類大存儲服務器主要位于機房大數據區,主要用于組建Hadoop環境或者其他計算框架,另一類位于核心區,主要以虛擬機為主,用于滿足部署集群接口機和各類應用環境的需要。集中存儲設備和小機主要用于搭建Oracle 12C,12C數據庫引入了多租戶環境(multitenant environment),允許一個數據庫容器(container database,CDB)承載多個可插拔數據庫(pluggable database, PDB)。這種場景滿足了開放平臺中多租戶對于關系型數據庫的需求。
4 ?能力開放平臺安全管理
整個平臺部署在集團內部生產網上,設備主要部署在廊坊機房的大數據區和核心區,機房和機房之間、區與區之間都經過硬件防火墻隔離。相關用戶訪問開放平臺全部通過集團統一接入平臺登錄,所有設備納入4A管理。整個平臺的建設完全遵循《中國聯通數據服務安全管理辦法》規范。
多租戶在Hadoop權限集成部分已經比較完善,利用Kerberos與輕量目錄訪問協議(lightweight directory access protocol,LDAP)集成做用戶權限管理,可以限制不同租戶與群組的數據權限。在Hadoop YARN中的數據運算粒度細化到容器,實行運算的控制,其自身的資源池劃分也很完善。對于不支持多租戶的框架,一般 采用獨立物理部署的方 式 滿足要求[5]。
從管理角度,租戶分為內部租戶和外部租戶,內部租戶指的是直接服務于公司生產一線運營需要的租戶,如收入保障系統租戶、網絡建設規劃系統租戶、經驗分析系統租戶、存量維系系統租戶等。外部租戶主要是指同中國聯通有大數據合作的租戶,如交通大數據合作租戶、航空業租戶、公安大數據合作租戶等。對內租戶一般是由公司信息化部、市場部、網運部等部門申請入駐。外部租戶一般是由大數據合作方申請入駐。內外部租戶安全要求是有差別的,外部租戶一般只提供標簽級數據服務,而個體明細數據、個體匯總數據、全體匯總數據一般不提供。外部租戶需要的樣本數據由大數據生產平臺導入開放平臺的時候要經過嚴格的脫敏環節,外部租戶將數據帶離開放平臺環節要經過人工和系統雙重審核。內部租戶的安全要求則少很多,只有帶離數據時人工審核一個環節。
數據安全總的原則是“中國聯通用戶敏感數據不出門”,未經安全審核的數據 “不出門”,不符合《中國聯通數據服務安全管理辦法》要求的數據“不出門”。數據由生產平臺進入開放平臺之前要對敏感數據進行一次脫敏操作,敏感數據主要包括但不限于用戶名稱、證件號碼、住址、位置、碼號信息等。租戶空間內的數據要離開開放平臺一般是通過API服務調用方式或者FTP方式,這兩種方式都必須通過安全網關審核后才能輸出。用戶的私有數據可以通過租戶FTP環境導入能力開放平臺,但 數 據流向是單向的,只允許數據流入開放平臺,不能夠通過該路徑導出數據。數據輸出安全管理如圖3所示。
圖3 數據輸出安全管理
5 ?能力開放平臺典型應用場景
能力開放平臺的一個典型應用場景就是租戶利用中國聯通提供的樣本數據進行模型訓練、模型部署并獲取最終數據。步驟如圖4所示。
圖4 模型訓練典型應用場景
(1)租戶根據業務需要確定樣本數據的種類、范圍和規則,向生產服務平臺提出獲取樣本數據服務申請。
(2)生產服務平臺進行評估后,提取樣本數據并推送到租戶空間指定位置,租戶據此建模和訓練模型,最終形成模型成果。
(3)將模型成果分組封裝,交由生產服務平臺部署,并制定模型執行計劃。
(4)將模型結果數據推送到租戶空間指定位置,這個過程要經過安全審核和數據脫敏操作。
(5)租戶根據結果數據進行數據分析、加工或者作為應用數據源。
6 ?結束語
大數據能力開放平臺作為支撐內外部
大數據需求的核心平臺經過近一年的建設已經初具規模,集群規模達到400節點;有效容量6 PB。入駐的內外部租戶近40家。租戶的業務涉及生產經營、信用評價、智能監控、城市規劃、網絡優化分析等各方面。相信能力開放平臺作為聯通大數據六大產品體系之一,將越來越體現它更為廣闊的價值。
參考文獻:
[1]范濟安, 李衛, 魏進武. ?電信運營商的大數據發展戰略[J]. 信息通信技術, 2015(6): 5-12.
F AN J A, LI W, WEI J W. Development strategy of big data for telecom operators[J]. Information and Communications Technologies, 2015(6): 5-12.
[2]康旗, 陳文靜, 王博. 數據開放與共享策略[R].[S.l.:s.n.], 2014: 1-36.
K ANG Q, CHEN W J, WANG B. Data open and sharing strategy[R]. [S.l.:s.n.], 2014: 1-36.
[3]魏進武, 靳淑嫻, 張基恒, 等. 大數據關鍵技術及運營商落地建議[J]. 郵電設計技術, 2015(5): 9-12.
W EI J W, JIN S X, ZHANG J H, et al. Crucial techniques of big data and suggestions?for telecom operators[J]. Designing Techniques of Posts and Telecommunications, 2015(5): 9-12.
[4]劉春, 鄒海鋒, 向勇. 大數據環境下電信數據服務能力開放研究[J]. 電信科學, 2014(3): 156-161.
LI U C, ZOU H F, XIANG Y. Research on telecom data service open ability?under the environment of big data[J]. Telecommunications Science, 2014(3): 156-161.
[5] 馬琳, 宋俊德, 宋美娜. 開放平臺: 運營模式與技術架構研究綜述[J]. 電信科學, 2012(6): 125-140.
M A L, SONG J D, SONG M N. Open platform: operation mode and technical architecture[J ]. Telecommunications Science, 2012(6): 125-140.
李大中(1976-),男,中國聯合網絡通信集團有限公司信息化事業部數據中心工程師,主要研究方向為中國聯通數據中心架構規劃、中國聯通數據中心開放平臺建設。
劉劍(1979-),男,中國聯合網絡通信集團有限公司信息化事業部項目一處工程師,主要研究方向為中國聯通虛擬運營商平臺規劃和建設、虛擬運營商大數據分析和研究。
鄧景文(1982-),女,中國聯合網絡通信集團有限公司電子商務部工程師,主要研究方向為中國聯通線上渠道集中交費充值系統、中國聯通電子渠道系統大數據分析和研究。
總結
以上是生活随笔為你收集整理的【2017年第1期】大数据能力开放平台创新和发展的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 串口数据接收处理
- 下一篇: 面向智能化软件开发的开源生态大数据