【2017年第3期】从点状应用到大数据统一平台
錢嶺,孫少陵,石在輝
中移(蘇州)軟件技術(shù)有限公司,江蘇 蘇州 215163?
摘要:企業(yè)在大數(shù)據(jù)引入過(guò)程中,由于平臺(tái)技術(shù)不成熟、缺乏統(tǒng)一技術(shù)架構(gòu)、組織架構(gòu)不適應(yīng)等問(wèn)題,形成了應(yīng)用豎井和復(fù)雜的系統(tǒng)混搭結(jié)構(gòu),造成了資源利用率不均、數(shù)據(jù)重復(fù)存儲(chǔ)、運(yùn)維成本高、難以形成企業(yè)級(jí)數(shù)據(jù)共享等問(wèn)題。目前大數(shù)據(jù)平臺(tái)技術(shù)已經(jīng)逐步成熟,大數(shù)據(jù)統(tǒng)一平臺(tái)逐步成為企業(yè)分析系統(tǒng)的核心。深入分析了企業(yè)級(jí)統(tǒng)一大數(shù)據(jù)平臺(tái)的整合思路,從管理、業(yè)務(wù)和技術(shù)3個(gè)層面入手,分別從組織架構(gòu)體系建設(shè)、大數(shù)據(jù)平臺(tái)運(yùn)營(yíng)流程重構(gòu)與實(shí)施、大數(shù)據(jù)平臺(tái)技術(shù)規(guī)劃與實(shí)現(xiàn)等角度提出對(duì)策建議。最后,給出中國(guó)移動(dòng)在統(tǒng)一大數(shù)據(jù)平臺(tái)整合方面的實(shí)踐經(jīng)驗(yàn)。
關(guān)鍵詞:大數(shù)據(jù)統(tǒng)一平臺(tái);BI+;Hadoop;集中化經(jīng)營(yíng)分析系統(tǒng)
中圖分類號(hào):TP311.1 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.11959/j.issn.2096-0271.2017032
Towards unified big data platform
QIAN Ling, SUN Shaoling, SHI Zaihui
China Mobile (Suzhou) Software Technology Co.,Ltd.,Suzhou 215163,China
Abstract: Due to problems like immaturity of platform technology,lack of unified technical framework and inadaptation of organization structure,silo applications and complicated mashup structures were formed when enterprises were introducing big data technology.With maturity of big data platform technology,unified big data platform was gradually becoming the core of enterprise analysis system.The thoughts of enterprise-level big data platform integration from three aspects,management,operation and technology were analyzed.Suggestions about organization structure development,reconstruction and implementation of big data platform operation process,technology planning and realization of platform were provided.At last,practical experiences of unified big data platform integration of China Mobile were presented.
Key words: unified big data platform, BI+, Hadoop, centralized BI system
論文引用格式:錢嶺, 孫少陵, 石在輝. 從點(diǎn)狀應(yīng)用到大數(shù)據(jù)統(tǒng)一平臺(tái)[J]. 大數(shù)據(jù), 2017, 3(3): 84-93.
QIAN L, SUN S L, SHI Z H. Towards unified big data platform[J]. Big Data Research, 2017, 3(3): 84-93.
1 引言
“數(shù)據(jù)是新的石油”已是全世界的共識(shí),我國(guó)也陸續(xù)出臺(tái)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》等政策法規(guī),并在“十三五”規(guī)劃中將“國(guó)家大數(shù)據(jù)戰(zhàn)略”列入十四大重點(diǎn)戰(zhàn)略。國(guó)內(nèi)數(shù)據(jù)生產(chǎn)、交易、消費(fèi)環(huán)節(jié)初步形成,各行各業(yè)都開(kāi)始把大數(shù)據(jù)作為產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的有力武器。受益于多方環(huán)境利好,大數(shù)據(jù)市場(chǎng)增長(zhǎng)潛力巨大。同時(shí),因?yàn)橹T多原因,企業(yè)在實(shí)際開(kāi)展大數(shù)據(jù)建設(shè)時(shí)也面臨很多問(wèn)題,比如數(shù)據(jù)條塊分割、重復(fù)存儲(chǔ)和計(jì)算、運(yùn)維成本居高不下、擴(kuò)容壓力大、大量點(diǎn)狀應(yīng)用系統(tǒng)等典型問(wèn)題[1]。
2 大數(shù)據(jù)平臺(tái)整合問(wèn)題
大數(shù)據(jù)最先是由于企業(yè)商業(yè)智能(business intelligence,BI)系統(tǒng)升級(jí)換代而出現(xiàn)的[2]。一些數(shù)據(jù)分析壓力大的先發(fā)企業(yè)在BI建設(shè)過(guò)程中,率先在生產(chǎn)環(huán)境引入大數(shù)據(jù)技術(shù),如Hadoop、MapReduce、HBase等[3-5],形成BI+系統(tǒng)。但受技術(shù)成熟度、市場(chǎng)環(huán)境變化、企業(yè)戰(zhàn)略調(diào)整、部分業(yè)務(wù)應(yīng)用的緊迫性等因素影響,幾乎都會(huì)出現(xiàn)成長(zhǎng)的煩惱,比如:系統(tǒng)為了滿足業(yè)務(wù)需求,在缺乏規(guī)劃的情況下建設(shè)大量點(diǎn)狀應(yīng)用豎井式建設(shè);隨著技術(shù)的發(fā)展,形成了數(shù)據(jù)倉(cāng)庫(kù)、MPP(massively parallel processor)、Hadoop等紛繁復(fù)雜的技術(shù)體系;很難按照預(yù)定的IT規(guī)劃路線圖發(fā)展,往往需要在實(shí)踐中優(yōu)化和重構(gòu)。
在大中型企業(yè)中,多個(gè)數(shù)據(jù)豎井支撐點(diǎn)狀應(yīng)用現(xiàn)象比較普遍。以中國(guó)移動(dòng)通信集團(tuán)公司(以下簡(jiǎn)稱中國(guó)移動(dòng))為例,同時(shí)存在商用數(shù)據(jù)倉(cāng)庫(kù)、Hadoop、MPP或者多種數(shù)據(jù)架構(gòu)混搭方式,支撐不同的業(yè)務(wù)應(yīng)用,如圖1所示。
圖1 ?多個(gè)數(shù)據(jù)豎井支撐點(diǎn)狀應(yīng)用示例
隨著大數(shù)據(jù)應(yīng)用的不斷深化,點(diǎn)狀應(yīng)用的建設(shè)模式已經(jīng)無(wú)法滿足發(fā)展要求,具體表現(xiàn)為以下幾點(diǎn)。
● 數(shù)據(jù)交換難:數(shù)據(jù)分散在豎井中,難以形成多維度關(guān)聯(lián),數(shù)據(jù)價(jià)值降低。
● 建設(shè)成本高:數(shù)據(jù)重復(fù)存儲(chǔ)和處理,資源無(wú)法共享和統(tǒng)一調(diào)度。
● 管理開(kāi)銷大:每個(gè)集群均需要單獨(dú)的維護(hù)人員,如果廠商/架構(gòu)不同,復(fù)雜度更高。
● 安全風(fēng)險(xiǎn)高:數(shù)據(jù)分散管理,增加了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
企業(yè)在引入大數(shù)據(jù)的同時(shí)均會(huì)遇到上述問(wèn)題。如何建設(shè)統(tǒng)一的企業(yè)級(jí)大數(shù)據(jù)平臺(tái),對(duì)資源、服務(wù)、數(shù)據(jù)和用戶進(jìn)行統(tǒng)一管理,提供統(tǒng)一的應(yīng)用開(kāi)發(fā)和運(yùn)行環(huán)境,是所有大數(shù)據(jù)應(yīng)用企業(yè)需要解決的共性問(wèn)題。
3 統(tǒng)一大數(shù)據(jù)平臺(tái)整合思路
對(duì)于大中型企業(yè)來(lái)說(shuō),大數(shù)據(jù)平臺(tái)整合是一項(xiàng)系統(tǒng)工程,需要統(tǒng)籌考慮管理、業(yè)務(wù)和技術(shù)等諸多方面的要求,有針對(duì)性地進(jìn)行組織管理調(diào)整、業(yè)務(wù)流程設(shè)計(jì)和平臺(tái)技術(shù)實(shí)現(xiàn)[6]。
3.1 大數(shù)據(jù)平臺(tái)整合考慮要素
管理層面:建立管理體系,確定管理模式,包括對(duì)原體系的變更;管理數(shù)據(jù)獲取,建立利于大數(shù)據(jù)獲取的組織架構(gòu)和流程;管理控制數(shù)據(jù)質(zhì)量,建立對(duì)各個(gè)域數(shù)據(jù)質(zhì)量的統(tǒng)一管理體系;管理數(shù)據(jù)變現(xiàn),依據(jù)法律法規(guī),制定統(tǒng)一的數(shù)據(jù)變現(xiàn)規(guī)則;管理數(shù)據(jù)安全,針對(duì)各種條例開(kāi)展審計(jì)工作,保障業(yè)務(wù)穩(wěn)定運(yùn)營(yíng)。
業(yè)務(wù)層面:建立大數(shù)據(jù)運(yùn)營(yíng)體系;定義大數(shù)據(jù)運(yùn)營(yíng)的商務(wù)模式,明確服務(wù)對(duì)象、盈利模式等;定義對(duì)內(nèi)、對(duì)外的產(chǎn)品形態(tài),并根據(jù)業(yè)務(wù)形態(tài)定義產(chǎn)品;定義運(yùn)營(yíng)優(yōu)化體系和辦法,通過(guò)持續(xù)優(yōu)化,提高運(yùn)營(yíng)效益和利潤(rùn)率。
技術(shù)層面:建立大數(shù)據(jù)技術(shù)體系,明確研發(fā)模式、技術(shù)來(lái)源、技術(shù)架構(gòu)等內(nèi)容;明確定義大數(shù)據(jù)平臺(tái)的技術(shù)體系;明確符合各種數(shù)據(jù)處理、業(yè)務(wù)需求的技術(shù)架構(gòu)和產(chǎn)品;針對(duì)技術(shù)架構(gòu),為各種技術(shù)選擇研發(fā)模式,并開(kāi)展研發(fā);定義應(yīng)用遷移方式,確定現(xiàn)有業(yè)務(wù)大數(shù)據(jù)改造途徑。
3.2 大數(shù)據(jù)平臺(tái)整合思路
(1)建設(shè)與大數(shù)據(jù)平臺(tái)整合運(yùn)營(yíng)相適應(yīng)的組織架構(gòu)和體系
構(gòu)建企業(yè)級(jí)大數(shù)據(jù)能力需要成立大數(shù)據(jù)管理控制(以下簡(jiǎn)稱管控)、大數(shù)據(jù)運(yùn)營(yíng)和大數(shù)據(jù)技術(shù)機(jī)構(gòu)。其中,管控機(jī)構(gòu)負(fù)責(zé)大數(shù)據(jù)戰(zhàn)略和整體規(guī)劃;運(yùn)營(yíng)機(jī)構(gòu)負(fù)責(zé)大數(shù)據(jù)業(yè)務(wù)規(guī)劃、數(shù)據(jù)管理、建設(shè)和業(yè)務(wù)運(yùn)營(yíng)等工作;技術(shù)機(jī)構(gòu)負(fù)責(zé)大數(shù)據(jù)技術(shù)研發(fā)和運(yùn)營(yíng)支撐工作。相關(guān)機(jī)構(gòu)協(xié)同工作,共同建立面向大數(shù)據(jù)運(yùn)營(yíng)的體系。
大數(shù)據(jù)管控機(jī)構(gòu)是公司級(jí)別的管理單位,需明確整個(gè)公司層面的大數(shù)據(jù)戰(zhàn)略,建立大數(shù)據(jù)組織架構(gòu)調(diào)整,推進(jìn)大數(shù)據(jù)跨部門采集和應(yīng)用、實(shí)施統(tǒng)籌、服務(wù)保障和考核等體系,為大數(shù)據(jù)運(yùn)營(yíng)保駕護(hù)航。
大數(shù)據(jù)運(yùn)營(yíng)機(jī)構(gòu)是公司級(jí)別的生產(chǎn)單位,需承擔(dān)大數(shù)據(jù)業(yè)務(wù)規(guī)劃,建設(shè)企業(yè)級(jí)大數(shù)據(jù)業(yè)務(wù)體系,包括建設(shè)大數(shù)據(jù)系統(tǒng)、從各個(gè)領(lǐng)域采集大數(shù)據(jù)、統(tǒng)一治理企業(yè)級(jí)數(shù)據(jù)模型、在大數(shù)據(jù)系統(tǒng)上開(kāi)展各種業(yè)務(wù)等,為公司內(nèi)外部提供服務(wù)。
大數(shù)據(jù)技術(shù)機(jī)構(gòu)是公司級(jí)別的研發(fā)和支撐單位,需承擔(dān)大數(shù)據(jù)系統(tǒng)技術(shù)方案和系統(tǒng)集成工作,包括支撐運(yùn)營(yíng)機(jī)構(gòu)完成技術(shù)和實(shí)施方案、技術(shù)研發(fā)和采購(gòu)、系統(tǒng)集成工作,在系統(tǒng)上線后,還需支撐數(shù)據(jù)分析、系統(tǒng)技術(shù)服務(wù)和運(yùn)維支撐工作。
整合實(shí)施要點(diǎn):在整合前,各部門遵從自己的內(nèi)部流程;整合后,需要統(tǒng)一遵循公司的統(tǒng)一流程和體系(包括數(shù)據(jù)獲取、應(yīng)用構(gòu)建、應(yīng)用運(yùn)營(yíng)和維護(hù)等),可以基于統(tǒng)一大數(shù)據(jù)平臺(tái)快速開(kāi)展,運(yùn)營(yíng)過(guò)程需要經(jīng)由管控和運(yùn)營(yíng)機(jī)構(gòu)審核與保障。
(2)大數(shù)據(jù)平臺(tái)運(yùn)營(yíng)流程重構(gòu)與實(shí)施構(gòu)建企業(yè)大數(shù)據(jù)中心之后,需求單位可以按照云計(jì)算方式申請(qǐng)大數(shù)據(jù)中心的計(jì)算能力和數(shù)據(jù)資源,在正常的申請(qǐng)范圍內(nèi),可以快速實(shí)現(xiàn)業(yè)務(wù)開(kāi)通和上線。在大數(shù)據(jù)中心管轄范圍之外的數(shù)據(jù),還需要大數(shù)據(jù)管控單位的審核開(kāi)通。
傳統(tǒng)IT運(yùn)營(yíng)流程模式向大數(shù)據(jù)中心運(yùn)營(yíng)流程模式演進(jìn)過(guò)程如圖2所示。
圖2 ?大數(shù)據(jù)平臺(tái)運(yùn)營(yíng)流程示例
整合實(shí)施要點(diǎn):整合前,各部門遵從工程項(xiàng)目建設(shè)流程,需要經(jīng)歷預(yù)算審批、招投標(biāo)、集成、數(shù)據(jù)開(kāi)通等復(fù)雜的流程,時(shí)間周期長(zhǎng),不確定性高;整合后,可以按照技術(shù)服務(wù)方式構(gòu)建大數(shù)據(jù)業(yè)務(wù)系統(tǒng),周期短、效率高、更安全。
(3)大數(shù)據(jù)平臺(tái)技術(shù)規(guī)劃與實(shí)現(xiàn)
企業(yè)級(jí)大數(shù)據(jù)平臺(tái)包括管理、業(yè)務(wù)、數(shù)據(jù)、開(kāi)發(fā)等所有相關(guān)功能,需要具備全局的管理思維、詳盡的功能視圖設(shè)計(jì)以及整合復(fù)雜的技術(shù)體系。大數(shù)據(jù)平臺(tái)技術(shù)規(guī)劃與實(shí)現(xiàn)可參照開(kāi)放組體系結(jié)構(gòu)框架(the open group architecture framework, TOGAF)等業(yè)界通用的IT架構(gòu)設(shè)計(jì)方法論。如圖3所示,以中國(guó)移動(dòng)為例,大數(shù)據(jù)功能視圖包括多源數(shù)據(jù)、大數(shù)據(jù)平臺(tái)和應(yīng)用、不同類型的使用者。對(duì)應(yīng)到技術(shù)架構(gòu),包括數(shù)據(jù)資產(chǎn)融合、大數(shù)據(jù)技術(shù)合理選型、大數(shù)據(jù)平臺(tái)構(gòu)建、大數(shù)據(jù)服務(wù)模式等技術(shù)主題。
圖3 ?中國(guó)移動(dòng)大數(shù)據(jù)中心功能視圖和技術(shù)架構(gòu)
整合實(shí)施要點(diǎn):整合后,需要開(kāi)展現(xiàn)有應(yīng)用遷移,一般涉及3種模式,即將應(yīng)用的計(jì)算部分遷移到新系統(tǒng);將應(yīng)用的計(jì)算和原有數(shù)據(jù)都遷移到新系統(tǒng);新建與平臺(tái)相符合的應(yīng)用。企業(yè)應(yīng)根據(jù)實(shí)際情況,有序有目標(biāo)地進(jìn)行遷移。
4 大數(shù)據(jù)平臺(tái)整合實(shí)踐
中國(guó)移動(dòng)集團(tuán)公司包括31家省公司和多家專業(yè)公司,IT系統(tǒng)已各自獨(dú)立建設(shè)運(yùn)營(yíng)十幾年,數(shù)據(jù)體量巨大,種類繁雜,位置分散,應(yīng)用多樣。各單位共有超過(guò)1 000套數(shù)據(jù)倉(cāng)庫(kù)、MPP和Hadoop等大數(shù)據(jù)系統(tǒng),由超過(guò)百家集成商承建,導(dǎo)致資源分散、版本眾多、數(shù)據(jù)重復(fù)存儲(chǔ)、平臺(tái)資源重復(fù)投資、運(yùn)營(yíng)不能統(tǒng)一等問(wèn)題,專業(yè)IT人員無(wú)法復(fù)用。為應(yīng)對(duì)當(dāng)前公司面臨的大數(shù)據(jù)挑戰(zhàn),支撐公司萬(wàn)物互聯(lián)戰(zhàn)略和數(shù)字化服務(wù)商轉(zhuǎn)型的發(fā)展,中國(guó)移動(dòng)統(tǒng)籌制定公司大數(shù)據(jù)發(fā)展戰(zhàn)略和規(guī)劃,逐步整合現(xiàn)有點(diǎn)狀應(yīng)用,加快大數(shù)據(jù)基礎(chǔ)能力和開(kāi)放平臺(tái)建設(shè),實(shí)現(xiàn)全網(wǎng)數(shù)據(jù)資源的統(tǒng)一管理和運(yùn)營(yíng),支持對(duì)內(nèi)、對(duì)外多種應(yīng)用。
4.1 大數(shù)據(jù)平臺(tái)整體思路
(1)先立后破,加快統(tǒng)一平臺(tái)建設(shè)
中國(guó)移動(dòng)集團(tuán)總部推進(jìn)集中化經(jīng)分大數(shù)據(jù)平臺(tái)建設(shè),匯聚全網(wǎng)數(shù)據(jù)。初期支撐總部、各專業(yè)公司和部分省公司的大數(shù)據(jù)內(nèi)外部應(yīng)用需求,長(zhǎng)期目標(biāo)是構(gòu)建“邏輯集中、物理分散”的1+N超大規(guī)模集群大數(shù)據(jù)平臺(tái)。
各省公司同期開(kāi)展大數(shù)據(jù)平臺(tái)省級(jí)系統(tǒng)建設(shè),加快原有煙囪系統(tǒng)的遷移。為中國(guó)移動(dòng)集團(tuán)統(tǒng)一大數(shù)據(jù)平臺(tái)奠定資源基礎(chǔ),實(shí)現(xiàn)統(tǒng)一資源管理、數(shù)據(jù)管理和開(kāi)放平臺(tái)能力,支撐多部門大數(shù)據(jù)應(yīng)用建設(shè)。
(2)加快數(shù)據(jù)融合
中國(guó)移動(dòng)集團(tuán)統(tǒng)一制定數(shù)據(jù)治理框架和規(guī)則,各省公司加快內(nèi)部數(shù)據(jù)聚合,完成B域、O域和M域數(shù)據(jù)的統(tǒng)一采集和存儲(chǔ),推進(jìn)跨域數(shù)據(jù)融合和跨域數(shù)據(jù)治理[7]。
(3)探索多種服務(wù)模式
積極探索軟件即服務(wù)(software as a service,SaaS)、平臺(tái)即服務(wù)(platform as a service,PaaS)、數(shù)據(jù)即服務(wù)(data as a service,DaaS)等對(duì)內(nèi)對(duì)外服務(wù)模式。持續(xù)深耕內(nèi)部大數(shù)據(jù)價(jià)值挖掘,提高大數(shù)據(jù)對(duì)經(jīng)營(yíng)決策、數(shù)字化服務(wù)創(chuàng)新、渠道集中化運(yùn)營(yíng)、網(wǎng)絡(luò)運(yùn)維和優(yōu)化、市場(chǎng)營(yíng)銷和服務(wù)、精細(xì)化管理等各方面工作的智能化支撐水平。同時(shí),鼓勵(lì)各省聯(lián)合創(chuàng)新,推動(dòng)優(yōu)秀應(yīng)用跨省快速遷移。積極開(kāi)展對(duì)外服務(wù),以中國(guó)移動(dòng)為核心,與合作伙伴一起打造生態(tài)圈,服務(wù)政府、金融、醫(yī)療、工業(yè)等多行業(yè)多領(lǐng)域。
(4)構(gòu)建安全保障體系
為應(yīng)對(duì)大數(shù)據(jù)應(yīng)用服務(wù)過(guò)程中數(shù)據(jù)濫用和個(gè)人隱私安全風(fēng)險(xiǎn),中國(guó)移動(dòng)建立了完善的大數(shù)據(jù)安全保障體系,目標(biāo)是保護(hù)大數(shù)據(jù)權(quán)屬性、保密性、完整性、可用性、可追溯性,實(shí)現(xiàn)大數(shù)據(jù)“可管、可控、可信”,保護(hù)公司各領(lǐng)域大數(shù)據(jù)資產(chǎn)及用戶隱私。大數(shù)據(jù)安全保障體系框架如圖4所示。
圖4 ?中國(guó)移動(dòng)大數(shù)據(jù)安全保障體系框架
中國(guó)移動(dòng)大數(shù)據(jù)安全保障體系涉及安全策略、安全管理、安全運(yùn)營(yíng)、安全技術(shù)、合規(guī)評(píng)測(cè)、服務(wù)支撐六大體系。同時(shí),對(duì)用戶個(gè)人信息的各個(gè)處理環(huán)節(jié)施行嚴(yán)格規(guī)定與落實(shí),具體措施舉例如下:
● 對(duì)客戶信息包含的內(nèi)容進(jìn)行界定、分類及分級(jí);
● 明確信息安全管理責(zé)任部門及職責(zé),對(duì)各部門的職責(zé)進(jìn)行嚴(yán)格要求和細(xì)致規(guī)定,明確相關(guān)崗位角色及權(quán)限;
● 對(duì)客戶敏感信息操作進(jìn)行嚴(yán)格管理,對(duì)于涉及用戶敏感信息的關(guān)鍵操作,嚴(yán)格遵守金庫(kù)模式保護(hù)要求,采取“關(guān)鍵操作、多人完成、分權(quán)制衡”的原則,實(shí)現(xiàn)操作與授權(quán)分離;
● 設(shè)立客戶信息安全檢查制度;
● 不斷提高客戶信息系統(tǒng)技術(shù)管控水平;
● 嚴(yán)控第三方信息安全風(fēng)險(xiǎn)。
4.2 大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)
如圖5所示,中國(guó)移動(dòng)大數(shù)據(jù)平臺(tái)采用“3域4層”的實(shí)施架構(gòu),構(gòu)建復(fù)雜的多租戶系統(tǒng)。各個(gè)模塊之間充分解耦,共同支撐上層百花齊放的應(yīng)用。
圖5 ?“3域4層”實(shí)施架構(gòu)
3域包括管理域(提供統(tǒng)一管理能力,包括資源、租戶、維護(hù)、數(shù)據(jù)、安全、應(yīng)用等)、服務(wù)域(提供統(tǒng)一調(diào)度能力,包括計(jì)算、存儲(chǔ)、I/O、開(kāi)放數(shù)據(jù)能力等)、開(kāi)發(fā)測(cè)試域(提供統(tǒng)一開(kāi)發(fā)能力,包括工具、需求、流程、測(cè)試和上線等)。4層包括采集層、計(jì)算和存儲(chǔ)層、能力和接口層、應(yīng)用層。
中國(guó)移動(dòng)各省公司在大數(shù)據(jù)引入早期構(gòu)建了大量的大數(shù)據(jù)點(diǎn)狀應(yīng)用,如ETL (數(shù)據(jù)倉(cāng)庫(kù)技術(shù),用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取、轉(zhuǎn)換、加載至目的端的過(guò)程)、數(shù)據(jù)挖掘、賬詳單查詢、營(yíng)銷類應(yīng)用,隨著業(yè)務(wù)增長(zhǎng),均造成數(shù)據(jù)膨脹、性能下降、利用率不均等問(wèn)題,需要擴(kuò)容;同時(shí)點(diǎn)狀應(yīng)用數(shù)量增加,大幅度增加了管理成本,需要整合。為解決點(diǎn)狀應(yīng)用整合管理的問(wèn)題,中國(guó)移動(dòng)設(shè)計(jì)了大數(shù)據(jù)運(yùn)營(yíng)管理中心(big data operations management center,BDOC)平臺(tái)產(chǎn)品,整合大數(shù)據(jù)點(diǎn)狀系統(tǒng)和統(tǒng)一運(yùn)營(yíng)運(yùn)維管理,如圖6所示。
圖6 ?統(tǒng)一大數(shù)據(jù)平臺(tái)運(yùn)營(yíng)管理
大數(shù)據(jù)平臺(tái)總體架構(gòu)設(shè)計(jì)的考慮因素如下:
● 為滿足數(shù)據(jù)量爆炸式增長(zhǎng)和數(shù)據(jù)安全備份需要,大數(shù)據(jù)中心應(yīng)是一中心、多集群的架構(gòu);
● 需建設(shè)統(tǒng)一的大數(shù)據(jù)管理中心,實(shí)現(xiàn)統(tǒng)一管理、統(tǒng)一調(diào)度、統(tǒng)一開(kāi)發(fā)、多租戶管理;
● 對(duì)多個(gè)大數(shù)據(jù)集群(包括異地異構(gòu))的各種資源進(jìn)行管理及統(tǒng)一調(diào)度;
● 為大數(shù)據(jù)管理人員、資源運(yùn)營(yíng)人員、數(shù)據(jù)使用者、應(yīng)用開(kāi)發(fā)者、運(yùn)維人員等提供統(tǒng)一門戶。
4.3 自主大數(shù)據(jù)核心能力構(gòu)建
2014年3月,中國(guó)移動(dòng)成立中移(蘇州)軟件技術(shù)有限公司(又稱中國(guó)移動(dòng)蘇州研發(fā)中心,以下簡(jiǎn)稱“蘇研”),負(fù)責(zé)中國(guó)移動(dòng)統(tǒng)一大數(shù)據(jù)平臺(tái)的建設(shè)工作,對(duì)內(nèi)外部客戶提供大數(shù)據(jù)領(lǐng)域的咨詢、規(guī)劃、方案、建設(shè)、集成、研發(fā)、運(yùn)維等全方位服務(wù)。作為中國(guó)移動(dòng)大數(shù)據(jù)核心技術(shù)的研發(fā)機(jī)構(gòu),蘇研在大數(shù)據(jù)平臺(tái)技術(shù)方面基于Hadoop、Spark等開(kāi)源軟件構(gòu)建,采用開(kāi)放技術(shù)架構(gòu),堅(jiān)持核心模塊自主研發(fā),兼容業(yè)界主流大數(shù)據(jù)商用產(chǎn)品。在應(yīng)用開(kāi)發(fā)方面,已經(jīng)與產(chǎn)業(yè)界廣泛合作,無(wú)縫對(duì)接中國(guó)移動(dòng)內(nèi)部應(yīng)用需求,快速交付現(xiàn)網(wǎng)可用產(chǎn)品,并實(shí)現(xiàn)既有應(yīng)用遷移,在市場(chǎng)營(yíng)銷、企業(yè)體驗(yàn)、網(wǎng)絡(luò)優(yōu)化和IT系統(tǒng)優(yōu)化等多個(gè)領(lǐng)域,蘇研都有成熟的產(chǎn)品和解決方案支撐。
蘇研目前已有24項(xiàng)大數(shù)據(jù)產(chǎn)品[8-12],目前已在27個(gè)單位落地,累計(jì)部署近2 000個(gè)節(jié)點(diǎn)。其中10項(xiàng)產(chǎn)品和3項(xiàng)服務(wù)(集成實(shí)施、數(shù)據(jù)開(kāi)發(fā)、算法和分析)進(jìn)入集團(tuán)大數(shù)據(jù)核心能力清單。蘇研大數(shù)據(jù)產(chǎn)品體系架構(gòu)如圖7所示。2016年蘇研進(jìn)入中國(guó)移動(dòng)集團(tuán)的大數(shù)據(jù)核心能力清單包括:大云大數(shù)據(jù)運(yùn)營(yíng)管理中心BC-BDOC以及資源整合服務(wù)(含集成服務(wù)和數(shù)據(jù)開(kāi)發(fā)服務(wù));大云大數(shù)據(jù)平臺(tái)BC-Hadoop(含Spark等開(kāi)源軟件);大云數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)系列,HugeTable多引擎大數(shù)據(jù)倉(cāng)庫(kù)版本、MPP版本和RDB關(guān)系型數(shù)據(jù)庫(kù)版本(含聯(lián)機(jī)分析處理(on-line analytical processing,OLAP)、聯(lián)機(jī)事務(wù)處理(online transaction processing,OLTP)數(shù)據(jù)庫(kù));大云流計(jì)算產(chǎn)品BC-Streaming;企業(yè)級(jí)搜索引擎BC-SE;大云大數(shù)據(jù)挖掘產(chǎn)品BC-PDM/BC-ETL以及算法建模服務(wù)(含算法和分析服務(wù));輿情監(jiān)控產(chǎn)品。
圖7 ?蘇研大數(shù)據(jù)產(chǎn)品體系架構(gòu)
5 結(jié)束語(yǔ)
中國(guó)移動(dòng)作為大型傳統(tǒng)行業(yè)的企業(yè)代表,對(duì)大數(shù)據(jù)有旺盛的需求。傳統(tǒng)的全盤外包的IT建設(shè)模式難以適應(yīng)大數(shù)據(jù)的發(fā)展需求,中國(guó)移動(dòng)采用了統(tǒng)一規(guī)劃、集中運(yùn)營(yíng)、核心能力自主研發(fā)、強(qiáng)化安全管控的發(fā)展思路。在公司級(jí)平臺(tái)建成前,允許省公司和專業(yè)機(jī)構(gòu)各自發(fā)揮能動(dòng)性,按照統(tǒng)一規(guī)范建設(shè)省級(jí)平臺(tái),支撐生產(chǎn),這種發(fā)展途徑目前已經(jīng)取得了階段性成果。傳統(tǒng)企業(yè)可以借鑒中國(guó)移動(dòng)的大數(shù)據(jù)發(fā)展模式,有序發(fā)展,真正發(fā)揮大數(shù)據(jù)價(jià)值。
參考文獻(xiàn):
[1] 李國(guó)杰?.?對(duì)大數(shù)據(jù)的再認(rèn)識(shí)[J].?大數(shù)據(jù),?2015,1(1):2015001.
LI?G J?.?Further understanding of big data[J].?Big Data Research,?2015,1(1): 2015001.
[2]程學(xué)旗,?靳小龍,?王元卓?,等.?大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].?軟件學(xué)報(bào),?2014,25(9):?1889-1908.
CHENG?X Q?,?JIN?X L?,?WANG?Y Z?,et al.?Survey on big data system and analytic technology[J].?Journal of Software,?2014,25(9):?1889-1908.
[3]GHEMAWAT?S?,?GOBIOFF?H?,?LEUNG?S T?.?The Google file system[C]//?The 19th ACM Symposium on Operating Systems Principles,October 19-22,2003, New York,USA.?New York:ACM Press,?2003:?1-15.
[4]DEAN?J?,?GHEMAWAT?S?.?MapReduce:simplifed data processing on large clusters[C]//?The 6th Conference on Symposium on Operating Systems Design& Implementation,December 6-8,2004,San Francisco,CA,USA.?New York:ACM Press,?2004:10.
[5]CHANG?F?,?DEAN?J?,?GHEMAWAT?S?,et al.?Bigtable:a distributed storage system for structured data[J].?ACM Transactions on Computer Systems,?2008,26(2):?15.
[6]孟祥飛,?馮景華,?趙洋?,等.?應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)融合平臺(tái)建設(shè)[J].?大數(shù)據(jù),?2017,?3(2):?67-77.
MENG?X F?,?FENG?J H?,?ZHAO?Y?,et al.?Application-oriented integration platform construction on big data[J].Big Data Research,?2017,3(2):?67-77.
[7]馬朝輝,?聶瑞華,?譚昊翔?,等.?大數(shù)據(jù)治理的數(shù)據(jù)模式與安全[J].?大數(shù)據(jù),?2016,?2(3):?83-95.
MA?C H?,?NIE?R H?,?TAN?H X?,et al.?Research on data schema and security in data governance[J].?Big Data Research,?2016,2(3):?83-95.
[8]孫少陵,?周大,?錢嶺?.?云數(shù)據(jù)倉(cāng)庫(kù)高性能查詢技術(shù)研究[J].?郵電設(shè)計(jì)技術(shù),?2011(10):?23-26.
SUN?S L?,?ZHOU?D?,?QIAN?L?.?High performance query technique of cloud data warehouse[J].?Designing Techniques of Posts and Telecommunications,?2011(10):?23-26.
[9]周大,?錢嶺,?郭磊濤,?等.?HugeTable:一種面向電信行業(yè)的云數(shù)據(jù)倉(cāng)庫(kù)[J].?2011中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議,濟(jì)南,中國(guó),2011-08-18.?濟(jì)南:[出版者不詳],?2011:?1-4.
ZHOU?D?,?QIAN?L?,?GUO?L T?,et al.?HugeTable:telecom oriented data warehouse[C]//?2011CCF National Conference on Service Computing,August 18,2011,Jinan,China.?Jinan:[s.n.]:?2011:?1-4.
[10]BAO?Y?,?WANG?Z?,?BAI?Q?,et al.?BC-BSP:a BSP-based system with disk cache for large-scale graph processing[J].?Open Cirrus Summit,?2012,7215(1):?35-39.
[11]GUO?L T?,?SUN?H W?,?LUO?Z G?.?A data distribution aware task scheduling strategy for mapreduce system[C]//?The 1st International Conference on Cloud Computing,December 1-4,2009,Beijing,China.?Berlin:Springer Press,?2009:?694-699.
[12]YU?L?,?DUAN?S Q?,?SHEN?C W?,et al.?BC-PDM:data mining,social network analysis and text mining system based on cloud computing[C]//?The 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 12-16,2012,Beijing,China.?New York:ACM Press,?2012:?1496-1499.
錢嶺(1972-),男,博士,中移(蘇州)軟件技術(shù)有限公司大數(shù)據(jù)部高級(jí)工程師、總經(jīng)理,專注大數(shù)據(jù)產(chǎn)品規(guī)劃、研發(fā)和應(yīng)用全流程、軟件過(guò)程改進(jìn)等,曾獲得中國(guó)通信學(xué)會(huì)科學(xué)技術(shù)獎(jiǎng)二等獎(jiǎng),出版《敏捷開(kāi)發(fā)知識(shí)體系》《云計(jì)算:深刻改變未來(lái)》《功能點(diǎn)分析——成功軟件項(xiàng)目的測(cè)量實(shí)踐》和《自適應(yīng)軟件開(kāi)發(fā):一種管理復(fù)雜系統(tǒng)的協(xié)作模式》4本著作,發(fā)表多篇論文。
孫少陵(1972-),男,中移(蘇州)軟件技術(shù)有限公司高級(jí)工程師、副總經(jīng)理,主持研發(fā)“大云”云計(jì)算/大數(shù)據(jù)產(chǎn)品,曾獲得國(guó)家科技進(jìn)步獎(jiǎng)二等獎(jiǎng)及多項(xiàng)省部級(jí)獎(jiǎng)勵(lì)。
石在輝(1983-),男,中移(蘇州)軟件技術(shù)有限公司大數(shù)據(jù)產(chǎn)品部方案架構(gòu)師,主要從事解決方案、戰(zhàn)略規(guī)劃、產(chǎn)品規(guī)劃等工作。
總結(jié)
以上是生活随笔為你收集整理的【2017年第3期】从点状应用到大数据统一平台的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【2016年第5期】跨社交媒体网络大数据
- 下一篇: cmake的使用-if-else的逻辑流