阿里十年经验输出,大数据平台“数加”的前世今生
2016 年1月20日,在云棲大會上阿里云發布了一站式大數據平臺“數加”,該平臺集合了阿里巴巴十年的大數據能力以及上萬名工程師實戰檢驗,該平臺是一站式的解決方案,首批亮相20款產品,覆蓋數據采集、計算引擎、數據加工、數據分析、機器學習、數據應用等數據生產全鏈條。
數加平臺由大數據計算服務(MaxCompute)、分析型數據庫(Analytic DB)、流計算(StreamCompute)共同組成了底層強大的計算引擎,速度更快、成本更低。計算引擎之上,“數加”提供了豐富的云端數據開發套件,包括數據集成、數據開發、調度系統、數據管理、運維視屏、數據質量、任務監控等在內。
“數加”還向有數據開發能力的團隊開放,這些團隊可入駐“數加”,借助數加上的工具為各行各業提供數據服務。大數據開發套件的優勢包括:支持100人以上協同設計、開發、運維;具有良好的擴展性;提供各個產品功能模塊的Open API,可二次開發;多個數據實例之間的數據授權機制,確保數據只能使用卻不可見;提供白屏化的運維能力,以及字段級數據質量監控、機器預警、資源使用率監控等功能,讓用戶更好的掌控自己的數據及數據任務。
一、6小時處理100PB數據、Analytic DB支持百億量級多維查詢只需100毫秒
大數據計算服務可6小時處理100PB數據,相當于1億部高清電影。單集群規模過萬臺,并支持多集群聯合計算。做到了速度更快,成本更低。經測算,自建Hadoop集群的成本是數加的1.5倍,國外計算廠商AWS 的EMR成本更是數加的5倍。
此次發布的產品還覆蓋數據采集、計算引擎、數據加工、數據分析、機器學習、數據應用等數據生產全鏈條。具體來看:
- 數據采集方面:Datahub可為用戶提供實時數據的發布和訂閱功能;
- 底層計算引擎:由大數據計算服務MaxCompute(原ODPS)、分析型數據庫Analytic DB、流計算StreamCompute共同組成。
- 大數據計算服務可6小時處理100PB數據,相當于1億部高清電影;單集群規模過萬臺,并支持多集群聯合計算。做到了速度更快,成本更低;
- 分析型數據庫Analytic DB可實現對數據的實時多維分析,百億量級多維查詢只需100毫秒;
- 流計算StreamCompute對實時流式數據進行分析,具有低延時、高性能的特點。每秒查詢率可以達到千萬級,日均處理萬億條消息、PB量級的數據。
- 數據分析方面:
- Mobile Analytics 讓開發者可快速搭建日志采集、分析系統,從而為用戶提供個性化服務;
- DataV 通過數加BI報表產品,3分鐘即可完成海量數據的分析報告。產品支持多種云數據源,提供近20種可視化效果;
- 通過數據可視化產品DataV,一星期就能做出雙11同款大屏;
- 基于DataV,數加還發布了面向政府的行業應用產品“郡縣圖治”:通過這款產品,縣長可以在一個屏幕下統覽全縣各項經濟民生數據,為政府決策提供輔助。
- 機器學習方面:
- 可基于海量數據實現對用戶行為、行業走勢、天氣、交通等的預測;
- 圖形化編程讓用戶無需編碼、只需用鼠標拖拽標準化組件即可完成開發;
- 產品還集成了阿里巴巴核心算法庫,包括特征工程、大規模機器學習、深度學習等
- 提供了全面支持,包括規則引擎、推薦引擎、文字識別、智能語音交互等;比如規則引擎是一款用于解決業務規則頻繁變化的在線服務,可通過簡單組合預定義的條件因子編寫業務規則,并做出業務決策。而文字識別提供自然場景下拍攝的圖片中英文文字檢測、識別以及常見的證件類檢測和識別。智能語音交互基于語音和自然語言技術構建的在線服務,為智能手機,智能電視以及物聯網等產品提供“能聽、會說、懂你”式的智能人機交互體驗。
阿里云的大數據平臺數加的整體架構
二、追溯數加平臺的前世今生
1. 數加平臺的起源
第一個數據倉庫——阿里大數據分析的雛形
在2004年5月,為了從大數據中分析當前狀況,并預測未來的趨勢,出現了第一個大數據倉庫;到2008年,淘寶的業務量與數據量已達到04年的數千倍,按照這樣的趨勢,不出幾年IOE的成本就會將公司拖到破產。鑒于Oracle的性能已經不足以支撐新的業務量,底層技術架構亟需升級。到2009年,新的數據公司成立。
2. 阿里云和阿里金融的誕生
當時,整個服務器與全部信息四處分散,整個數倉的邏輯是以很多腳本拼湊而成。由于其中的邏輯過于復雜,一旦系統出錯,只有專人才能解決。彼時還存在諸多問題,包括:服務器利用率低、信息孤島、數據冗余、基礎建設一窮二白,而且由于云計算技術還是新興技術,存在著安全隱患。
為了解決這些問題,阿里決定成立阿里云,從底層重構云計算及大數據技術。同時,為了實現自主可控,阿里金融成立。
阿里金融的成立意義重大,整個管理層從中真正看到了數據公司的雛形。總結來說,在這樣的公司中:數據是它的生產資料;只有把這些數據集中融合,才能產生這種業務。
只有集中融合數據,才能產生這種業務
不過隨著時間推移,到2010年,雖然大家承認這種模式很好,但實際上還存在著嚴重的問題:一是在生產資料方面:如何集中和打通這些數據,實際上歷史數據是很欠缺的。之前大家并沒有這方面的意識,因此沒有保留歷史數據,變更都是直接替換。二是在生產工具方面:阿里系統需要大量的計算,那么如何解決大規模計算問題?
三、大數據計算服務(ODPS)進化史
原ODPS,現MAXCOMPUTE的進化史
由于諸多問題,數據應用急需改革與整合:信息重復存儲、標準不一,存在很多小集群,基礎建設每年需投入幾十億;而且每一塊業務都可能需要淘寶的內部表,因而研發成本較高;同時信息獲取時間較長,一個數據需要等半年;另外搜索數據也很困難。
1. 數據平臺部成立
最終,在2012年數據平臺部(CDO)成立,具體執行的工作可以總結為三個詞:存、通、用。“存”將數據大集中,存入ODPS;“通”:統一規范,打通各個業務單位;“用”:推動數據開放和交換,促發展,養生態。
一切業務數據化,一切數據業務化
2. 成立ODPS
2012年,我們還計劃將集團內部幾十個小集群進行統一,這個任務又稱登月計劃。到了2013年,我們決定將整個集團的業務集中在一個平臺上,不僅是阿里系統可以使用,其他業務也能使用。因此我們將原本的數據倉庫改名為大數據計算服務(ODPS),并將所有金融業務所需要的數據放在云端,集中到ODPS上。
3. 大數據基礎設施成熟,開始創業
2015年,大數據基礎設施成熟,既然阿里在數據方面有這么多的經驗,有這么多的能力,我們想要將這樣的能力分享給其他創業者,讓普惠大數據成為現實。所謂的“普惠大數據”這個概念,可以簡單表述為:讓大數據為人人可用;大家用得起、用的快,用的好;生態化,要和服務商共享三年,共享一萬億的計劃。
4.? 數加平臺推出:
此時的問題在于產品化不足:如何將這個平臺商業化,將內部使用的產品調整成公共平臺;產品獨立部署的問題:平臺與之前內部系統聯系緊密,需要剝離;需要適應具體客戶的需求。
最終確定了下面的解決辦法:將整個平臺拆小,拆分成不同功能的模塊;將產品從原有系統中剝離出來;3)既然阿里擅長平臺,我們先把平臺做好,再與所有行業伙伴一同合作。
直到2016年1月,數加平臺支持對外服務。
數加平臺支持對外服務
四、數加平臺提供的服務
1. 如何為客戶提供服務
簡單來講有以下三點,首先是回歸商業本質:每筆業務有相應的費用;其次是解決業務問題:有專門的咨詢團隊,必要時可以與客戶面對面溝通來協同客戶開發;最后,拓展自己的商業邊界:從已有數據總結,發現新的商業機會。
2. 具體業務問題的解決
在缺乏精準化運營的情況下,公司在決策時只能靠猜或者靠蒙。為了解決這個問題,首先需要樹立指標。
- 例如在叫車場景中:司機和乘客兩端,乘客是降低等待時長,司機是降低空駛率,需要優化這兩個指標。另外,不能盲目在中間流程加內容。
從微創型小點出發,從旁路來做優化設計,這就是典型的旁路設計。比如司機現在有個單子,想要不停地接單。設計方式如下,首先是標簽:司機在過去二十分鐘之內接過單;其次,當前司機手頭上定單的終點有人在打車。將其拆成兩條規則,把類似的接力單、返程單、交接班單統統用數據描述,這就是典型的用數據進行業務的產品。
- 例如在商業WIFI公司通過創建O2O營銷平臺時:首先根據客流和商鋪數據挖掘人物對商鋪的興趣圖譜、商鋪之間的關系網;其次整合標簽做多維透視,深度刻畫人群畫像,為商鋪提供分析平臺;最后使用定向運營為商鋪提活動定向,精準觸達目標客戶。
這樣一來,通過強大的分析引擎,我們支撐了分析平臺的功能研發,并實現了精準定向實現用戶準確觸達。
3. 關于數據可視化
針對不同角色,所需要設計的內容也不同,而且要具有啟發式,利于公司領導者進行決策。
五、未來展望
“技術是沒有門派的,服務也是沒有邊界的。任何的技術的誕生都是源于最終用戶的需求和服務。”當阿里云與九州云、潤和軟件、創客+、國家氣象局、NVIDIA簽署戰略合作時,阿里云資深總監李津這樣說道。
通過技術融合服務于用戶,這是整個數加平臺真正的生態價值所在,也是未來云技術的發展趨勢。
大數據在各行各業都發揮著自己的作用,包括水利、氣象以及未來的海洋、地震、國土等重大基礎資源管理的行業和部門;還有交通、娛樂、物流、健康等創新型行業;也包含人機交互、全渠道CRM等計算機相關領域。
有了這樣的生態和阿里云的數加大平臺在一起,阿里云計劃用3年時間吸引1000家合作伙伴入駐,能夠通過數加這個平臺,能夠培養一千位首席數據官,更希望能培養出五萬名數據科學家。
總結
以上是生活随笔為你收集整理的阿里十年经验输出,大数据平台“数加”的前世今生的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 建“数字风洞”,永信至诚开启安全测试评估
- 下一篇: 安装Mac 苹果系统