【技术史】数据中台的前世今生
前言:
-更多關于數智化轉型、數據中臺內容請加入阿里云數據中臺交流群—數智俱樂部 和關注官方微信公總號(文末掃描二維碼或點此加入)
-阿里云數據中臺官網 https://dp.alibaba.com/index
數據中臺自14年至今,已然成為了2B、2G業務最熱門的話題,政府機構、企事業單位、互聯網公司等進行著數字化、數據化、智能化轉型。市場普遍認為,阿里巴巴將自身數據中臺建設能力對外賦能是拉起本輪數據中臺浪潮的根本所在。
本文將帶你全面了解阿里巴巴做數據中臺的歷史。
1、緣起
在2014年以前,阿里巴巴有很多條業務線,都有自己的ETL團隊,每個ETL團隊建設和維護自己的數據體系。當時許多人認為,這種自下而上的自給自足能夠最高效地滿足業務需求。也因此,各個ETL團隊之間缺乏相互信任,也缺乏最大化互通的可能性。
即便在2020年的很多公司,這種現象也普通存在。不同部門、不同業務、不同系統之間都有自己單獨的ETL處理體系,每個ETL體系只關注與自己垂直業務相關的需求,并從底向上完整支撐業務體系。這種情況的出現,大多是由于業務發展迅速,為了快速低成本的滿足業務數據需求,單獨拉出數據支撐團隊造成的。
對于當時的阿里巴巴而言,這種分散數據處理體系帶來了很多問題。以日志采集數據為例,就同時存在若干份數據:淘寶數據基礎層、廣告數據基礎層、搜索數據基礎層各有一份日志數據,不僅直接耗費了非常多的存儲資源,更重要的是扼殺了數據中間層和數據應用層等復用的可能性。
圖2014年以前阿里巴巴分業務自建數據體系的抽象圖
下圖展示的是2014年以前,阿里巴巴各個數據團隊建設的數據任務關系圖。每個圓形代表著一條業務線的數據任務集合,任意兩個圓形之間的連線代表著兩者的關系。由此可見:數據處理流向是混亂的、無方向性的;數據管理是無序的,基本處于失控狀態;除了浪費研發資源和存儲資源,也必然滿足不了業務需求。
圖阿里巴巴數據公共層建設之初計算環境1上的數據任務關系圖
業務猛烈發展與數據支撐能力不匹配產生了巨大的矛盾,也促使阿里巴巴內部開始進行數據公共層的建設,數據公共層旨在可持續地建設阿里巴巴智能大數據體系。
2、發展
- 從零散的數據到統一的數據
從2014年起,阿里巴巴啟動數據公共層建設項目,以OneData體系特別是方法論為指導。
數據公共層建設初期是為了消除因"煙囪式"開發給業務帶來的困擾和技術上的浪費。而OneData體系是保障和推進項目建設的關鍵。OneData體系一方面致力于數據標準的統一,另一方面追求讓數據變為資產而非成本。OneData體系除了方法論,還包含工具型產品、規范等,具體體現為:數據規范定義、數據模型定義、模型智能化設計、規范ETL開發、落實數據規范和模型定義的研發工具、對于整個體系的自動化調優和監控。
通過建設統一的ODS數據基礎層,建設基于業務應用或需求來源端的抽象數據邏輯層來豐富數據中間層,允許數據應用層的百花齊放來打造阿里巴巴數據公共層。從而將零散的數據變為統一的數據。
**- 從數據孤島到數據融通
**
在業務突飛猛進發展過程中,不同的事業部、業務條線會為了快速實現需求,數據單獨定義、存儲、使用,從客觀性來講,每個發展壯大的企事業單位都避免不了數據孤島的產生。數據孤島不僅包含物理孤島(獨立存儲、維護、使用),而且包含邏輯孤島(定義不一致、計算邏輯不一致)。
阿里巴巴創新性的創建OneID體系,將所有業務范圍(電商、金融、廣告、物流、文化、教育、娛樂、設備、社交等)中的人、貨、場、物、錢等實體打通,解決體系內邏輯性數據孤島問題。在阿里云的強力支撐下,集團內所有隔離數據進行統一的存儲和管理,解決體系內物理孤島問題。
從數據孤島到數據融通,使得數據擁有創造價值的可能性。
**- 從授人以魚到授人以漁
**
從以定制化開發的方式將數據交付到業務人員,到基于數據規范但需要配置,再到全鏈路數據打通,直到主題式服務,阿里巴巴一次次努力追求的正式從授人以魚到授人以漁。
2012年前后,服務于1688有超過300多個API,梳理后發現這些API之間無法整合,因為每個API只服務于一個業務應用而不能被共享,API應用的數據應用層數據表也不能被共享。
從2012年至2016年,阿里巴巴通過OneService體系將API數據服務從物理表SQL模式升級至面向主體查詢邏輯模型的SQL模型,大大提升了系統的可用性,也使得數據中臺面向業務人員使用變成了現實,達到了授人以漁的目標。
3、從數據成本到數據價值
對于大部分企業來說,業務系統創造的數據不僅需要占據大部分的存儲空間,而且還需要技術人員持續維護,是一筆不小的成本開支。
阿里巴巴致力于將數據從成本中心變為資產中心,在業務數據化與數據業務化兩大方向,數據賦能業務、驅動創新四大業務場景上取得了豐碩的成功。
數據中臺賦能業務、驅動創新的四大典型場景包含:全局數據監控、數據化運營、數據植入業務、數據業務化。
全局數據監控,如戰略決策的智能方案:最大限度降低數據分析的難度,最大程度提高數據分析效果,同時不動聲色中傳遞品牌價值,以高效優質地輔助戰略決策和數據化運營。
圖雙十一數據大屏&銀泰互動大屏
數據化運營,如用戶管理的智能方案:基于全鏈路全渠道的數據構建、數據連接與萃取管理體系,對用戶進行全生命周期的精細化管理(如智能CRM)。
2017年熱播的一部電視劇,該電視劇在優酷土豆獨家播放十天,播放量就突破了60億次,屬于"現象級IP"。但這樣的"現象級IP"并不是偶然產生的,除資本投入因素外,數據化運營在其中發揮了巨大的作用。
事前通過輿情分析鎖定IP,及時獨立采購IP;事中實時監控流量變化、播放情況,及時調整流量入口,有針對性的推送用戶;事后,及時總結和復盤,進行用戶沉淀,挖掘相似內容,形成閉環。
*數據植入業務:智能圖像鑒別,智能客服。
通過數據模型算法,將圖像鑒別從手工變為自動化,節省95%以上工作量。*
圖數據智能植入業務系統
數據業務化,如零售管理的智能方案:規避傳統零售的松散式管理,將庫存、定價、補貨、銷售等統一協同,整體提升線上線下零售體驗和效果(如生意參謀)。
4、集大成
到今天為止,阿里云數據中臺體系(核心產品:Dataphin、QuickBI、Quick Audience、Quick A+)經歷了阿里幾乎所有業務的考驗,包含新零售、金融、物流、營銷、旅游、健康、大文娛、社交領域。在此過程中,云上數據中臺除了形成自己的內核能力外,更向上"賦能業務前臺"、向下與"統一計算后臺"連接并與之融為一體,形成云上數據中臺業務模式。
同時,阿里巴巴從2018開始,將自身的數據中臺能力向外輸出賦能,對社會創造更多價值。
數據中臺是企業數智化的新基建,阿里巴巴認為數據中臺是集方法論、工具、組織于一體的,“快”、“準”、“全”、“統”、“通”的智能大數據體系。目前正通過阿里云數據中臺解決方案對外輸出,包括零售、金融、互聯網、政務等領域,其中核心產品有:
- Dataphin,一站式、智能化的數據構建及管理平臺;
- Quick BI,隨時隨地 智能決策;
- Quick Audience,全方位洞察、全域營銷、智能增長;
- Quick A+, 跨多端全域應用體驗分析及洞察的一站式數據化運營平臺;
官方站點:
數據中臺官網 https://dp.alibaba.com
原文鏈接:https://developer.aliyun.com/article/769258?
版權聲明:本文中所有內容均屬于阿里云開發者社區所有,任何媒體、網站或個人未經阿里云開發者社區協議授權不得轉載、鏈接、轉貼或以其他方式復制發布/發表。申請授權請郵件developerteam@list.alibaba-inc.com,已獲得阿里云開發者社區協議授權的媒體、網站,在轉載使用時必須注明"稿件來源:阿里云開發者社區,原文作者姓名",違者本社區將依法追究責任。 如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至:developer2020@service.aliyun.com 進行舉報,并提供相關證據,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
以上是生活随笔為你收集整理的【技术史】数据中台的前世今生的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何写好代码?
- 下一篇: 图灵“亲自”给你讲人工智能