智能数据构建与管理平台Dataphin的前世今生:缘起
Dataphin 智能數據構建與管理平臺
面向各行各業大數據建設、管理及應用訴求,一站式提供從數據接入到數據消費全鏈路的智能數據構建與管理的大數據能力,包括產品、技術和方法論等,助力打造標準統一、融會貫通、資產化、服務化、閉環自優化的智能數據體系,以驅動創新。
Dataphin產品直達:https://www.aliyun.com/product/dataphin
困難是最好的教練
阿里巴巴從2008年開始建設自有的大數據體系,致力于構建好數據服務多樣的業務。一路上,經歷了各種各樣的困難。
技術陷在臨時取數不可知:阿里內部曾經通過建設專門的“臨時取數需求管理系統”,給每個業務線分配臨時取數的時間額度,每次還沒到月底,額度已經為零,業務同學追著數據技術同學加班取數的情況時有發生......為了改變這一局面,專門建立了“業務人員SQL技能培訓”,希望用這樣的方式讓業務人員自己掌握臨時取數技能,美其名曰“賦能”。而這背后的本質是:資源。
數據口徑定義有差別:曾經就因為數據口徑差異,差點造成商家損失。商家在后臺看到的數據預測,顯示可以達到活動報名要求,于是提前備貨,準備大干一場,但是最終報名卻沒有通過,原因是小二側的數據口徑與商家側的數據口徑不一致,小二系統評估商家的數據未達標,導致不通過。雖然最終通過協調解決了問題。但這背后的本質是:標準。
加班做報表,匯報還被罵加班取數是常態,通常取數花費2-3小時,而之后的核對差異則要花費巨大精力,動輒1-2天;最后的匯報環節,也會因為一些口徑差異及數據質量問題造成尷尬,甚至會出現錯誤數據導致決策失誤的情況。這背后的本質是:質量。
除了上述這幾個典型的場景,阿里巴巴也曾因業務增長而出現數據量爆發增長,對數據不治理不管理,意味著數據的存儲和計算成本不斷攀升。成本,也是大數據領域面臨的困難之一。
探索中前行,實戰中沉淀帶著克服困難的決心,阿里巴巴開始了B2B業務數據建設、電商業務數據建設、阿里系業務數據建設。過程中,邊探索、邊沉淀、邊前行,通過更體系化的數據建設提升數據質量,降低數據重構的風險,提升數據服務的效率。經歷近十年的打磨,基于實戰,阿里巴巴沉淀了OneData大數據建設的方法論(OneModel+OneID+OneService)。OneModel通過對數據體系化架構、數據元素規范定義、數據指標結構化拆解,對數據進行統一的構建及管理;OneID通過建立實體對象、對象相關的行為數據及標簽構建方法,對企業的核心商業要素進行資產化;對數據資產進行統一的主題式數據單元構建,配置構建數據API并提供API服務,以提升數據資產消費的便捷性,提升數據資產價值。
克服痛點 創造領先的大數據能力
隨著全球數字化進程的加速,企業面臨著更加嚴峻的市場競爭,而數智化轉型所遇到的困境也曾是阿里巴巴最初之痛。于是,阿里云數據中臺應運而生,與各行各業的企業在數據領域開展了合作,解決企業凸顯的數據問題:
●數據標準問題:煙囪式開發及局部業務服務支撐,導致指標同名不同口徑問題頻發;歷史上不同業務系統逐步迭代上線,相同對象屬性編碼不一致等問題突出;
●數據質量問題:重復建設導致任務鏈冗長、任務繁多,計算資源緊張,數據時效性不好;口徑梳理定義的文檔沉淀到開發代碼實現之間存在脫節,數據準確性保障風險高;
●需求響應問題:煙囪式開發周期長、效率低,面向應用的服務化不足,導致業務響應速度慢,業務不滿意的同時技術又覺得沒有沉淀與成長;既懂業務又懂數據的人才不足,需求理解到開發實現涉及大量溝通,服務效率較差;
●成本資源問題:煙囪式開發的重復建設浪費技術資源;上線難下線更難,源系統或業務變更不能及時反映到數據上,加之數據不標準,研發維護難上加難的同時,大量無用計算和存儲造成資源浪費。
阿里巴巴提出的OneData方法論幫助企業捋清了數據全生命周期的管理思路,更將其植入到產品Dataphin(智能數據構建與管理)中,通過阿里云為企業提供服務。?Dataphin除了大數據處理全鏈路涉及到的數據集成、開發、發布、調度、運維能力,同時提供了數據規范定義、邏輯模型定義、代碼自動化生成、數據主題式服務能力,高效地完成好數據的構建。
Dataphin產品核心模塊
Dataphin自2018年問世以來,已發展出了豐滿的大圖,到目前為止經歷了多輪大版本升級,產品核心的能力模塊清晰顯現。
1、環境適配
最底層為Dataphin的環境適配能力。Dataphin支持不同的云環境,為不同規模以及不同部署要求的客戶提供不同的選擇,包括公共云多租戶、公共云VPC、專有云企業版及敏捷版,以及本地IDC部署。
2、引擎支持
在云環境之上,根據不同的云環境可以支持不同的計算引擎。離線的計算引擎包括阿里云MaxCompute,Hadoop生態引擎包括阿里云E-MapReduce、CDH5、CDH6、以及即將支持的FusionInsight、CDP等。實時計算引擎支持阿里云Blink和Flinkvvp。開源版本的Flink也即將支持。
3、數據構建
基于不同的云環境和計算引擎,Dataphin提供了大數據處理全鏈路涉及的數據集成、開發、發布、調度、運維能力,提供了數據規范定義、邏輯模型定義、代碼自動化生成、主題是查詢的數據構建能力。
4、資產
Dataphin提供了配套的資產地圖、資產血緣、資產質量管理和監控、資源成本管理和提效的資產管理能力,并提供了配置化的資產服務研發和管理能力,可將數據資產快速服務業務、反哺業務。
原文鏈接:https://developer.aliyun.com/article/784376?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
以上是生活随笔為你收集整理的智能数据构建与管理平台Dataphin的前世今生:缘起的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Flink 在有赞的实践和应用
- 下一篇: 走近Quick Audience,了解消