贾扬清谈云原生-让数据湖加速迈入3.0时代
簡介:?摘要:2021云棲大會云原生企業級數據湖專場,阿里云智能高級研究員賈揚清為我們帶來《云原生--讓數據湖加速邁入3.0時代》的分享。
摘要:2021云棲大會云原生企業級數據湖專場,阿里云智能高級研究員賈揚清為我們帶來《云原生--讓數據湖加速邁入3.0時代》的分享。
本文主要從存儲服務化、計算多元化、管理智能化等方面講述了數據湖的演講歷程。
以下是精彩視頻內容整理:
數據湖演進歷程
數據湖1.0 ? 2019年以前
- 存儲:存算分離,冷熱數據分層,以Hadoop生態為主
- 管理:無官方管理服務,用戶自行處理擴縮容、磁盤運維等管理工作
- 計算:初步實現計算云原生化,但缺乏計算的彈性以及多樣性
數據湖的概念想必大家都不陌生。2019年以前提到數據湖概念時,一定程度上是基于存算分離這樣一個樸素的想法,能夠彈性的做存儲規模的擴縮,根據計算需求靈活配置計算資源。在那個時候,存儲基本可以服務化標準化,計算也可以和存儲分開規劃,如何更好管理上層數據和計算彈性則相對比較缺乏。
數據湖2.0 ? 2019~2021
- 存儲:以對象存儲為中心,統一存儲承載生產業務,大規模、高性能
- 管理:提供面向OSS/EMR等垂直湖管理系統,缺乏產品間聯動
- 計算:計算彈性化,用戶根據負載進行計算伸縮
基于數據湖1.0的基礎,我們進一步構建了很多能力。尤其在存儲標準化后,像阿里云對象存儲OSS,開始成為一個數據湖非常標準的底層的存儲解決方案,它本身的穩定性、規模和性能,為數據湖底座提供了一個很好的基礎??梢栽谏厦孀鲆恍﹩渭?#xff0c;比如拉起 EMR 這樣一個集群,進行一些數據的管理、控制,不過還是一個比較初步的狀態。只要有計算集群,就可以在計算集群里引用數據湖的數據,對元數據進行管理。同時,因為云原生這樣的方式,更加彈性的計算也變得更有可能。在存儲、計算、管理三個指標中,存儲是走的最快的;計算多元化是走的比較好的;管理也在逐漸構建。
數據湖3.0 ? 2021
- 存儲:以對象存儲為中心,構建企業級數據、全兼容、多協議、統一元數據
- 管理:面向湖存儲+計算的一站式湖構建和管理,做到智能“建湖”和“治湖”
- 計算:計算不僅云原生化、彈性化,同時實時化、AI化、生態化
在提到數據湖3.0的時候,基本上的思考是在存儲、計算、管理這三個指標上面都有進一步的發展。存儲,需要做更多的兼容性、更好的一致性,以及更好的持久性。更加重要的一點是在管理上,數據湖不光是百川匯聚,扔在那的一堆數據,而是能夠井井有條的管理。湖上存儲了哪些數據、這些數據在如何被使用、使用的頻率如何、數據的質量又怎么樣,這些在傳統的數據倉庫領域經常考慮到的問題在數據湖中也同樣存在。湖也應該有像倉一樣的完整成熟的管理體系。至于計算,不僅是計算體量的彈性,更是一個計算的多樣化的過程。以前我們更多的在做ETL,現在則更多的開始做實時的計算、AI的計算,以及非常多的生態計算引擎和湖的結合。以上是數據湖3.0需要解的一些核心問題。
存儲從「成本中心」到「價值中心」的升級
- 平滑上云--100% 兼容 HDFS,存量數據平滑遷移上云
- 降低運維難度--全服務化形態,降低運維難度
- 極致性價比--冷熱分層,單桶萬億級文件數量,成本降低 90%
- 加速 AI 創新--數據按需流動,大幅降低計算等待時間,高效管理
基于對象存儲OSS這樣一個底層的存儲,我們實現了非常平滑的遷移上云,降低了運維、管理等難度。一個統一且標準的存儲狀態使得很多技術可以沉淀。比如冷熱分層,在用戶不需要關心的情況下,自動依賴OSS的冷存和熱存的分配,以此降低存儲成本。包括在AI領域,很多時候大家可能對于不同的存儲形態不熟悉,更喜歡像 CPFS 這樣傳統的文件系統。CPFS 跟 OSS 的打通,在存儲上提供了很多新功能,可以解決用戶的遷移煩惱。
「建湖」 「管湖」 「治湖」的智能化升級
- 數據智能入湖
多數據源一鍵入湖,支持離線/實時入湖方式
- 數據計算的元數據服務化
服務化元數據,滿足單表百萬分區元數據管理
- 統一的數據權限管理
對接多引擎,支持庫/表/列等細粒度數據訪問控制
- 湖倉一體數據治理
數據湖與數據倉庫的統一數據開發與全鏈路數據治理
我們花了一年多時間構建了一個新的產品,阿里云數據湖構建(Data Lake Formation,DLF),在建湖、管湖、治湖方面,更好的管理數據湖。首先關注的是數據如何更加標準化體系化的入湖,不光是寫一堆的腳本,還要更好的管理起來,以更簡易的方式將多元的數據匯聚到數據湖里。第二個就是元數據服務。在數倉里,元數據是和數倉整個建在一起的。構建一個數據湖時,存儲放在OSS里面,針對元數據的管理,尤其是元數據的服務跟更加上層的例如 BI 之類的工具的組合,DLF 提供了一個更加服務化、標準化的元數據管理這一層。元數據所帶來的數據權限、數據質量等更好的治理了這一層。而Dataworks 跟數據湖的打通,也使我們可以做更好的數據治理。在一個企業里面,數據形態非常多,有些在數據湖里,有些在倉庫里。大家或許在業界聽到過 LakeHouse 這樣一個詞語。很多時候是說,在湖上面來建立一個倉庫。其實一個企業的需求,不光是從0開始在湖上建倉,因為有很多傳統的數據倉庫的存在,包括很多時候井井有條的像excel表一樣的數據倉庫其實還是有用的。所以如何把湖的靈活性跟倉的結構更好的聯系在一起,支撐了我們在治湖、管湖、建湖的時候用到的一些工具和方法論。
「單一計算」到「全場景智能計算」的升級
- 實時數據湖
實現實時數據入湖,分鐘級別實時更新
- 湖倉一體
打通湖與倉,提升企業數據業務能力,一份數據智能流動
- 數據科學
從BI到AI場景,支持深度學習和異構計算框架
- 計算引擎多元生態
支持Databricks、Cloudera 等多元化計算分析能力
數據湖如何更好的實時化?通過像 Hudi 這樣的開源組件來實現實時的數據湖的功能。如何更好地結合數據科學的需求?比如在AI這個領域,大家經常使用到一些數據科學家們比較喜歡的基于python、基于編程的一些開發的體驗,怎樣把它和底層的數據湖存儲、管理的這套體系結合起來?怎樣把像 Databricks,Cloudera 這種非常成熟的企業級的生態產品和我們底層的數據湖結合起來?這些是我們在過去一年中,在不斷的構建的一些企業級的能力或者說讓我們的開發者們、工程師們更加容易地使用數據湖的一些能力。怎樣做存儲?怎樣來做管理?怎樣做更多樣化的計算?這些都是數據湖發展到3.0階段,比較核心的點。
萬千企業和阿里云一起開啟數據湖 3.0最佳實踐
- 6000+數據湖客戶
- EB 級數據湖容量
- 分鐘級數據實時入湖
- TB 級但數據湖吞吐
在阿里云上,有非常多的企業在使用數據湖。在上面用到了非常大體量的存儲和非常多樣化的計算。在使用過程中,一起打磨了這樣一個產品。從19年開始至今,數據湖的不斷迭代離不開合作伙伴的信任。感謝大家。
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。?
總結
以上是生活随笔為你收集整理的贾扬清谈云原生-让数据湖加速迈入3.0时代的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全网首发|阿里资深技术专家数仓调优经验分
- 下一篇: Spring官方RSocket Brok