深入解读:获得 2021 Forrester 全球云数仓卓越表现者的阿里云数据仓库
簡介: 阿里云在最新發布的 The Forrester Wave?: Cloud Data Warehouse, Q1 2021 全球云數據倉庫技術評比中進入卓越表現者象限,成為國內唯一入選廠商。本文針對 Forrester 的報告,結合阿里云的以 MaxCompute 為核心的云數倉產品,做一個詳細的技術解讀。
概述:
? ? ? ?2021年3月25日,全球權威分析機構 Forrester 發布 《The Forrester Wave?: Cloud Data Warehouse, Q1 2021》研究報告,阿里云憑借產品現有能力、產品戰略、市場表現三項優勢,進入 Forrester Wave 2021 Q1 云數據倉庫卓越表現者象限,成為入選此次評測的唯一中國廠商。
?
?本次 Forrester 針對入選的 13 家國際最重要的云數據倉庫服務商(見下表), 從產品、戰略、和市場表現三個維度,26個指標 60 多項評估細則進行了研究、分析和評分。最終報告顯示了每個提供商在每項的評比分數,幫助企業架構專業人員根據他們的需求選擇正確的廠商。作為讀者,也能從 Forrester 的這些評測項中理解、學習現代云數據倉庫的定義、應具備能力以及未來的發展趨勢。
? ? ? ?下面我們就針對 Forrester 的報告內容,結合阿里云 MaxCompute、DataWorks、AnalyticDB 幾款云數倉產品,對現代云數倉做一下全面的技術解讀。
技術解讀:
現代云數倉的內涵:Forrester 認為現在云數倉需要具備的幾個特性:
- 極致彈性:在分鐘級別內提供任意規模,能夠自動優化查詢
- 存算分離:按需獨立擴展計算和存儲等資源(存算分離)并能無感知自動升級。
- 為了滿足對更集中、實時和自助式分析日益增長的需求,云數倉供應商將繼續專注于與數據湖和對象存儲的原生集成。
- 通過自助服務,簡化大型復雜倉庫的訪問和管理。
- 能提供并行處理、壓縮、分區、索引、查詢優化和動態資源供應方面的高級功能。
- 最常見的云數倉應用場景包括客戶360°分析、基于AI/機器學習 ML 的分析、垂直領域和實時分析的場景。
?
| Forrester 評測領先項(得5分/滿分5分) | 給客戶帶來的價值 |
| | 客戶將數據湖(Hadoop、云對象存儲 OSS)的靈活性、生態豐富與云數據倉庫的企業級能力進行融合,可以通過 MaxCompute 湖倉一體方案,DataWorks 數據集成以及對豐富數據類型的支持,并通過 DataWorks 構建數據湖和數據倉庫融合的數據開發、管理和數據治理平臺。 |
| | 客戶能享受以下?MaxCompute 的 Share Everything 的架構設計帶來的如下好處: |
| | 數據安全無疑是現在企業數據應用的重中之重。MaxCompute 支持多租戶的使用場景,通過阿里云賬號認證體系對于用戶的每一個 HTTP 請求都會進行簽名認證,針對不同的用戶數據進行數據存儲隔離,用戶數據被離散存儲在分布式文件系統中。可以同時滿足多用戶協同、數據共享、數據保密和安全的需要,做到真正的多租戶資源隔離。同時在網絡隔離,鑒權認證,數據安全,傳輸、存儲加密,日志審計等。詳情參見安全白皮書 |
| | Forrester 從客戶得到認證:證實阿里云擁有一個經過驗證的全球技術服務和支持團隊,可以滿足當前和未來的增長需要,同時擁有最多的資源和專業知識來處理復雜的全球和本土云數倉的實施。客戶對阿里云云數倉的技術支持非常滿意。 ? 同時,MaxCompute 提供 Pay-as-you-go 計費模式,只對資源(存儲、服務器和服務)的使用收費。支持按存儲、大小、查詢和用戶數量粒度定價。可以分別為計算和存儲定價。Forrester 從客戶側證實阿里云有最好的計費模式和最好的性價比。 |
?
以下從技術角度闡述為什么阿里云數倉產品能夠支撐上面的滿分項:
1. 架構設計:
阿里云數據倉庫 MaxCompute 從設計之初采用了“Share Everything”的架構設計。按 Forrester 的說法,這是一個具有前瞻性(future-proof) 的技術架構。它引領了云數倉架構的趨勢,并提供了最佳的客戶靈活性和開箱即用的解決方案。同時支持 SQL、機器學習\深度學習、圖計算等多種計算模式。
除了支持第一方的計算模式外,一個關鍵區別是 MaxCompute 有一個開放的設計,第三方引擎(如Spark,Presto)也可以接入。在 2019年-2021年,MaxCompute 發展出了湖倉一體的架構設計,通過湖倉一體 MaxCompute 無縫集成云對象存儲和 Hadoop 生態。這些幫助我們在 Forrester 技術評比中,在性能、擴展性、數據湖集成 3 項取得最高分(5分),達到世界領先水平。
- 在性能項的評比中,MaxCompute 支撐了相比其它廠商更高每天作業總數
- 在擴展性的評比中,MaxCompute 提供最好的可伸縮性特性,包括:
? ? ? ? a) 可以對于任意規模的計算或存儲進行接近無限的擴展,且不需要中斷或停機支持
? ? ? ? b) 可以獨立、自動地擴展存儲和計算。可支持 EB 級別以上的數據規模。
- 在數據湖集成項評比中:通過湖倉一體架構,無縫集成對象存儲(OSS)湖,以及 Hadoop 生態,并通過 DataWorks 提供統一的數據開發、管理、治理平臺。
?
2. 實時性:
- 阿里云數倉通過 DataWorks 數據集成功能,支持三種實時數據集成方式:數據集成流式數據導入、對接 datachub、Kafka 等發布-訂閱子系統、 CDC 方式導入。
- 可以流式地將數據輸入到 MaxCompute 或 AnalyticsDB 中進行查詢。(或通過Flink 處理的實時 BI 場景)
- 支持數據服務場景和在線機器學習(Alink,流式算法包以及深度學習框架 TensorFlow)
3.高性能存儲
- AliORC:MaxCompute 采用與開源 ORC 兼容的列式存儲格式 AliORC,比開源 ORC 讀性能快 50%,同時支持 MaxCompute、機器學習引擎 PAI等。 MaxCompute 團隊也是開源 ORC 社區最大的貢獻者
- 自動存儲分層,通過算法支撐的 4 級自動存儲分級,提供更好的讀寫性能
4.企業級的安全性:
? ? ? MaxCompute 和 DataWorks 數據安全衛士可以發現和識別敏感數據,并支持靜態數據加密,支持tokenization,動態和靜態數據 Masking;通過數據質量和 Logview 檢查數據質量和漏洞評估,利用阿里云 ActionTrail 提供審計功能。同時數倉內部支持自主訪問控制,強制訪問控制 (labelSecurity),提供項目、表、行和列級的訪問控制。在合規方面支持全球主流的安全標準:ISO 27001, SOC1/2/3, FIPS-140, GxP (21 CFR Part 11), PCI等。詳細名單在在白皮書中均有描述。
? ? ? 同時,MaxCompute 除了傳統的通過認證和授權的方式共享數據外,我們還觀察到了隱私保護的數據共享,甚至是在不受信任的群體之間共享的趨勢。通常我們將這種共享需求稱為“數據可用不可見”。現在阿里云也正在投資這個領域以及包括基于差分隱私的計算和聯合計算在內的技術。
? ? ? 在本次 Forrester 技術評比中:云數倉 MaxCompute 和 DataWorks 的安全能力以及技術前瞻性,取得了最高分(5分),達到世界領先。
5.統一的數據開發、管理治理平臺 DataWorks:
? ? ? MaxCompute 有一個統一的數據部署、治理和管理平臺 DataWorks。它支持不同工作負載的數據集成、元數據開發。我們的數據管理可以進一步編排不同的工作負載。例如,客戶可以從數據集成、數據清理、特征工程、模型訓練、模型服務等方面構建完整的大數據和 AI 通道。
?
關于云數倉的發展趨勢:
? ? ? ?隨著 IoT 和 5G 技術的不斷成熟,設備產生的數據將遠超過與人相關的行為數據,同時越來越多的企業也將沉睡的數據湖中的數據喚醒,越來越多的角色也加入到數據分析、機器學習的領域中。這為云數據平臺帶來新的挑戰,云數倉需要:
?
總結:
? ? ? ?最后引用 Forrester 報告對阿里云數據倉庫的總結:阿里云數倉服務提供廣泛的基礎設施、平臺和分析服務,包括 MaxCompute、AnalyticDB 和 DataWorks 服務,以支持各種大規模數據倉庫客戶案例。雖然阿里云數據倉庫服務大部分部署在中國,但 MaxCompute、AnalyticDB 和 DataWorks 在全球 16個國家和地區提供服務,客戶涉及金融、互聯網、生物醫藥、能源、交通和媒體行業。阿里云的 MaxCompute、AnalyticDB 和 DataWorks提供實時和 EB 級的能力,以支持任何數據倉庫的需求。
?
最后是來自客戶對阿里云數倉產品的評價:
? ? ? 阿里云數倉供多種計算模型、機器學習能力、服務區域、技術支持、商業價值、工具和高端可擴展性。讓客戶在最常用的場景包括 BI 加速、基于AI/ML 的分析、數據倉庫現代化、數據科學以及實時和風險分析領域獲得最佳的應用體驗。
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的深入解读:获得 2021 Forrester 全球云数仓卓越表现者的阿里云数据仓库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 专访涯海:阿里云中间件是如何支撑双11的
- 下一篇: 秒懂云通信:通信圈黑话大盘点