EMR on ACK 全新发布,助力企业高效构建大数据平台
簡介:?阿里云 EMR on ACK 為用戶提供了全新的構(gòu)建大數(shù)據(jù)平臺(tái)的方式,用戶可以將開源大數(shù)據(jù)服務(wù)部署在阿里云容器服務(wù)(ACK)上。利用 ACK 在服務(wù)部署和對高性能可伸縮的容器應(yīng)用管理的能力優(yōu)勢,用戶只需要專注在大數(shù)據(jù)作業(yè)本身。用戶可以便捷地將 Spark、Presto、Flink 作業(yè)執(zhí)行在 ACK 集群上,100%兼容開源,性能優(yōu)于開源。
一、背景介紹
技術(shù)趨勢 ?
- 存儲(chǔ)與計(jì)算分離,向云原生演進(jìn)
- 在線業(yè)務(wù)、AI、大數(shù)據(jù)統(tǒng)一接入 ACK 集群,錯(cuò)峰調(diào)度,離線在線混部,提升機(jī)器利用率
- 統(tǒng)一運(yùn)維入口,統(tǒng)一運(yùn)維工具鏈,統(tǒng)一監(jiān)控體系
- 以集群為中心->以作業(yè)為中心
- 多版本支持,例如可以同時(shí)跑 Spark2.x、Spark3.x
云原生面臨挑戰(zhàn)
- 計(jì)算與存儲(chǔ)分離:如何構(gòu)建以對象存儲(chǔ) OSS 為底座的 HCFS 文件系統(tǒng)
? 需要完全兼容現(xiàn)有的 HDFS
? 性能對標(biāo) HDFS,成本降低
- 計(jì)算引擎 shuffle 數(shù)據(jù)存算分離:如何解決 ACK 混合異構(gòu)機(jī)型
? 異構(gòu)機(jī)型沒有本地盤
? 社區(qū)[ Spark-25299]討論,支持 Spark 動(dòng)態(tài)資源,成為業(yè)界共識(shí)
- ACK 調(diào)度能力:如何解決調(diào)度性能瓶頸
? 性能對標(biāo) Yarn
? 多級(jí)隊(duì)列管理
- 錯(cuò)峰調(diào)度
? 借助 K8s 操作系統(tǒng)能力,編排組織各種業(yè)務(wù)的波峰波谷
EMR on ACK 優(yōu)勢
- Remote Shuffle Service 提供中間 shuffle 數(shù)據(jù)的存儲(chǔ)計(jì)算分離方案
? 可以使計(jì)算節(jié)點(diǎn)無需本地盤和云盤
? 支持打開 Spark 動(dòng)態(tài)資源功能,Spark-25299 終極方案
- JindoFS 針對 OSS 存儲(chǔ)提供湖加速解決方案
? Block 模式1TB TPCDS 場景下有15%以上的性能提升
- 調(diào)度層面支持 Scheduler Framework V2
? 調(diào)度性能比社區(qū)提升3x以上
? 提供多級(jí)隊(duì)列管理
- 引擎能力增強(qiáng)
? 10TB TPCDS Benchmark 場景下,EMR Spark 比社區(qū)有3x性能提升
? Hudi、DeltaLake 比社區(qū)功能性能增強(qiáng)
- 完整的錯(cuò)峰調(diào)度方案
二、EMR 容器化架構(gòu)
EMR on ACK 架構(gòu)
- 輕量化管控,對接已有數(shù)據(jù)平臺(tái)
- 通過數(shù)據(jù)開發(fā)集群/調(diào)度平臺(tái)提交到不同的執(zhí)行平臺(tái)
- 錯(cuò)峰調(diào)度,根據(jù)業(yè)務(wù)高峰低峰策略調(diào)整
- 云原生數(shù)據(jù)湖架構(gòu),ACK 彈性擴(kuò)縮容能力強(qiáng)
- ACK 管理異構(gòu)機(jī)型集群,靈活性好
三、產(chǎn)品介紹
產(chǎn)品首頁
參考鏈接:https://www.aliyun.com/product/emapreduce
EMR on ACK Beta 版,前往體驗(yàn)>>
新建集群
- 地域:目前開放杭州、上海、北京、深圳等地域(持續(xù)開放中)
- 集群類型:Spark 、Shuffle Service、Presto
- Spark — 通用的分布式大數(shù)據(jù)處理引擎
? ? ?? 提供了 ETL、離線批處理、數(shù)據(jù)建模等能力
- Shuffle Service — 針對 EMR 計(jì)算引擎提供優(yōu)化的 Shuffle 服務(wù)
? 解決 Kubernetes 下對本地盤的依賴問題
? 解決大規(guī)模計(jì)算集群的網(wǎng)絡(luò)和磁盤的 IO 瓶頸
? 支持計(jì)算與存儲(chǔ)分離的架構(gòu),可服務(wù)多個(gè) EMR 集群
- Presto — 基于內(nèi)存的分布式 SQL 交互式查詢引擎
? ? ?? 支持多種數(shù)據(jù)源
? 適合 PB 級(jí)海量數(shù)據(jù)的復(fù)雜分析,以及跨數(shù)據(jù)源的查詢
- 組件版本:Spark (3.1.1)
- 專屬節(jié)點(diǎn):
? 現(xiàn)有 ACK 集群,share 部分節(jié)點(diǎn)給到 EMR
? 新建 ACK 集群,可選擇整個(gè)集群為專屬節(jié)點(diǎn)
- OSS Bucket:用于存儲(chǔ)作業(yè)、日志、jar 包等信息
集群管理
- 集群 ID/名稱:點(diǎn)擊進(jìn)入作業(yè)管理
- 集群狀態(tài):檢測集群是否可用
- 所屬 ACK 集群:可關(guān)聯(lián)到現(xiàn)有 ACK 集群
- 配置:Spark 作業(yè)配置
- 釋放:釋放空間
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的EMR on ACK 全新发布,助力企业高效构建大数据平台的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: QUIC技术创新 让视频和图片分发再提速
- 下一篇: 双11特刊 | 云数据库RDS如何顺滑应