大数据专家手把手教你打造实时数据湖
數(shù)據(jù)處理技術(shù)為各行各業(yè)的業(yè)務(wù)解決了海量存儲和分析的需求,但數(shù)據(jù)量的爆發(fā)式增長、數(shù)據(jù)類型的不斷豐富,對數(shù)據(jù)處理技術(shù)和時效性都提出了更高的要求,這使得通用計算引擎(如Spark、Flink)、交互式分析系統(tǒng)(如ClickHouse)、數(shù)據(jù)湖框架(如Iceberg)等技術(shù)快速發(fā)展。
作為專業(yè)的開發(fā)者社區(qū),DEEPNOVA致力于促進(jìn)技術(shù)交流、開拓技術(shù)視野、建立技術(shù)生態(tài),并積極擁抱開源社區(qū),針對新一代的數(shù)據(jù)湖、實時數(shù)倉等開源技術(shù)深入研究,并實現(xiàn)部分功能的優(yōu)化。
為了與開發(fā)者更好地進(jìn)行技術(shù)探討交流,4月16日 14:00—17:30,DEEPNOVA 聯(lián)合Iceberg社區(qū)共同推出“DEEPNOVA MEETUP Online”。此次活動主題為《基于 Iceberg 打造實時數(shù)據(jù)湖》,匯聚了DEEPNOVA社區(qū)專家團(tuán)力量,將帶領(lǐng)聽眾了解完整的Iceberg技術(shù)發(fā)展史及在國產(chǎn)化數(shù)據(jù)中的應(yīng)用與實踐,真正做到將優(yōu)質(zhì)技術(shù)內(nèi)容回饋社區(qū)。
1
核心內(nèi)容
1. 技術(shù)解讀:《Apache Iceberg過去、現(xiàn)狀及未來》
分享嘉賓:Apache Iceberg和HBase PMC成員 胡爭
內(nèi)容亮點(diǎn):Apache Iceberg作為一種開放的標(biāo)準(zhǔn)化數(shù)據(jù)湖表格式,已經(jīng)被國內(nèi)外眾多大廠選擇和應(yīng)用。近期Apache Iceberg計劃在AWS之上推出商業(yè)版的數(shù)據(jù)湖存儲服務(wù)。與此同時,Snowflake、AWS、Cloudera等公司紛紛發(fā)布Iceberg數(shù)據(jù)湖。事實證明,經(jīng)過幾年的發(fā)展,Apache Iceberg取得了飛速的發(fā)展和巨大的成功。本次分享內(nèi)容包括Iceberg開源歷程,以及當(dāng)下和未來重點(diǎn)發(fā)力的技術(shù)方向。
2. 技術(shù)實踐:《網(wǎng)易湖倉管理系統(tǒng)Arctic》
分享嘉賓:網(wǎng)易數(shù)據(jù)湖和實時計算團(tuán)隊負(fù)責(zé)人?馬進(jìn)
內(nèi)容亮點(diǎn):Arctic 是網(wǎng)易自研的基于 Iceberg 的湖倉管理系統(tǒng)。同時,網(wǎng)易通過Flink和Arctic構(gòu)建了流批一體的數(shù)據(jù)生產(chǎn)鏈路,實時離線統(tǒng)一的數(shù)倉。在 Iceberg 基礎(chǔ)之上,Arctic具有支持主鍵、結(jié)構(gòu)自優(yōu)化、數(shù)據(jù)一致性、實時訂閱和實時join等特性。本次分享將主要介紹 Arctic 的核心設(shè)計思路。
3. 技術(shù)實踐:《FastData DLink 對Iceberg索引的優(yōu)化與實踐》
分享嘉賓:滴普科技存儲引擎部總監(jiān)?張敢
內(nèi)容亮點(diǎn):Z-Order是一種可以將多維數(shù)據(jù)壓縮到一維的技術(shù),在時空索引以及圖像方面使用較廣,對多字段進(jìn)行排序,對原始數(shù)據(jù)重新布局, 減少不必要的I/O,進(jìn)而提升查詢速度。基于Iceberg 社區(qū)提出的主鍵去重方案,DEEPNOVA 社區(qū)又利用 BloomFilter 進(jìn)行了優(yōu)化,對 eq-delete 文件進(jìn)行過濾,減少內(nèi)存占用,提升小文件合并效率。本次分享將主要解讀FastData在索引技術(shù)上的優(yōu)化能力。
4. 技術(shù)實踐:《FastData DLink基于Iceberg 構(gòu)建實時數(shù)據(jù)湖的優(yōu)化與實踐》
分享嘉賓:滴普科技數(shù)據(jù)庫內(nèi)核開發(fā)工程師?簡勇華
內(nèi)容亮點(diǎn):Iceberg CDC能力是支持構(gòu)建實時數(shù)倉的核心能力。DEEPNOVA 社區(qū)對 Iceberg CDC 功能進(jìn)行了完整實現(xiàn),并實現(xiàn)Hive歷史數(shù)據(jù)快速遷移入湖,對社區(qū)PR 生成元數(shù)據(jù)的方式進(jìn)行了并行優(yōu)化,提升數(shù)倍的遷移性能。本次分享將圍繞如何構(gòu)建實時數(shù)倉,展示FastData的技術(shù)優(yōu)勢。
聽眾收益:
1. 了解Apache Iceberg的架構(gòu)原理、特性及應(yīng)用場景
2. 基于Iceberg實現(xiàn)不同功能的技術(shù)優(yōu)化能力及其業(yè)務(wù)價值
3. 開放的技術(shù)交流社區(qū),與資深技術(shù)專家共同探討湖倉技術(shù)
我們堅信技術(shù)的前進(jìn)一定是無數(shù)技術(shù)從業(yè)者一起努力的結(jié)果,也衷心希望DEEPNOVA社區(qū)能成為技術(shù)愛好者們的學(xué)習(xí)交流平臺,借助更多人的力量將社區(qū)建設(shè)得更加完善。我們也將秉持開放、共享的社區(qū)精神,通過更多的技術(shù)分享、直播活動等方式回饋社區(qū),讓數(shù)字技術(shù)為世界帶來無限可能。
歡迎掃碼觀看直播,轉(zhuǎn)發(fā)分享直播間邀約榜前三名,還將擁有DEEPNOVA專屬禮盒。
?Trino分析引擎如何在數(shù)據(jù)湖上進(jìn)行極速分析?
實時分析型數(shù)據(jù)庫DLink支持Iceberg維度表Lookup join
如何利用湖倉一體架構(gòu)處理多模數(shù)據(jù)的存儲和分析?
分析型數(shù)據(jù)庫FastData for DLink有何優(yōu)勢?
成功案例
先進(jìn)制造? ??
重慶機(jī)電?|九洲電器?|?科倫藥業(yè)
政務(wù)雙碳?? ?
智慧龍華?|?攀枝花東區(qū)|?深智城
能源出行????
長安新能源?|?華勝集團(tuán)
消費(fèi)流通????
百麗國際?|?秀域集團(tuán)?|?乖寶寵物
商業(yè)綜合? ??
廣州城投?|?新華聯(lián)?|?華發(fā)股份
智慧文旅? ??
拈花灣文旅?|?大橫琴泛旅游
更多行業(yè)? ??
新建元集團(tuán)?|?特驅(qū)農(nóng)牧
點(diǎn)擊下方閱讀原文,解鎖活動詳情
總結(jié)
以上是生活随笔為你收集整理的大数据专家手把手教你打造实时数据湖的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 需求阶段如何书写Use Case
- 下一篇: 金三银四产品人跳槽指南:这9本书帮你搞定