Flink 实战:如何解决应用中的技术难题?
倒計時 5 天!4月25-26日,全球首個 Apache 頂級項目在線會議 Flink Forward 精華版即將重磅開啟。
Flink Forward 全球在線會議精華版均為中文直播,核心內容分為 Keynote 與社區投票的最感興趣的 talk 兩部分,由 Apache Flink 核心貢獻者們對原版英文 talk 進行翻譯及解說,您可直接免費在線觀看。本文將詳細介紹4月25日下午半場直播議程。
4/25 Flink Forward 直播下午場亮點
Talk 1
圓桌 | Keynote: Apache Flink - Completing Cloudera’s End to End Streaming Platform
今年 1 月,Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作為其流計算產品,Apache Flink PMC Chair Stephan 也回應:“此舉意義重大。”這意味著所有 CDH 發行版覆蓋的全球企業用戶都將能夠使用 Flink 進行流數據處理。
如今,集成 Flink 的 Cloudera Data Platform 有何表現,本次 Flink Forward,來自 Cloudera 的技術專家們將分享其端到端的流處理平臺詳細功能及技術細節。
分享嘉賓:
- Marton Balassi,Apache Flink PMC,流 API 的第一批貢獻者之一。
- Joe Witt,Cloudera 工程部副總裁,專注于 Cloudera Data Flow(CDF)產品。
解說嘉賓:
楊克特(魯尼),Apache Member,Apache Flink PMC,阿里巴巴高級技術專家。
■ Talk 2
圓桌 | Flink SQL 之 2020:舍我其誰
四年前,Apache Flink 社區開始添加 SQL 支持,以簡化和統一靜態和流式數據的處理。如今,Flink 在阿里巴巴、華為、Lyft、Uber、Yelp 和其他許多公司運行業務關鍵的批處理和流式 SQL 查詢。盡管社區在過去幾年取得了重大進展,但發展藍圖上仍有更遠大的目標,我們也在加快開發進度。
在過去的幾個月里,社區添加了一些重要的改進和擴展,包括對 DDL 的支持、類型系統和 Catalog 接口的重構,以及 Apache Hive 的集成。出于跟進 Flink SQL 及其生態系統所做的所有開發工作的考慮,本次會議將以一個系統的完整的示例重點介紹 2020 年 Flink SQL。基于實際的用例場景,我們將展示:
- 如何定義由各種存儲系統支持的表
- 如何使用流式 SQL 查詢解決常見問題
- 演示 Flink 與 Hive 的集成
- 演示如何定義和使用用戶定義的函數
并且,我們將分享即將推出的功能和未來展望。
分享嘉賓:
- Fabian Hueske,Apache Flink PMC。
- Timo Walther,Apache Flink PMC。
解說嘉賓:
伍翀(云邪),Apache Flink PMC,阿里巴巴技術專家。
■ Talk 3
圓桌 | Apache Flink 誤用之痛
分布式流處理正從一種在大數據邊緣的技術演變為一種關鍵的、賦能企業為其客戶提供高可擴展的實時服務的技術。Apache Flink 商業母公司 Ververica 以及 Flink 社區中的其他用戶都見證了這一發展。在與我們的用戶以及更廣泛的社區合作中,我們看到了一些比較成功的案例,同時也看到了一些問題。
在本次演講中,我將分享一些采用分布式流處理的趣聞軼事和經驗教訓,包括 Apache Flink 特有的以及跨框架的。通過本次分享,您將了解如何消除故障的發生,如何做到無憂無慮的看大屏。
分享嘉賓:Konstantin Knauf,Ververica Platform 產品負責人。
解說嘉賓:孫金城(金竹),Apache Member,Apache Flink PMC,阿里巴巴高級技術專家。
■ Talk 4
圓桌 | Netflix 的 Flink 自動擴縮容
Keystone 數據管道管理數千個 Flink 管道,工作負載可變。這些管道是簡單的數據路由,從 Kafka 讀取并寫入三個接收器之一。為了減少操作開銷,我們為這些路由程序實現了自動擴縮容。
自動擴縮容將我們的資源使用量減少了25%-45%(因地區和時間而異),極大減輕了負擔。本次 talk 將深入探討實現大規模簡單管道自動擴縮容的數學、算法和基礎設施細節并討論自動擴縮容復雜管道的未來工作。
分享嘉賓:Timothy Farkas,Netflix 軟件工程師。
解說嘉賓:呂文龍(龍三),阿里巴巴技術專家。
■ Talk 5
圓桌 | Uber :使用 Flink CEP 進行地理情形檢測的實踐
Uber 在復雜的物理世界中運作,其提供可靠服務的挑戰之一是實時檢測地理定位和動態的場景,例如空間熱點,需求/供應不平衡的街道等。由于 Uber 的全球規模龐大,街道和交通擁堵,因此這個問題很難解決。
為了解決這個問題,Uber 工程師建立了由 Apache Flink 和 CEP 庫提供支持的地理空間狀況檢測平臺。在本次演講中,Uber 的工程師將介紹如何利用 Apache Flink,并通過 CEP 模式匹配來推導地理空間語義以及在平臺搭建和采用的各種技術所涉及的挑戰。
分享嘉賓:Teng (Niel) Hu,Uber 軟件工程師。
解說嘉賓:付典,Apache Flink Committer,阿里巴巴技術專家。
■ Talk 6
演講 | A deep dive into Flink SQL
在過去的兩個大版本中(1.9 和 1.10),Apache Flink 社區花了很大的精力去改造架構,讓架構更加地流批統一。一個例子就是 Flink SQL 提供了在一套 API 下,多 SQL planner 的支持。本演講將首先討論這些舉動背后的動機,然后會深入 Flink SQL 介紹其內部的一些運行機制。
本次演講會介紹流批統一的架構,以及 Flink 如何將查詢翻譯成關系表達式,并利用 Calcite 優化他們,繼而生成高效的運行時代碼。除此之外,還會詳細地介紹查詢的生命周期,常見的一些優化是如何工作的,Flink 如何利用二進制數據格式作為基礎數據結構,以及某些特定算子是如何工作的。這將給聽眾帶來對 Flink SQL 內部機制更好的理解。
分享嘉賓:
- 楊克特(魯尼),Apache Member,Apache Flink PMC,阿里巴巴高級技術專家。
- 伍翀(云邪)Apache Flink PMC,阿里巴巴技術專家。
■ Talk 7
演講 | Flink's application at Didi
滴滴有著豐富的實時計算場景,Flink 已經廣泛應用于實時監控、數據通道、特征提取、實時數倉、在線業務等領域,我們還基于 Flink Table API 打造了 StreamSQL 產品,結合一站式開發平臺,降低了用戶使用成本,目前 StreamSQL 覆蓋率已超過 80%。目前,滴滴的實時計算任務已達 7000+,每日處理數據量超過 2 萬億。
分享嘉賓:薛康,現任滴滴技術專家,實時計算負責人。畢業于浙江大學,曾任百度高級研發工程師,對大數據生態建設有豐富經驗。
■ Talk 8
演講 | 終于等到你:PyFlink + Zeppelin
Flink 在其統一批處理和流處理的核心引擎方面取得了巨大的進展,但是用戶入門的門檻仍然很高,比如對于只熟悉 Python 和 SQL 的數據分析師和數據科學家,入門尤為困難。多年來,用戶要求在 Apache Flink 中提供內置且完善的 Python 支持,以便能夠使用他們熟悉的編程語言的同時利用 Flink 的獨特功能。
Apache Flink 的 1.9 版本添加了 Python Table API(也稱為 PyFlink);并且在 1.10 中增加了對原生 Python UDF(基于 Apache Beam 的可移植性框架)的支持。后續,我們還會不斷完善 PyFlink。下一個版本里我們將會支持定義 Python 的機器學習處理流程,它將使用戶能夠完全在 PyFlink 中實現復雜的機器學習應用程序。除此之外,我們還集成了 Flink 和 Zeppelin notebook,并且重新設計了 Zeppelin 中過時的 Flink 解釋器,使其適合以下 3 種主要的 Flink 場景:
通過 Flink 批處理 SQL+UDF+Zeppelin 的內置可視化功能進行批處理 ETL 和探索性數據分析;
通過 Flink 流處理 SQL+UDF+Zeppelin 的內置可視化功能進行流式 ETL 和流式數據分析;
通過 PyFlink+Alink 編寫機器學習處理流程。
分享嘉賓:
- 孫金城(金竹),Apache Member,Apache Flink PMC,阿里巴巴高級技術專家。
- 章劍鋒(簡鋒),Apache Member,Apache Zeppelin PMC,阿里巴巴高級技術專家。
■ Talk 9
演講 | Flink + AI Flow:讓 AI 易如反掌
目前,已經有很多項目幫助用戶構建他們的人工智能平臺,如 MLFlow、TFX、Metaflow、Sagemaker 等。這些項目大多集中在離線訓練和在線推理的場景上,而且其中一些僅在特定的引擎和平臺上可用。
在本次演講中,我們將介紹一個名為 AI Flow 的新項目,該項目既解決了在線和離線訓練過程,又不強依賴引擎和平臺,因此用戶可以在高度混合的環境中輕松地定義一個 AI 工作流。另一方面,作為一個統一的引擎,Flink 是少數能夠實現 AI Flow 中定義的所有語義的引擎之一。我們將演示用戶如何使用 AI Flow 與 Flink 一起定義一個生產級 AI 工作流。
分享嘉賓:秦江杰,Apache Flink PMC,阿里巴巴高級技術專家。
Flink Forward 全球在線會議中文精華版
最佳觀看方式
本次直播將在 Flink Forward 中文版大會官網進行,點擊「閱讀原文」或復制下方官網鏈接了解更多詳情,注冊登陸后即可預約直播觀看。屆時,社區將提前以短信通知的形式提醒大家參與。
大會官網直播預約:
https://developer.aliyun.com/topic/ffsf2020
預約成功后顯示如下:
完整版議程
Flink Forward 全球直播精華版共分為 Keynote 重點議題、Flink 最佳實踐、深度技術應用、社區生態四部分,形式上由北京、上海、杭州三地輪流直播,在這里您將通過多樣化場景的實踐案例了解 Flink 核心優勢及未來發展。
■ 直播時間:4月25-26日
■ 分享嘉賓:
- Apache Member、Flink PMC
- Apache Flink 核心貢獻者
- 大廠一線技術專家
■ 詳細議程:
(最終議題以實際為準)
4月25-26日,鎖定 Flink Forward 全球直播中文精華版!了解更多大會詳情,可釘釘掃描下方二維碼進群咨詢~
如果您對大會實時英文直播感興趣,點擊下方鏈接可了解 Flink Forward Virtual Conference 2020 大會完整版議程詳情及注冊預約!
https://www.flink-forward.org/sf-2020/conference-program
總結
以上是生活随笔為你收集整理的Flink 实战:如何解决应用中的技术难题?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 跟随弹幕停不下来?智慧文娱还有哪些新玩法
- 下一篇: 分享一下我的JAVA自学历程,加上我觉得