Flink DataSet API
生活随笔
收集整理的這篇文章主要介紹了
Flink DataSet API
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一.簡介
DataSet API,對靜態數據進行批處理操作,將靜態數據抽象成分布式數據集,用戶可以方便地使用Flink提供的各種操作符對分布式數據集進行處理。Flink先將接入數據(如可以通過讀取文本或從本地集合)來創建轉換成DataSet數據集,并行分布在集群的每個節點上;然后將DataSet數據集進行各種轉換操作(map,filter,union,group等)最后通過DataSink操作將結果數據集輸出到外部系統。
流程
- 獲得一個執行環境(ExecutionEnvironment)
- 加載/創建初始數據 (Source)
- 指定轉換算子操作數據(Transformation)
- 指定存放結果位置(Sink)
二.示例
廣播變量
flink 支持廣播變量,就是將數據廣播到具體taskManager上,數據存儲在內存中,這樣可以減緩大量的shuffle操作。
def setBroadcast(env: ExecutionEnvironment):總結
以上是生活随笔為你收集整理的Flink DataSet API的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux之ps命令--进程快照
- 下一篇: 双网卡teamviewer linux,