spark专业术语解释
application:spark應用程序
指用戶編寫的spark代碼,包含了運行在driver端的代碼和運行在各個節點上的executor代碼
driver:驅動程序
程序中編寫的main方法和創建的sparkContext
sparkContext
spark運行環境,用來和clusterManager進行通信
clusterManager:資源管理器
對于standalone模式就是master
對于yarn模式就是resourceManager
worker
spark集群中的從節點,真正干活的,需要啟動executor進程去執行任務
executor
運行在worker節點的JVM進程,一個worker可以運行多個executor,因為可以提交多個應用
RDD
彈性分布式數據集,分布在各個worker上的叫做分區
shuffleDependency 寬依賴
父RDD的一個分區會被子RDD的多個分區所依賴
narroeDependency 窄依賴
父RDD的一個分區會被子RDD的一個分區依賴
DAG:有向五環圖
指RDD的轉化流程,從RDD的創建開始,到Action結束就會形成一個DAG
一個SPARK應用可能會有多個DAG,這取決于觸發了多少次action
JOB
按照DAG中各個stage階段進行執行就稱作一個job作業
stage
是DAGScheduler根據shuffle/寬依賴對DAG進行的階段劃分,劃分好的stage包含多個task組成的taskSet
TaskSet
一個stage中的多個task組成的集合
Task
RDD的一個分區在計算的時候就是一個Task
[外鏈圖片轉存失敗(img-xgJO3PQY-1567998168476)(en-resource://database/7925:0)]
總結
以上是生活随笔為你收集整理的spark专业术语解释的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: k8s1.23 使用cert-manag
- 下一篇: 阿里云,DNS(云解析),封装类