當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark _09资源调度和任务调度

發(fā)布時間：2024/2/28 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 Spark _09资源调度和任务调度小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

先說一下master啟動后發(fā)生了什么？

Spark資源調度和任務調度的流程：

啟動集群后，Worker節(jié)點會向Master節(jié)點匯報資源情況，Master掌握了集群資源情況。

當Spark提交一個Application后，根據(jù)RDD之間的依賴關系將Application形成一個DAG有向無環(huán)圖。

任務提交后，Spark會在Driver端創(chuàng)建兩個對象：DAGScheduler和TaskScheduler，DAGScheduler是任務調度的高層調度器，是一個對象。DAGScheduler的主要作用就是將DAG根據(jù)RDD之間的寬窄依賴關系劃分為一個個的Stage，然后將這些Stage以TaskSet的形式提交給TaskScheduler（TaskScheduler是任務調度的低層調度器，這里TaskSet其實就是一個集合，里面封裝的就是一個個的task任務,也就是stage中的并行度task任務），TaskSchedule會遍歷TaskSet集合，拿到每個task后會將task發(fā)送到計算節(jié)點Executor中去執(zhí)行（其實就是發(fā)送到Executor中的線程池ThreadPool去執(zhí)行）。

task在Executor線程池中的運行情況會向TaskScheduler反饋，當task執(zhí)行失敗時，則由TaskScheduler負責重試，將task重新發(fā)送給Executor去執(zhí)行，默認重試3次。如果重試3次依然失敗，那么這個task所在的stage就失敗了。stage失敗了則由DAGScheduler來負責重試，重新發(fā)送TaskSet到TaskSchdeuler，Stage默認重試4次。如果重試4次以后依然失敗，那么這個job就失敗了。job失敗了，Application就失敗了。

TaskScheduler不僅能重試失敗的task,還會重試straggling（落后，緩慢）task（也就是執(zhí)行速度比其他task慢太多的task）。如果有運行緩慢的task那么TaskScheduler會啟動一個新的task來與這個運行緩慢的task執(zhí)行相同的處理邏輯。兩個task哪個先執(zhí)行完，就以哪個task的執(zhí)行結果為準。這就是Spark的推測執(zhí)行機制。在Spark中推測執(zhí)行默認是關閉的。推測執(zhí)行可以通過spark.speculation屬性來配置。

注意：

對于ETL類型要入數(shù)據(jù)庫的業(yè)務要關閉推測執(zhí)行機制，這樣就不會有重復的數(shù)據(jù)入庫。
如果遇到數(shù)據(jù)傾斜的情況，開啟推測執(zhí)行則有可能導致一直會有task重新啟動處理相同的邏輯，任務可能一直處于處理不完的狀態(tài)。

圖解Spark資源調度和任務調度的流程

粗粒度資源申請和細粒度資源申請

粗粒度資源申請(Spark）

在Application執(zhí)行之前，將所有的資源申請完畢，當資源申請成功后，才會進行任務的調度，當所有的task執(zhí)行完成后，才會釋放這部分資源。

優(yōu)點：在Application執(zhí)行之前，所有的資源都申請完畢，每一個task直接使用資源就可以了，不需要task在執(zhí)行前自己去申請資源，task啟動就快了，task執(zhí)行快了，stage執(zhí)行就快了，job就快了，application執(zhí)行就快了。

缺點：直到最后一個task執(zhí)行完成才會釋放資源，集群的資源無法充分利用。

細粒度資源申請（MapReduce）

Application執(zhí)行之前不需要先去申請資源，而是直接執(zhí)行，讓job中的每一個task在執(zhí)行前自己去申請資源，task執(zhí)行完成就釋放資源。

優(yōu)點：集群的資源可以充分利用。

缺點：task自己去申請資源，task啟動變慢，Application的運行就相應的變慢了。

總結

以上是生活随笔為你收集整理的Spark _09资源调度和任务调度的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

资源
Spark

上一篇： Spark _10_补充部分算子【三】
下一篇：分布式文件系统之Tfs是什么？