當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop–Task 相关

發(fā)布時間：2025/6/17 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop–Task 相关小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在MapReduce計算框架中，一個應(yīng)用程序被劃分為Map和Reduce兩個計算階段。他們分別由一個或多個Map Task 和Reduce Task組成。

Map Task：處理輸入數(shù)據(jù)集合中的一片數(shù)據(jù)，并將產(chǎn)生的若干個數(shù)據(jù)片段寫到本地磁盤。

按照用戶提供的InputFormat將對應(yīng)的InputSpilt解析成一系列的key/value，并以此交給用戶編寫的map()函數(shù)處理。

按照指定的Partitioner對數(shù)據(jù)分片，以確定每個key/value將交給哪個Reducer Task處理。

將數(shù)據(jù)交給用戶定義的Combiner進行以此本地規(guī)約(用戶沒有定義則直接跳過)

將處理結(jié)果保存到本地磁盤。

Reduce Task: 從每個Map Task上遠(yuǎn)程拷貝相應(yīng)的數(shù)據(jù)片段，經(jīng)過分組聚集和規(guī)約后，將結(jié)果寫到HDFS上作為最終結(jié)果。

通過HTTP請求從各個已經(jīng)運行完成的Map Task上拷貝對應(yīng)的數(shù)據(jù)分片。

待數(shù)據(jù)拷貝完成，以key為關(guān)鍵字對所有數(shù)據(jù)進行排序。通過排序，key相同的記錄聚集在一起形成若干分組。

將每組數(shù)據(jù)交給用戶編寫的reduce()函數(shù)處理。

將結(jié)果直接寫到HSFS上面作為最終輸出結(jié)果。

IFile

??? IFile是一種支持行壓縮的存儲格式。為了減少MapTask寫入磁盤的數(shù)據(jù)量和跨網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量，IFile支持按行壓縮數(shù)據(jù)記錄。當(dāng)前Hadoop提供了ZLib(默認(rèn)壓縮方式）、BZip2等壓縮算法。

??? IFile文件格式：<key-len, value-len, key, value>

排序

???? 排序是MapReduce框架中最重要的從a組之一。Map Task和Reduce Task均會對數(shù)據(jù)(按照key)進行排序。該操作屬于Hadoop的默認(rèn)行為。任何應(yīng)用程序均會被排序，而不管邏輯上是否需要。

???? 對于Map Task，它會將處理的結(jié)果暫時存放到一個緩沖區(qū)，當(dāng)緩沖區(qū)使用率達到一定閾值后，在對緩沖區(qū)中的數(shù)據(jù)進行以此排序。并將這些有序集合以IFile文件的形式寫到磁盤上。而當(dāng)數(shù)據(jù)處理完畢后，它會對磁盤上所有文件進行一次合并。已將這些文件形成一個大的有序文件。

???? 對于Reduce Task，它從每個Map Task上面遠(yuǎn)程拷貝相應(yīng)的數(shù)據(jù)文件，如果文件大小超過一定閾值，則放到磁盤，否則放到內(nèi)存。如果磁盤上文件數(shù)目達到一定閾值，則進行一次合并以生成一個更大文件；如果內(nèi)存中文件大小或者數(shù)目超過一定閾值，則進行一次合并后寫到磁盤上。當(dāng)所有數(shù)據(jù)拷貝完畢后，Reduce Task統(tǒng)一對內(nèi)存和磁盤上的所有數(shù)據(jù)進行一次合并。

???? Map Task和Reduce Task的緩沖區(qū)數(shù)據(jù)合并使用Hadoop自己實現(xiàn)的快排算法，而IFile文件合并則使用了基于堆實現(xiàn)的優(yōu)先隊列。

快排

樞軸選擇：使用序列的首尾和中間元素的中位數(shù)作為樞軸

子序列劃分：兩個索引i，j分別從左右兩端掃描，i掃描到大于等于樞軸的等值，j掃描到小于等于樞軸的元素停止，然后交換兩個元素。重復(fù)直到相遇

相同元素的優(yōu)化：每次劃分子序列，將于樞軸相同的元素集中存放到中間位置，讓它們不再參與后續(xù)的遞歸處理過程。即序列劃分三部分：小于樞軸、等于樞軸、大于樞軸

減少遞歸次數(shù)：當(dāng)子序列中元素數(shù)目小于13時，直接使用插入排序算法，不再遞歸。

優(yōu)先隊列

? 文件歸并由類Merger完成。其采用多輪遞歸合并的方式。每輪選取最小的前io.sort.factor（默認(rèn)是10，用戶可配置)個文件進行合并。并將產(chǎn)生的文件重新加入帶合并列表中。知道剩下的文件數(shù)目小于io.sort.factor個，此時，他會返回指向由這些文件組成的小頂堆的迭代器。

Reporter

?? Reporter用來完成Task周期性的向TaskTracker匯報最新進度和計數(shù)器值。TaskReporter類實現(xiàn)了Reporter接口，并以線程形式啟動。其匯報的信息中包含兩部分：

任務(wù)執(zhí)行進度

Map Task 而言：使用已讀取數(shù)據(jù)量占數(shù)據(jù)總量的比例作為任務(wù)當(dāng)前進度值

Reduce Task：其可以分解為三個階段： Shuffle、Sort、Reduce。每個階段占任務(wù)總進度的1/3.考慮在Shuttle階段，Reduce Task需要從M(M為Map Task數(shù)目)個Map Task上讀取數(shù)據(jù)。因此，可被分解為M個階段，每個階段占Shuffle進度的1/M。

任務(wù)計數(shù)器值：是由Hadoop提供的，用于實現(xiàn)跟蹤任務(wù)運行進度的全局技術(shù)功能。任務(wù)計數(shù)器由兩部分組成<name, value>.計數(shù)器以組為單位進行管理，一個計數(shù)器屬于一個計數(shù)器組。Hadoop規(guī)定一個作業(yè)最多包含120個計數(shù)器(可通過參數(shù)mapreduce.job.counters.limit設(shè)定)，50個計數(shù)器組。

轉(zhuǎn)載于:https://www.cnblogs.com/lovemdx/p/3236182.html

總結(jié)

以上是生活随笔為你收集整理的Hadoop–Task 相关的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

task
Hadoop

上一篇：同步复位和异步复位
下一篇： java的Access restrict