當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop之Hadoop企业优化（HDFS小文件优化）

發布時間：2024/2/28 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop之Hadoop企业优化（HDFS小文件优化）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hadoop之Hadoop企業優化

合理設置reduce端的buffer：默認情況下，數據達到一個閾值的時候，buffer中的數據就會寫入磁盤，然后reduce會從磁盤中獲得所有的數據。也就是說，buffer和reduce是沒有直接關聯的，中間多個一個寫磁盤->讀磁盤的過程，既然有這個弊端，那么就可以通過參數來配置，使得buffer中的一部分數據可以直接輸送到reduce，從而減少IO開銷：mapred.job.reduce.input.buffer.percent，默認為0.0。當值大于0的時候，會保留指定比例的內存讀buffer中的數據直接拿給reduce使用。這樣一來，設置buffer需要內存，讀取數據需要內存，reduce計算也要內存，所以要根據作業的運行情況進行調整。

5. MapReduce優化方法之I/O傳輸

采用數據壓縮的方式，減少網絡IO的的時間。安裝Snappy和LZO壓縮編碼器。

使用SequenceFile二進制文件。

6. MapReduce優化方法之數據傾斜問題

數據傾斜現象
數據頻率傾斜——某一個區域的數據量要遠遠大于其他區域。
數據大小傾斜——部分記錄的大小遠遠大于平均值。

如何收集傾斜數據
在reduce方法中加入記錄map輸出鍵的詳細情況的功能。

public static final String MAX_VALUES = "skew.maxvalues"; private int maxValueThreshold; @Override public void configure(JobConf job) { maxValueThreshold = job.getInt(MAX_VALUES, 100); } @Override public void reduce(Text key, Iterator<Text> values,OutputCollector<Text, Text> output, Reporter reporter) throws IOException {int i = 0;while (values.hasNext()) {values.next();i++;}if (++i > maxValueThreshold) {log.info("Received " + i + " values for key " + key);} }

減少數據傾斜的方法

抽樣和范圍分區
可以通過對原始數據進行抽樣得到的結果集來預設分區邊界值。

自定義分區
基于輸出鍵的背景知識進行自定義分區。例如，如果map輸出鍵的單詞來源于一本書。且其中某幾個專業詞匯較多。那么就可以自定義分區將這這些專業詞匯發送給固定的一部分reduce實例。而將其他的都發送給剩余的reduce實例。

Combine
使用Combine可以大量地減小數據傾斜。在可能的情況下，combine的目的就是聚合并精簡數據。

采用Map Join，盡量避免Reduce Join。

7. MapReduce優化方法之常用的調優參數

資源相關參數

以下參數是在用戶自己的mr應用程序中配置就可以生效（mapred-default.xml）

配置參數參數說明

mapreduce.map.memory.mb	一個Map Task可使用的資源上限（單位:MB），默認為1024。如果Map Task實際使用的資源量超過該值，則會被強制殺死。
mapreduce.reduce.memory.mb	一個Reduce Task可使用的資源上限（單位:MB），默認為1024。如果Reduce Task實際使用的資源量超過該值，則會被強制殺死。
mapreduce.map.cpu.vcores	每個Map task可使用的最多cpu core數目，默認值: 1
mapreduce.reduce.cpu.vcores	每個Reduce task可使用的最多cpu core數目，默認值: 1
mapreduce.reduce.shuffle.parallelcopies	每個reduce去map中拿數據的并行數。默認值是5
mapreduce.reduce.shuffle.merge.percent	buffer中的數據達到多少比例開始寫入磁盤。默認值0.66
mapreduce.reduce.shuffle.input.buffer.percent	buffer大小占reduce可用內存的比例。默認值0.7
mapreduce.reduce.input.buffer.percent	指定多少比例的內存用來存放buffer中的數據，默認值是0.0

應該在yarn啟動之前就配置在服務器的配置文件中才能生效（yarn-default.xml）

配置參數參數說明

yarn.scheduler.minimum-allocation-mb	給應用程序container分配的最小內存，默認值：1024
yarn.scheduler.maximum-allocation-mb	給應用程序container分配的最大內存，默認值：8192
yarn.scheduler.minimum-allocation-vcores	每個container申請的最小CPU核數，默認值：1
yarn.scheduler.maximum-allocation-vcores	每個container申請的最大CPU核數，默認值：32
yarn.nodemanager.resource.memory-mb	給containers分配的最大物理內存，默認值：8192

shuffle性能優化的關鍵參數，應在yarn啟動之前就配置好（mapred-default.xml）

配置參數參數說明

mapreduce.task.io.sort.mb	shuffle的環形緩沖區大小，默認100m
mapreduce.map.sort.spill.percent	環形緩沖區溢出的閾值，默認80%

容錯相關參數(mapreduce性能優化)

配置參數參數說明

mapreduce.map.maxattempts	每個Map Task最大重試次數，一旦重試參數超過該值，則認為Map Task運行失敗，默認值：4。
mapreduce.reduce.maxattempts	每個Reduce Task最大重試次數，一旦重試參數超過該值，則認為Map Task運行失敗，默認值：4。
mapreduce.task.timeout	Task超時時間，經常需要設置的一個參數，該參數表達的意思為：如果一個task在一定時間內沒有任何進入，即不會讀取新的數據，也沒有輸出數據，則認為該task處于block狀態，可能是卡住了，也許永遠會卡住，為了防止因為用戶程序永遠block住不退出，則強制設置了一個該超時時間（單位毫秒），默認是600000。如果你的程序對每條輸入數據的處理時間過長（比如會訪問數據庫，通過網絡拉取數據等），建議將該參數調大，該參數過小常出現的錯誤提示是“AttemptID:attempt_14267829456721_123456_m_000224_0 Timed out after 300 secsContainer killed by the ApplicationMaster.”。

8. HDFS小文件優化方法

HDFS小文件弊端
HDFS上每個文件都要在namenode上建立一個索引，這個索引的大小約為150byte，這樣當小文件比較多的時候，就會產生很多的索引文件，一方面會大量占用namenode的內存空間，另一方面就是索引文件過大導致索引速度變慢。

解決方案

Hadoop Archive
是一個高效地將小文件放入HDFS塊中的文件存檔工具，它能夠將多個小文件打包成一個HAR文件，這樣就減少了namenode的內存使用。

Sequence file
sequence file由一系列的二進制key/value組成，如果key為文件名，value為文件內容，則可以將大批小文件合并成一個大文件。

CombineFileInputFormat
CombineFileInputFormat是一種新的inputformat，用于將多個文件合并成一個單獨的split，另外，它會考慮數據的存儲位置。

開啟JVM重用
對于大量小文件Job，可以開啟JVM重用會減少45%運行時間。
JVM重用理解：一個map運行一個jvm，重用的話，在一個map在jvm上運行完畢后，jvm繼續運行其他map。
具體設置：mapreduce.job.jvm.numtasks值在10-20之間。

總結

以上是生活随笔為你收集整理的Hadoop之Hadoop企业优化（HDFS小文件优化）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Hadoop之资源调度器与任务推测执行
下一篇： MarkDown页面添加锚点,跳转到本页

生活随笔

生活随笔

编程问答

Hadoop之Hadoop企业优化（HDFS小文件优化）

Hadoop之Hadoop企業優化

目錄

1. MapReduce 跑的慢的原因

2. MapReduce優化方法之數據輸入

3. MapReduce優化方法之Map階段

4. MapReduce優化方法之Reduce階段

5. MapReduce優化方法之I/O傳輸

6. MapReduce優化方法之數據傾斜問題

7. MapReduce優化方法之常用的調優參數

8. HDFS小文件優化方法

總結