Hadoop之Hadoop数据压缩
Hadoop之Hadoop數據壓縮
目錄
1. 概述
壓縮技術能夠有效減少底層存儲系統(HDFS)讀寫字節數。壓縮提高了網絡帶寬和磁盤空間的效率。在Hadoop下,尤其是數據規模很大和工作負載密集的情況下,使用數據壓縮顯得非常重要。在這種情況下,I/O操作和網絡數據傳輸要花大量的時間。還有,Shuffle與Merge過程同樣也面臨著巨大的I/O壓力。
鑒于磁盤I/O和網絡帶寬是Hadoop的寶貴資源,數據壓縮對于節省資源、最小化磁盤I/O和網絡傳輸非常有幫助。不過,盡管壓縮與解壓操作的CPU開銷不高,其性能的提升和資源的節省并非沒有代價。
如果磁盤I/O和網絡帶寬影響了MapReduce作業性能,在任意MapReduce階段啟用壓縮都可以改善端到端處理時間并減少I/O和網絡流量。
壓縮Mapreduce的一種優化策略:通過壓縮編碼對Mapper或者Reducer的輸出進行壓縮,以減少磁盤IO,提高MR程序運行速度(但相應增加了cpu運算負擔)。
注意:壓縮特性運用得當能提高性能,但運用不當也可能降低性能。
基本原則:
2. MR支持的壓縮編碼
| Deflate | 是,直接使用 | Defalate | .deflate | 否 | 和文本處理一樣,不需要修改 |
| Gzip | 是,直接使用 | Defalate | .gz | 否 | 和文本處理一樣,不需要修改 |
| bzip2 | 是,直接使用 | bzip2 | .bz2 | 是 | 和文本處理一樣,不需要修改 |
| LZO | 否,需要安裝 | LZO | .lzo | 是 | 需要建索引,還需要指定輸入格式 |
| Snappy | 否,需要安裝 | Snappy | .snappy | 否 | 和文本處理一樣,不需要修改 |
| DEFLATE | org.apache.hadoop.io.compress.DefaultCodec |
| gzip | org.apache.hadoop.io.compress.GzipCodec |
| bzip2 | org.apache.hadoop.io.compress.BZip2Codec |
| LZO | com.hadoop.compression.lzo.LzopCodec |
| Snappy | org.apache.hadoop.io.compress.SnappyCodec |
| gzip | 8.3GB | 1.8GB | 17.5MB/s | 58MB/s |
| bzip2 | 8.3GB | 1.1GB | 2.4MB/s | 9.5MB/s |
| LZO | 8.3GB | 2.9GB | 49.3MB/s | 74.6MB/s |
http://google.github.io/snappy/
On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.
3. Gzip壓縮
4. Bzip2壓縮
5. Lzo壓縮
6. Snappy壓縮
7. 壓縮位置選擇
壓縮可以在MapReduce作用的任意階段啟用,如圖下所示
8. 壓縮參數配置
要在Hadoop中啟用壓縮,可以配置如下參數:
總結
以上是生活随笔為你收集整理的Hadoop之Hadoop数据压缩的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop之Join、计数器、数据清洗
- 下一篇: Hadoop之Yarn工作机制详解