當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

2021年大数据Hive（九）：Hive的数据压缩

發布時間：2023/11/28 生活经验 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021年大数据Hive（九）：Hive的数据压缩小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

全網最詳細的大數據Hive文章系列，強烈建議收藏加關注！

新文章都已經列出歷史文章目錄，幫助大家回顧前面的知識重點。

系列歷史文章

前言

Hive的數據壓縮

一、MR支持的壓縮編碼

二、壓縮配置參數

三、開啟Map輸出階段壓縮

1、開啟hive中間傳輸數據壓縮功能

2、開啟mapreduce中map輸出壓縮功能

3、設置mapreduce中map輸出數據的壓縮方式

4、執行查詢語句

四、開啟Reduce輸出階段壓縮

1、開啟hive最終輸出數據壓縮功能

2、開啟mapreduce最終輸出數據壓縮

3、設置mapreduce最終數據輸出壓縮方式

4、設置mapreduce最終數據輸出壓縮為塊壓縮

5、測試一下輸出結果是否是壓縮文件

系列歷史文章

2021年大數據Hive（十二）：Hive綜合案例！！！

2021年大數據Hive（十一）：Hive調優

2021年大數據Hive（十）：Hive的數據存儲格式

2021年大數據Hive（九）：Hive的數據壓縮

2021年大數據Hive（八）：Hive自定義函數

2021年大數據Hive（七）：Hive的開窗函數

2021年大數據Hive（六）：Hive的表生成函數

2021年大數據Hive（五）：Hive的內置函數（數學、字符串、日期、條件、轉換、行轉列）

2021年大數據Hive（四）：Hive查詢語法

2021年大數據Hive（三）：手把手教你如何吃透Hive數據庫和表操作（學會秒變數倉大佬）

2021年大數據Hive（二）：Hive的三種安裝模式和MySQL搭配使用

2021年大數據Hive（一）：Hive基本概念

前言

?2021大數據領域優質創作博客，帶你從入門到精通，該博客每天更新，逐漸完善大數據各個知識體系的文章，幫助大家更高效學習。

有對大數據感興趣的可以關注微信公眾號：三幫大數據

Hive的數據壓縮

在實際工作當中，hive當中處理的數據，一般都需要經過壓縮，可以使用壓縮來節省我們的MR處理的網絡帶寬

一、MR支持的壓縮編碼

壓縮格式	工具	算法	文件擴展名	是否可切分
DEFAULT	無	DEFAULT	.deflate	否
Gzip	gzip	DEFAULT	.gz	否
bzip2	bzip2	bzip2	.bz2	是
LZO	lzop	LZO	.lzo	否
LZ4	無	LZ4	.lz4	否
Snappy	無	Snappy	.snappy	否

為了支持多種壓縮/解壓縮算法，Hadoop引入了編碼/解碼器，如下表所示

壓縮格式	對應的編碼/解碼器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
LZ4	org.apache.hadoop.io.compress.Lz4Codec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

壓縮性能的比較

壓縮算法	原始文件大小	壓縮文件大小	壓縮速度	解壓速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

On a single core of a Core i7 processor in 64-bit mode, Snappy compresses?at about 250 MB/sec or more and?decompresses?at about?500 MB/sec or more.