hive 表存储大小_Hive中文件存储格式及大小比较测试
在hive中創建表是有如下一個語句
[ROW FORMAT row_format]
row_format 的類型有如下:
file_format:
: SEQUENCEFILE
| TEXTFILE -- (Default, depending on hive.default.fileformat configuration)
| RCFILE -- (Note: Available in Hive 0.6.0 and later)
| ORC -- (Note: Available in Hive 0.11.0 and later)
| PARQUET -- (Note: Available in Hive 0.13.0 and later)
| AVRO -- (Note: Available in Hive 0.14.0 and later)
| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname
默認是文本格式例如:
按照數據存儲方式分類
按照行存儲
SEQUENCEFILE
TEXTFILE
按照列存儲
RCFILE
ORC
PARQUET
說明:parquet目前已經是apache的頂級項目了,在hive,hbase,spark中都是經常使用的。
文件格式的壓縮比較
實際業務我們是按照列來分析數據及使用數據的。
1、創建文本表
2、加載數據
image.png
3、查看創建OCR文件的格式
4、創建ocr文件
5、把文件表中的數據插入到OCR類型的表中
6、創建parquet類型的表并插入數據
7、查看文件大小
原始文本文件的大小
orc文件大小
partquet文件大小
執行sql語句測試執行速度
總結
以上是生活随笔為你收集整理的hive 表存储大小_Hive中文件存储格式及大小比较测试的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: string java getbytes
- 下一篇: java hook 框架_hook框架-