當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hive和HBase

發布時間：2025/3/21 编程问答 8 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hive和HBase 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、兩者的定義

hive是基于Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，并提供簡單的SQL查詢功能，它的本質就是將SQL語句轉換為MapReduce任務進行運行。

HBase是一個高可靠性、高性能、面向列、可伸縮的一個開源的非關系型分布式數據庫（NoSQL），它參考了谷歌的BigTable建模，實現的編程語言為Java。

489034603

二、兩者的特點

Hive幫助熟悉SQL的人運行MapReduce任務。因為它是JDBC兼容的，同時，它也能夠和現存的SQL工具整合在一起。運行Hive查詢會花費很長時間，因為它會默認表中所有的數據。分區允許在數據集上運行過濾查詢，這些數據集存儲在不同的文件夾內，查詢的時候只指定文件夾（分區）中的數據。

HBase通過存儲key/value來工作。它支持四種主要的操作：增加或者更新行，查看一個范圍內的cell，獲取指定的行，刪除指定的行、列或者是列的版本。版本信息用來獲取歷史數據（每一行的歷史數據可以被刪除，然后通過Hbase compactions就可以釋放出空間）。雖然HBase包括表格，但是schema僅僅被表格和列簇所要求，列不需要schema。

489034603

三、兩者的區別（加圖片下面的數字進學習交流羣）

1） Hive中的表是純邏輯表，就只是表的定義等，即表的元數據。Hive本身不存儲數據，它完全依賴HDFS和MapReduce。這樣就可以將結構化的數據文件映射為為一張數據庫表，并提供完整的SQL查詢功能，并將SQL語句最終轉換為MapReduce任務進行運行。而HBase表是物理表，適合存放非結構化的數據。

2） Hive是基于MapReduce來處理數據,而MapReduce處理數據是基于行的模式；HBase處理數據是基于列的而不是基于行的模式，適合海量數據的隨機訪問。

3） HBase的表是疏松的存儲的，因此用戶可以給行定義各種不同的列；而Hive表是稠密型，即定義多少列，每一行有存儲固定列數的數據。

4）Hive使用Hadoop來分析處理數據，而Hadoop系統是批處理系統，因此不能保證處理的低遲延問題；而HBase是近實時系統，支持實時查詢。

5） Hive不提供row-level的更新，它適用于大量append-only數據集（如日志）的批任務處理。而基于HBase的查詢，支持和row-level的更新。

6） Hive提供完整的SQL實現，通常被用來做一些基于歷史數據的挖掘、分析。而HBase不適用與有join，多級索引，表關系復雜的應用場景。

489034603

四、兩者的整合

因為Hive和HBase擁有各自獨特的優點，又都是在hadoop作為底層存儲，所以為什么不將它們整合到一起呢？

而實際上，現在Hive與HBase確實已經進行整合了，它們整合功能的實現是利用兩者本身對外的API接口互相進行通信，相互通信主要是依靠hive_hbase-handler.jar工具類，整合方式如圖所示：

489034603

Hive集成HBase可以有效利用HBase數據庫的存儲特性，如行更新和列索引等。在集成的過程中注意維持HBase jar包的一致性。Hive集成HBase需要在Hive表和HBase表之間建立映射關系，也就是Hive表的列(columns)和列類型(column types)與HBase表的列族(column families)及列限定詞(column qualifiers)建立關聯。每一個在Hive表中的域都存在于HBase中，而在Hive表中不需要包含所有HBase中的列。

總結

以上是生活随笔為你收集整理的Hive和HBase的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

HBase
Hive

上一篇：入门HBase
下一篇： tensorflow之过拟合问题实战