Hive的基本介绍
Hive 簡介
什么是 Hive
Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供類SQL查詢功能。
其本質是將SQL轉換為MapReduce的任務進行運算,底層由HDFS來提供數據的存儲,說白了hive可以理解為一個將SQL轉換為MapReduce的任務的工具,甚至更進一步可以說hive就是一個MapReduce的客戶端
為什么使用 Hive
直接使用hadoop所面臨的問題
人員學習成本太高
項目周期要求太短
MapReduce實現復雜查詢邏輯開發難度太大
為什么要使用Hive
操作接口采用類SQL語法,提供快速開發的能力。
避免了去寫MapReduce,減少開發人員的學習成本。
功能擴展很方便。
Hive 的特點
可擴展
Hive可以自由的擴展集群的規模,一般情況下不需要重啟服務。
延展性
Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數。
容錯
良好的容錯性,節點出現問題SQL仍可完成執行。
總結
- 上一篇: 数据仓库分层和元数据管理
- 下一篇: Hive的架构