使用PyHive操作Hive
生活随笔
收集整理的這篇文章主要介紹了
使用PyHive操作Hive
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
使用PyHive操作Hive
1.環(huán)境:Cloudera
cloudera是一個(gè)hadoop的發(fā)行版,可以省去hadoop, hive等繁瑣的安裝,部署。
下載地址:https://www.cloudera.com/downloads.html
?
2.Python環(huán)境: Anaconda? ? 版本:Python 3.7
Anaconda是一個(gè)非常好用的Python環(huán)境,特別是安裝包的方便,可以不用pip,幾乎能想到的包都有。
因?yàn)槭褂玫氖莑inux版本的,在官網(wǎng)下載后是一個(gè).sh文件
通過
$ sh Anacouda3-5.3.1-Linux-x86_64.sh
執(zhí)行安裝
3.通過pyhive連接hive需要的Python包:
3.1?pyhive
3.2?thrift
3.3?sasl
共需要三個(gè)包
安裝完Anaconda后,在終端分別輸入
$conda pyhive
$conda thrift
$conda sasl
下載這些包
4.連接Hive
使用jupyter notebook
from pyhive import hive import pandas as pd cnn=hive.Connection(host='localhost', port='10000', username='hive') cursor=cnn.cursor() cursor.execute("show databases") data=pd.DataFrame(cursor.fetchall()) print(data.head())?
這里為了顯示方便,導(dǎo)入了pandas庫,利用Dataframe去顯示返回的數(shù)據(jù),因?yàn)閷?shù)據(jù)導(dǎo)入到了pandas里面,所以也可以直接利用查詢語句選出數(shù)據(jù),導(dǎo)入到pandas進(jìn)行分析。
注意!如果連接不成功可以在終端輸入
$ sudo service hive-server2 start打開hiveService2借口, pyhive是通過這個(gè)接口與hive通訊的
?
總結(jié)
以上是生活随笔為你收集整理的使用PyHive操作Hive的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux怎么打包整个目录,tar打包整
- 下一篇: 新建项目上传svn