python操作hive数据库代码_windows下怎么用python连接hive数据库
展開全部
由于版本的不同,Python 連接 Hive 的方式也就不一樣。
在網(wǎng)上搜索關(guān)鍵字 python hive 的時(shí)候可以找到一些解決方案。大部分是這32313133353236313431303231363533e4b893e5b19e31333361326339樣的,首先把hive 根目錄下的$HIVE_HOME/lib/py拷貝到 python 的庫(kù)中,也就是 site-package 中,或者干脆把新寫的 python 代碼和拷貝的 py 庫(kù)放在同一個(gè)目錄下,然后用這個(gè)目錄下提供的 thrift 接口調(diào)用。示例也是非常簡(jiǎn)單的。類似這樣:
import sys
from hive_service import ThriftHive
from hive_service.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
def hiveExe(sql):
try:
transport = TSocket.TSocket('127.0.0.1', 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client = ThriftHive.Client(protocol)
transport.open()
client.execute(sql)
print "The return value is : "
print client.fetchAll()
print "............"
transport.close()
except Thrift.TException, tx:
print '%s' % (tx.message)
if __name__ == '__main__':
hiveExe("show tables")1234567891011121314151617181920212223242526272812345678910111213141516171819202122232425262728
或者是這樣的:
#!/usr/bin/env python
import sys
from hive import ThriftHive
from hive.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
try:
transport = TSocket.TSocket('14.18.154.188', 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client = ThriftHive.Client(protocol)
transport.open()
client.execute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")
client.execute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")
client.execute("SELECT * FROM test1")
while (1):
row = client.fetchOne()
if (row == None):
break
print rowve
client.execute("SELECT * FROM test1")
print client.fetchAll()
transport.close()
except Thrift.TException, tx:
print '%s' % (tx.message)
12345678910111213141516171819202122232425262728293031323334351234567891011121314151617181920212223242526272829303132333435
但是都解決不了問(wèn)題,從 netstat 中查看可以發(fā)現(xiàn) TCP 連接確實(shí)是建立了,但是不執(zhí)行 hive 指令。也許就是版本的問(wèn)題。
還是那句話,看各種中文博客不如看官方文檔。
項(xiàng)目中使用的 hive 版本是0.13,此時(shí)此刻官網(wǎng)的最新版本都到了1.2.1了。中間間隔了1.2.0、1.1.0、1.0.0、0.14.0。但是還是參考一下官網(wǎng)的方法試試吧。
首先看官網(wǎng)的 setting up hiveserver2
可以看到啟動(dòng) hiveserver2 可以配置最大最小線程數(shù),綁定的 IP,綁定的端口,還可以設(shè)置認(rèn)證方式。(之前一直不成功正式因?yàn)檫@個(gè)連接方式)然后還給了 python 示例代碼。
import pyhs2
with pyhs2.connect(host='localhost',
port=10000,
authMechanism="PLAIN",
user='root',
password='test',
database='default') as conn:
with conn.cursor() as cur:
#Show databases
print cur.getDatabases()
#Execute query
cur.execute("select * from table")
#Return column info from query
print cur.getSchema()
#Fetch table results
for i in cur.fetch():
print i123456789101112131415161718192021123456789101112131415161718192021
在拿到這個(gè)代碼的時(shí)候,自以為是的把認(rèn)證信息給去掉了。然后運(yùn)行發(fā)現(xiàn)跟之前博客里介紹的方法結(jié)果一樣,建立了 TCP 連接,但是就是不執(zhí)行,也不報(bào)錯(cuò)。這是幾個(gè)意思?然后無(wú)意中嘗試了一下原封不動(dòng)的使用上面的代碼。結(jié)果可以用。唉。。。
首先聲明一下,hive-site.xml中默認(rèn)關(guān)于 hiveserver2的配置我一個(gè)都沒(méi)有修改,一直是默認(rèn)配置啟動(dòng) hiveserver2。沒(méi)想到的是默認(rèn)配置是有認(rèn)證機(jī)制的。
然后再寫一點(diǎn),在安裝 pyhs2的時(shí)候還是遇到了點(diǎn)問(wèn)題,其實(shí)還是要看官方文檔的,我只是沒(méi)看官方文檔直接用 pip安裝導(dǎo)致了這個(gè)問(wèn)題。安裝 pyhs2需要確定已經(jīng)安裝了幾個(gè)依賴包。直接看在 github 上的 wiki 吧。哪個(gè)沒(méi)安裝就補(bǔ)上哪一個(gè)就好了。
To install pyhs2 on a clean CentOS 6.4 64-bit desktop....
(as root or with sudo)
get ez_setup.py from https://pypi.python.org/pypi/ez_setup
python ez_setup.py
easy_install pip
yum install gcc-c++
yum install cyrus-sasl-devel.x86_64
yum install python-devel.x86_64
pip install pyhs212345678910111234567891011
寫了這么多,其實(shí)是在啰嗦自己遇到的問(wèn)題。下面寫一下如何使用 python
連接 hive。
python 連接 hive 是基于 thrift 完成的。所以需要服務(wù)器端和客戶端的配合才能使用。
在服務(wù)器端需要啟動(dòng) hiveserver2 服務(wù),啟動(dòng)方法有兩種, 第二種方法只是對(duì)第一種方法的封裝。
1. $HIVE_HOME/bin/hive --server hiveserver2
2. $HIVE_HOME/bin/hiveserver21212
默認(rèn)情況下就是hiveserver2監(jiān)聽了10000端口。也可以通過(guò)修改 hive-site.xml 或者在啟動(dòng)的時(shí)候添加參數(shù)來(lái)實(shí)現(xiàn)修改默認(rèn)配置。
另外一方面,在客戶端需要安裝 python 的依賴包 pyhs2。安裝方法在上面也介紹了,基本上就是用 pip install pyhs2,如果安裝不成功,安裝上面提到的依賴包就可以了。
最后運(yùn)行上面的示例代碼就可以了,配置好 IP 地址、端口、數(shù)據(jù)庫(kù)、表名稱就可以用了,默認(rèn)情況下認(rèn)證信息不需要修改。
另外補(bǔ)充一點(diǎn) fetch 函數(shù)執(zhí)行速度是比較慢的,會(huì)把所有的查詢結(jié)果返回來(lái)。可以看一下 pyhs2 的源碼,查看一下還有哪些函數(shù)可以用。下圖是 Curor 類的可以使用的函數(shù)。
一般 hive 表里的數(shù)據(jù)比較多,還是一條一條的讀比較好,所以選擇是喲功能 fetchone函數(shù)來(lái)處理數(shù)據(jù)。fetchone函數(shù)如果讀取成功會(huì)返回列表,否則 None。可以把示例代碼修改一下,把 fetch修改為:
count = 0
while (1):
row = cur.fetchone()
if (row is not None):
count += 1
print count, row
else:
print "it's over"
已贊過(guò)
已踩過(guò)<
你對(duì)這個(gè)回答的評(píng)價(jià)是?
評(píng)論
收起
總結(jié)
以上是生活随笔為你收集整理的python操作hive数据库代码_windows下怎么用python连接hive数据库的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python参数是什么_最全Python
- 下一篇: TH67XE主板内存扩展惊艳32GB!我