kettle同步数据到hive 巨慢_超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏...
那么如何將mysql數(shù)據(jù)導(dǎo)入到hive里呢,kettle里有自帶方法,可以通過(guò)表輸入和表輸出來(lái)實(shí)現(xiàn),不過(guò)自帶的方法載入數(shù)據(jù)極其緩慢,不推薦使用這種方法。
1、hive建表
注意hive表使用“^”作為分隔符,這個(gè)可以更具實(shí)際情況來(lái)。
2、mysql到hdfs輸出
轉(zhuǎn)換
內(nèi)容這兒可以選擇相應(yīng)分隔符來(lái)對(duì)數(shù)據(jù)分隔操作,頭部一定要去掉,不然導(dǎo)入hdfs時(shí)會(huì)將表頭的字段名一起導(dǎo)入,還有編碼最好是換成utf-8保證中文的使用
字段這兒要先獲取字段,然后先關(guān)字段要選擇對(duì)應(yīng)格式,比如我這兒id是001,就要選為#格式,不然會(huì)使最后hive導(dǎo)入的id這兒為null,日期也是。
3、將hdfs文件導(dǎo)入到hive數(shù)據(jù)庫(kù)里
左邊為原始目錄也就是存放hdfs文件的地址,后面是hive數(shù)據(jù)庫(kù)文件目錄的地址,如果需要直接替換hive里面的內(nèi)容在設(shè)置里勾選替換就可以了。
----------------------------------本文結(jié)束---------------------------------
總結(jié)
以上是生活随笔為你收集整理的kettle同步数据到hive 巨慢_超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 巴山夜雨涨秋池上一句(巴山夜雨涨秋池下一
- 下一篇: 发动机不能启动,可能是( )?