使用Kylin导入JDBC数据源遇到的问题
一、目標:
直接使用Mysql數據作為Kylin數據源
二、參考官方配置 JDBC 數據源
準備 Sqoop
Kylin 使用 Apache Sqoop 從關系型數據庫加載數據到 HDFS。在與 Kylin 同一個機器上下載并安裝最新版本的 Sqoop。我們使用 SQOOP_HOME 環境變量指出在本指南中 Sqoop 的安裝路徑。
準備 JDBC driver
需要下載您數據庫的 JDBC Driver 到 Kylin server。JDBC driver jar 需要被加到 KYLINHOME/ext和KYLINHOME/ext和SQOOP_HOME/lib 文件夾下。
配置 Kylin
在 $KYLIN_HOME/conf/kylin.properties 中,添加以下配置。
MySQL 樣例:
三、遇到的問題:
exe cmd:/usr/hdp/2.5.5.0-157/sqoop/bin/sqoop import -Dorg.apache.sqoop.splitter.allow_text_splitter=true -Dmapreduce.job.queuename=default --connect "jdbc:mysql://X.X.X.X:3306/XXX" --driver com.mysql.jdbc.Driver --username XXXXX --password XXXXX --query "SELECT SLICES.CHANGED_ON as SLICES_CHANGED_ON ,SLICES.ID as SLICES_ID ,SLICES.SLICE_NAME as SLICES_SLICE_NAME ,SLICES.DATASOURCE_TYPE as SLICES_DATASOURCE_TYPE ,SLICES.DATASOURCE_NAME as SLICES_DATASOURCE_NAME ,SLICES.VIZ_TYPE as SLICES_VIZ_TYPE ,SLICES.DESCRIPTION as SLICES_DESCRIPTION FROM SUPERSET.SLICES as SLICES WHERE 1=1 AND \$CONDITIONS" --target-dir hdfs://master1.bigdata:8020/kylin/kylin_metadata_2.3/kylin-908401b6-a8aa-4879-a70d-fdefeefd833d/kylin_intermediate_superset_slice_1f3498b3_ed6f_47b2_bcaa_7fd449d93306 --split-by SLICES.SLICES.ID --boundary-query "SELECT min(SLICES.ID), max(SLICES.ID) FROM "SUPERSET".SLICES as SLICES" --null-string '' --fields-terminated-by '|' --num-mappers 1 SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/usr/hdp/2.5.5.0-157/hadoop/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found binding in [jar:file:/insight/vdc1/software/apache-kylin-2.4.0-bin-hbase1x/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation. SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 18/08/14 16:19:55 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6.2.5.3.0-37 18/08/14 16:19:55 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead. 18/08/14 16:19:55 WARN tool.BaseSqoopTool: Parameter --driver is set to an explicit driver however appropriate connection manager is not being set (via --connection-manager). Sqoop is going to fall back to org.apache.sqoop.manager.GenericJdbcManager. Please specify explicitly which connection manager should be used next time. 18/08/14 16:19:55 ERROR tool.BaseSqoopTool: Got error creating database manager: You must specify --connection-manager when you specified --driver.at org.apache.sqoop.tool.BaseSqoopTool.init(BaseSqoopTool.java:278)at org.apache.sqoop.tool.ImportTool.init(ImportTool.java:89)at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:610)at org.apache.sqoop.Sqoop.run(Sqoop.java:147)at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76)at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:183)at org.apache.sqoop.Sqoop.runTool(Sqoop.java:225)at org.apache.sqoop.Sqoop.runTool(Sqoop.java:234)at org.apache.sqoop.Sqoop.main(Sqoop.java:243)四、異常分析:
從報錯上看,就是如果指定 –driver必須指定 –connection-manager,然后再Kylin.properties配置文件里,添加了 connection-manager=org.apache.sqoop.manager.MySQLManager,依然保持,并且執行的sql語句里并沒有讀取到參數connection-manager,于是在cube的configuration overwrites頁面添加connection manager參數,繼續build,同樣的異常,沒有讀取到參數。
接下來注釋掉 –driver參數,執行build,仍然報錯,執行的sql里 仍然傳了 –driver參數,只不過是null。
于是換了另一種思路,不通過Kylin配置sqoop參數,直接執行sqoop import語句,兩種方式都可以成功:1)同時傳–driver=com.mysql.jdbc.Driver –connection-manager=–connection-manager org.apache.sqoop.manager.MySQLManager
2)兩個參數都不傳。
五:解決
有了上面的嘗試,有了方向,可能跟sqoop的版本有關系,Kylin-2.4 source-jdbc部分并沒有適配sqoop的版本,使用的最新版本。為了確認自己的推斷,做了兩件事:
1、查看Kylin的source-jdbc部分的源碼
JdbcExplorer.java
并沒有參數connection-manager,并且–driver必傳
2、下載最新版sqoop-1.4.7,重新配置SQOOP_HOME
重啟Kylin,重新執行cube的build操作,成功執行。
六、總結:
生產環境的Sqoop是1.4.6,由于是內網并且多租戶使用,組件的及時更新很不現實,這次的問題,沒有在google找到一點問題的解決方案,不知道是大家沒有使用關系型數據庫,還是sqoop的版本都是最新的,費了好些周折,把問題分享出來,希望對同在坑中的同志提供些幫助。
總結
以上是生活随笔為你收集整理的使用Kylin导入JDBC数据源遇到的问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: .html()和.text()及.val
- 下一篇: ORA-01745: 无效的主机/绑定变