Hive到SparkSql
1、SQLContext/HiveContext/SparkSession的使用
Spark1.x中SparkSql的入口點是:HiveContext
#sc is an existing SparkContext
Val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
Spark 2.x中SparkSql的入口點是:SparkSession
val spark = SparkSession.builder().appName(“Spark SQL basic example”).config(“spark.some.config.option”,”some-value’).getOrCreate()
2、spark-shell/spark-sql的使用
? ? 1)、添加hive-site.xml配置文件,添加到spark /conf文件夾下面
? ? 2)、--jars 傳遞mysql驅動包
3、查看執行計劃
explain extended select a.key*(2+3),b.value from t a join t b on a.key = b.key and a.key >3
4、thrift server/beeline的使用
? ?1)啟動thrift server
? ?2)啟動beeline連接到thrfitserver
? ?beeline -u jdbc:hive2://localhost:10000 -n hadoop
5、thrift server和普通的spark-shell/spark-sql有什么區別?
? ?1)spark-shell、spark-sql都是一個spark application
? ?2)thrift server,不管你啟動多少個客戶端(beeline/code),永遠都是一個spark application 解決一個數據共享的問題,多個客戶端可以共享數據
6、jdbc方式編程訪問
? 1)、maven添加依賴:org.spark-project.hive#hive-jdbc
? 2)、開發代碼訪問thrift server
注意事項:在使用jdbc開發時,一定要先啟動thriftserver
總結
以上是生活随笔為你收集整理的Hive到SparkSql的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SparkSQL概述
- 下一篇: Spark DataFrameDataS