window安装python3后怎么用pyspark_window10搭建pyspark(超级详细)
一、組件版本說明
Java JDK:1.8.0_144
spark-2.4.3-bin-hadoop2.7
hadoop-2.7.7
scala-2.12.8
hadooponwindows-master
Python3.7
注意事項:
Spark運行在Java 8 +,Python 2.7 + / 3.4 +和R 3.1+上。對于Scala API,Spark 2.4.3使用Scala 2.12。您需要使用兼容的Scala版本(2.12.x)
1、JDK安裝
下載安裝后配置環境變量:
配置環境變量的方法為電腦[右鍵]——>屬性——>環境變量,編輯環境變量方法見下圖
配置完成后:開啟cmd窗口
2、配置Scala
下載地址:
https://www.scala-lang.org/download/2.12.8.html
安裝完成后,配置環境變量
3、安裝Spark
下載地址:
http://spark.apache.org/downloads.html
解壓后配置環境變量:
4、安裝hadoop
下載地址:
http://hadoop.apache.org/releases.html
解壓后配置環境變量:
5、安裝Python3.7
6、把hadooponwindows-master的bin覆蓋hadoop-2.7.7的bin
7、處理Python相關
1,將spark所在目錄下(比如我的D:\IT\bigdata\soft\spark-2.4.3-bin-hadoop2.7\python)的pyspark文件夾拷貝到python文件夾下(我的是D:\IT\python\Python\Lib\site-packages)
2,安裝py4j庫
一般的在cmd命令行下 pip install py4j 就可以。若是沒有將pip路徑添加到path中,就將路徑切換到python的Scripts中,然后再 pip install py4j 來安裝庫。
3 修改權限
將winutils.exe文件放到Hadoop的bin目錄下(我的是E:\spark\spark-2.1.0-bin-hadoop2.7\bin),然后以管理員的身份打開cmd,然后通過cd命令進入到Hadoop的bin目錄下,然后執行以下命令:
winutils.exe chmod 777 c:\tmp\Hive
8、啟動
9、使用Pycharm新建一個wordcount例程
frompyspark import SparkConf, SparkContext
# 創建SparkConf和SparkContext
conf= SparkConf().setMaster("local").setAppName("lichao-wordcount")
sc= SparkContext(conf=conf)
# 輸入的數據
data= ["hello", "world", "hello", "word", "count", "count", "hello"]
# 將Collection的data轉化為spark中的rdd并進行操作
rdd=sc.parallelize(data)
resultRdd= rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a +b)
# rdd轉為collecton并打印
resultColl=resultRdd.collect()for line inresultColl:
print(line)
搭建完成啦!
總結
以上是生活随笔為你收集整理的window安装python3后怎么用pyspark_window10搭建pyspark(超级详细)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java class类型参数_java
- 下一篇: java oracle 视图不存在_We