當前位置：首頁 > 编程语言 > python >内容正文

python

window安装python3后怎么用pyspark_window10搭建pyspark（超级详细）

發布時間：2023/12/20 python 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 window安装python3后怎么用pyspark_window10搭建pyspark（超级详细）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、組件版本說明

Java JDK:1.8.0_144

spark-2.4.3-bin-hadoop2.7

hadoop-2.7.7

scala-2.12.8

hadooponwindows-master

Python3.7

注意事項：

Spark運行在Java 8 +，Python 2.7 + / 3.4 +和R 3.1+上。對于Scala API，Spark 2.4.3使用Scala 2.12。您需要使用兼容的Scala版本(2.12.x)

1、JDK安裝

下載安裝后配置環境變量：

配置環境變量的方法為電腦[右鍵]——>屬性——>環境變量，編輯環境變量方法見下圖

配置完成后：開啟cmd窗口

2、配置Scala

下載地址：

https://www.scala-lang.org/download/2.12.8.html

安裝完成后，配置環境變量

3、安裝Spark

下載地址：

http://spark.apache.org/downloads.html

解壓后配置環境變量：

4、安裝hadoop

下載地址：

http://hadoop.apache.org/releases.html

解壓后配置環境變量：

5、安裝Python3.7

6、把hadooponwindows-master的bin覆蓋hadoop-2.7.7的bin

7、處理Python相關

1，將spark所在目錄下(比如我的D:\IT\bigdata\soft\spark-2.4.3-bin-hadoop2.7\python)的pyspark文件夾拷貝到python文件夾下(我的是D:\IT\python\Python\Lib\site-packages)

2，安裝py4j庫

一般的在cmd命令行下 pip install py4j 就可以。若是沒有將pip路徑添加到path中，就將路徑切換到python的Scripts中，然后再 pip install py4j 來安裝庫。

3 修改權限

將winutils.exe文件放到Hadoop的bin目錄下(我的是E:\spark\spark-2.1.0-bin-hadoop2.7\bin)，然后以管理員的身份打開cmd，然后通過cd命令進入到Hadoop的bin目錄下，然后執行以下命令：

winutils.exe chmod 777 c:\tmp\Hive

8、啟動

9、使用Pycharm新建一個wordcount例程

frompyspark import SparkConf, SparkContext

# 創建SparkConf和SparkContext

conf= SparkConf().setMaster("local").setAppName("lichao-wordcount")

sc= SparkContext(conf=conf)

# 輸入的數據

data= ["hello", "world", "hello", "word", "count", "count", "hello"]

# 將Collection的data轉化為spark中的rdd并進行操作

rdd=sc.parallelize(data)

resultRdd= rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a +b)

# rdd轉為collecton并打印

resultColl=resultRdd.collect()for line inresultColl:

print(line)

搭建完成啦！

總結

以上是生活随笔為你收集整理的window安装python3后怎么用pyspark_window10搭建pyspark（超级详细）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java class类型参数_java
下一篇： java oracle 视图不存在_We