Windows下搭建PySpark环境
Windows下搭建PySpark環(huán)境
文章目錄
- Windows下搭建PySpark環(huán)境
- 前言
- 方法一
- 安裝單機(jī)版Hadoop
- 安裝單機(jī)版Spark
- PySpark環(huán)境整合
- 方法二
- 測(cè)試PySpark
- PySpark運(yùn)行簡(jiǎn)單實(shí)例
- 參考文章
前言
現(xiàn)階段的實(shí)驗(yàn)需要用到 PySpark 來(lái)搭建機(jī)器學(xué)習(xí)模型,正常情況下應(yīng)該是在 Linux 系統(tǒng)上是進(jìn)行搭建。然而在虛擬機(jī)的 Linux 上運(yùn)行起來(lái)又實(shí)在是太慢,所以只能將就著在 Windows 系統(tǒng)上搭建 PySpark 的環(huán)境先使用著。
這里介紹兩種搭建 PySpark 環(huán)境的方法:
在以下的操作中用到命令行的時(shí)候,按 Win+R 鍵,輸入 cmd 然后回車(chē),就可以進(jìn)入命令行了。每個(gè)階段的命令行每次使用完畢之后,正常關(guān)閉命令行窗口即可。
方法一
常規(guī)安裝 Pyspark 的方法是先安裝 JDK,接著是 Hadoop,然后安裝 Spark,最后配置一下 PySpark 的環(huán)境就可以了。
和方法二相比,方法一的整個(gè)過(guò)程顯得漫長(zhǎng)且比較繁瑣,請(qǐng)一定要保持耐心,不要輸錯(cuò)任何一行命令。
安裝單機(jī)版Hadoop
Hadoop的底層語(yǔ)言是 Java,在使用 Hadoop 之前,得先把 JDK 配置一下,可以參考這篇博客的第一部分,把 JDK 配置好。 Windows下配置IDEA開(kāi)發(fā)環(huán)境
配置完 JDK 之后,就可以開(kāi)始配置 Hadoop 了。Windows 安裝 Hadoop 的流程可以參考我的另一篇博客 Windows下配置單機(jī)Hadoop環(huán)境
去年寫(xiě)博客的時(shí)候?qū)?Hadoop 還不太熟悉,博客名字是單機(jī)環(huán)境,實(shí)際上配置的是偽分布式環(huán)境。
這里我們只需要配置單機(jī)版 Hadoop 就可以了,我們只需要完成前三步,下載 Hadoop,下載配置文件,配置環(huán)境變量。
前三步完成后,單機(jī)版 Hadoop 就配置完成了。我們?cè)诿钚薪缑孑斎搿癶adoop version”,能正常提示出 Hadoop 的版本信息,這一步就確認(rèn)完成了。
安裝單機(jī)版Spark
Spark的安裝大致上和 Hadoop 差不多,不過(guò)我們最后只需要用到 Spark 的 PySpark 包,所以我們不需要去配置 Scala 這些東西,嚴(yán)格意義上說(shuō)我們只需要單機(jī)版 Spark,配置個(gè)環(huán)境變量就可以了。
同樣地,我們?nèi)ケ崩砉さ溺R像站下載 Spark Spark北理工鏡像
鏡像站提供了幾個(gè)穩(wěn)定版本,這里我們選擇的是 spark-2.3.4,點(diǎn)擊進(jìn)入目錄
因?yàn)槲覀兩弦徊桨惭b的 Hadoop 版本是 2.7.7,所以這里我們選擇和 Hadoop-2.7.7 兼容的 版本。
鏡像站的下載一般都很快,下載完成后,把 Spark 的壓縮包解壓到自己想要的安裝位置,比如我的安裝位置是“D:\Dpan\spark”,解壓完成的界面如下。
解壓完成后,直接去配置 spark 的環(huán)境變量,和 Hadoop 配置環(huán)境變量的方式是一樣的。
- 新建 SPARK_HOME 環(huán)境變量,變量的值就是 spark 包解壓的地址。比如我的是“D:\Dpan\spark\spark-2.3.4-bin-hadoop2.7”
- 向 path 變量中加入“%SPARK_HOME%\bin”。注意,這里的 %SPARK_HOME%\bin,是固定的短語(yǔ),不要亂寫(xiě)。
配置完成之后,在命令行界面輸入“spark-shell”,耐心等待兩分鐘。如果命令行正常出現(xiàn)了 spark 的 shell 信息,單機(jī)版 spark 環(huán)境就配置成功了。
如果出現(xiàn)類(lèi)似缺少 winutil 或者 hivesession 等錯(cuò)誤,請(qǐng)檢查hadoop/bin文件夾是否替換成功。如果確實(shí)替換了 hadoop/bin,還出現(xiàn)錯(cuò)誤,自行百度安裝 cygwin,安裝完 cygwin 就應(yīng)該沒(méi)有問(wèn)題了。
PySpark環(huán)境整合
整個(gè) PySpark 的環(huán)境整合是比較簡(jiǎn)單的,不需要再去安裝別的新東西了。
我們通過(guò)文件資源管理,進(jìn)入之前 spark 的安裝目錄。將安裝目錄下的 python/lib 目錄下的兩個(gè)壓縮包進(jìn)行復(fù)制,pyspark.zip、py4j-0.10.7-src.zip。
然后進(jìn)入 自己的 Python 安裝目錄/Lib/site-packages 目錄下,粘貼,然后解壓。解壓完成后可以順便把這兩個(gè)壓縮包刪除了。
到這里,PySpark的環(huán)境就配置完成了。
方法二
pip 是一個(gè) Python 包安裝與管理工具,該工具提供了對(duì)Python 包的查找、下載、安裝、卸載的功能。我們通過(guò) pip 來(lái)進(jìn)行 Python 包的安裝絕對(duì)是十分便捷的。
pip的安裝這里我們不做介紹,沒(méi)有安裝 pip 的請(qǐng)自行百度安裝即可。
打開(kāi)命令行窗口,在窗口內(nèi)輸入“pip --verison”,如果出現(xiàn)了 pip 的版本提示信息,那么你電腦上的 pip 就是成功安裝了。
通過(guò) pip 安裝 PySpark 就像安裝其他 Python 包一樣簡(jiǎn)單。在命令行窗口內(nèi)輸入一下代碼,回車(chē)即可安裝。
pip install pyspark當(dāng)然,為了提高安裝速度,我們可以使用清華源來(lái)進(jìn)行安裝
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple耐心等待安裝完成,在最后出現(xiàn)‘Success’的字樣,就表示安裝成功了。
測(cè)試PySpark
前面介紹了兩種方法配置 PySpark 的環(huán)境,配置完成后我們來(lái)進(jìn)行檢驗(yàn)。
在命令行輸入“python”,進(jìn)入 python 命令行。輸入“import pyspark as py”,回車(chē)。沒(méi)有報(bào)錯(cuò),就證明 pyspark 的環(huán)境配置成功了,可以正常使用了。
PySpark運(yùn)行簡(jiǎn)單實(shí)例
打開(kāi)自己平時(shí)用來(lái)寫(xiě) Python 代碼的 IDE。比如我用的是 PyCharm2019。
在里面新建一個(gè) Python 文件,輸入以下代碼。這段代碼就是經(jīng)典的 WordCount ,用 PySpark 來(lái)運(yùn)行。
from pyspark import SparkConf, SparkContext# 創(chuàng)建 SparkConf 和 SparkContext conf = SparkConf().setMaster("local").setAppName("lichao-wordcount") sc = SparkContext(conf=conf).getOrCreate()# 輸入的數(shù)據(jù) data = ["hello", "world", "hello", "word", "count", "count", "hello"]# 將 Collection 的 data 轉(zhuǎn)化為 spark 中的 rdd 并進(jìn)行操作 rdd = sc.parallelize(data) resultRdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)# rdd 轉(zhuǎn)為 collecton 并打印 resultColl = resultRdd.collect() for line in resultColl:print(line)# 結(jié)束 sc.stop()運(yùn)行代碼,耐心等待,查看結(jié)果。
至此,Windows 下 PySpark的環(huán)境已經(jīng)配置完畢了,我們還運(yùn)行了一個(gè)實(shí)例。環(huán)境配置完畢,快快去學(xué)習(xí) PySpark 的使用方法,把這個(gè)工具用起來(lái)把。
參考文章
Python學(xué)習(xí)—PySpark環(huán)境搭建
Windows下配置單機(jī)Hadoop環(huán)境
pycharm修改pip源為清華源-提高下載速度
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專(zhuān)家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的Windows下搭建PySpark环境的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 用SVR模型完成对Boston房价的回归
- 下一篇: 使用PySpark搭建机器学习模型