spark的python开发安装方式_python 安装spark_Spark环境搭建 (Python)
安裝lib
材料:spark?:?http://spark.apache.org/downloads.htmlhadoop?:?http://hadoop.apache.org/releases.htmljdk:?http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html
hadoop-commin?:?https://github.com/srccodes/hadoop-common-2.2.0-bin/archive/master.zip?(for?windows7)
需要下載對應的版本
步驟:a.?安裝jdk,默認步驟即可
b.?解壓spark??(D:\spark-2.0.0-bin-hadoop2.7)
c.?解壓hadoop??(D:\hadoop2.7)
d.?解壓hadoop-commin?(for?w7)
e.?copy?hadoop-commin/bin?to?hadoop/bin?(for?w7)環境變量設置SPARK_HOME?=?D:\spark-2.0.0-bin-hadoop2.7
HADOOP_HOME?=?D:\hadoop2.7
PATH?append?=?D:\spark-2.0.0-bin-hadoop2.7\bin;D:\hadoop2.7\binPython lib設置a.?copy?D:\spark-2.0.0-bin-hadoop2.7\python\pyspark?to?[Your-Python-Home]\Lib\site-packages
b.?pip?install?py4j
c.?pip?install?psutil
(for?windows:?http://www.lfd.uci.edu/~gohlke/pythonlibs/#psutil)Testing
cmd -> pyspark 不報錯并且有相應的cmd
——————————————————————————————————
2018-5-11更新
目前spark 不兼容 Python3.6 ,因此通過anaconda創建虛擬環境變量python3.5
之后開啟安裝之路:
1.查看操作系統:
2.下載以下兩個文件的壓縮文件zip.之后解壓如下,并分別配置環境變量
3.配置環境變量:
同時在path中添加如下:
%SPARK_HOME%\bin
%SPARK_HOME%\sbin
%HADOOP_HOME%\bin
4 配置日志顯示級別(可省略)
選擇…\spark\conf\目錄下log4j.properties.template,復制為log4j.properties
將log4j.properties中,”INFO, console”改為”WARN, console”
5【將pyspark文件放到python文件夾下、使用winutils.exe修改權限】
1,將spark所在目錄下(比如我的是D:\Software\spark-2.2.0-bin-hadoop2.7\python)的pyspark文件夾拷貝到python文件夾下(我的是D:\Program Files\python3.5.3\Lib\site-packages)
具體目錄要看大家自己安裝的時候是放在哪的!
2,安裝py4j庫
一般的在cmd命令行下 pip install py4j 就可以。若是沒有將pip路徑添加到path中,就將路徑切換到python的Scripts中,然后再 pip install py4j 來安裝庫。
3,修改權限
將winutils.exe文件放到Hadoop的bin目錄下(我的是D:\Software\hadoop-2.7.3\bin),然后以管理員的身份打開cmd,然后通過cd命令進入到Hadoop的bin目錄下,然后執行以下命令:
winutils.exe chmod 777 c:\tmp\Hive
注意:1,cmd一定要在管理員模式下!cmd一定要在管理員模式下!cmd一定要在管理員模式下!
2,‘C:\tmp\hive’,一般按照上面步驟進行了之后會自動創建的,一般是在Hadoop的安裝目錄下出現。但是若沒有也不用擔心,自己在c盤下創建一個也行。
關閉命令行窗口,重新打開命令行窗口,輸入命令:pyspark
配置python 3
在D:\spark\spark-2.2.0-bin-hadoop2.7\bin中找到pyspark文件,采用notepad打開,并在其中增加
export PYSPARK_PYTHON
改為
export PYSPARK_PYTHON3
再次打開bin/pyspark即配置完成pyspark采用python3
通過以上操作完成.
下面來測試from?pyspark?import?SparkContextfrom?pyspark?import?SparkContext?as?scfrom?pyspark?import?SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf)
rdd?=?sc.parallelize([1,2,3,4,5])
rdd
print(rdd)
print(rdd.getNumPartitions()?)
輸出結果:ParallelCollectionRDD[0]?at?parallelize?at?PythonRDD.scala:4808
總結
以上是生活随笔為你收集整理的spark的python开发安装方式_python 安装spark_Spark环境搭建 (Python)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: delphi7存储过程传入数组_js数组
- 下一篇: 小程序子组件向父组件传值_一套组件化、可