當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

spark python3.6_在mac上搭建spark＋ipython环境

發(fā)布時(shí)間：2025/3/19 python 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 spark python3.6_在mac上搭建spark＋ipython环境小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Big Data computing 下課之后回去試著搭建了一下spark環(huán)境，在這里記錄安裝過(guò)程中遇到的坑及解決方法和一些待解決的問(wèn)題。

mac上的python環(huán)境：Anaconda for python 2.7。(原來(lái)我用的Anaconda for python3.6,但是在用pyspark的過(guò)程中會(huì)遇到一個(gè)不能解決的bug，所以又重新裝了python2.7)

下面是我的配置過(guò)程，黑色加粗字體是要在terminal中敲的命令

1. 在spark官網(wǎng)上下載spark文件包

2. 打開(kāi)terminal

3. 打開(kāi)下載的spark所在的路徑

cd downloads

4. 解壓壓縮包

tar -zxvf spark-2.1.0-bin-hadoop2.7.tar

5. 把解壓后的文件移動(dòng)到home路徑下

mv spark-2.1.0-bin-hadoop2.7/~/spark-2.1.0

6. 設(shè)置環(huán)境變量

nano .bash_profile

o ?在bash profile 里添加下面兩句

export SPARK_PATH=~/spark-2.1.0

export PATH=$SPARK_PATH/bin:$PATH

保存并推出 (command+x)

7. 環(huán)境變量會(huì)在你下次打開(kāi)terminal時(shí)自動(dòng)生效，如果想立刻生效，用下面的source命令

source .bash_profile

8.鍵入pyspark看看是不是成功

pyspark

##以上這些步驟如果是python3.6環(huán)境中會(huì)報(bào)TypeError: namedtuple() missing 3 required keyword-only arguments: 'verbose', 'rename', and 'module'

##有人在github上提出了這個(gè)問(wèn)題，不過(guò)我沒(méi)有看懂是如何解決的。github上關(guān)于pyspark＋python3.6

9. 如果想在ipython notebook中使用pyspark，在第六步中bash_profile文件中追加下面三行：

export PYSPARK_DRIVER_PYTHON="ipython"

export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

alias snotebook='$SPARK_PATH/bin/pyspark --masterlocal[2]'

10.?source .bash_profile

11. 在terminal中鍵入pyspark或者snotebook。snotebook 是別名，可以在第九步設(shè)置環(huán)境變量的過(guò)程中任意命名。Local[2] 表示我們?yōu)樗峙淞藘蓚€(gè)核。

12.打開(kāi)了ipython notebook之后可以嘗試下面命令看看spark配置是否成功

sc.parallelize(range(100),8).take(5)

與50位技術(shù)專(zhuān)家面對(duì)面20年技術(shù)見(jiàn)證，附贈(zèng)技術(shù)全景圖

以上是生活随笔為你收集整理的spark python3.6_在mac上搭建spark＋ipython环境的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。