當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

二、安装Spark集群

發布時間：2025/3/21 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了二、安装Spark集群小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

【一個很疑惑的問題】為什么我們一直在反復做一個操作：就是scp拷貝過來拷貝過去？【答案】這是為了將文件或目錄的權限修改成hadoop所屬組。

一. 下載Spark安裝包并傳給mster機器，使權限是hadoop

①在slave1機器上下載Spark(進入官網下載更快)

②解壓安裝包

tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz -C /data

③把slave1機器上的解壓后的spark拷貝到master機器上

先進入/data目錄下，打開終端，不用修改用戶再： scp -r spark-1.6.3-bin-hadoop2.6/ hadoop@master:/data/

④刪除slave1機器上的spark-1.6.3-bin-hadoop2.6

sudo rm -r /data/spark-1.6.3-bin-hadoop2.6 到現在為止，slave1機器上的spark-1.6.3-bin-hadoop2.6安裝包已經被刪除；只在master機器上有spark-1.6.3-bin-hadoop2.6安裝包，且權限是 hadoop。可以進行下面的Spark配置了！

==========

二 .配置 spark（涉及到的配置文件有以下幾個：）

在master機器上，新建下面文件：

先su hadoopsudo mkdir /data/spark_data sudo chmod -R 777 /data/spark_datasudo mkdir /data/spark_data/spark_works sudo chmod -R 777 /data/spark_data/spark_workssudo mkdir /data/spark_data/history sudo chmod -R 777 /data/spark_data/historysudo mkdir /data/spark_data/history/event-log sudo chmod -R 777 /data/spark_data/history/event-logsudo mkdir /data/spark_data/history/spark-events sudo chmod -R 777 /data/spark_data/history/spark-events再把在master創建好的上面的文件拷貝給slave機器：在 master 機器上：先切換到hadoop用戶 su hadoopscp -r /data/spark_data hadoop@slave1:/data scp -r /data/spark_data hadoop@slave2:/data 此時，在slave機器上就產生了/data/spark_data目錄，查看權限是hadoop刪除上面再master機器上創建的目錄（在master機器上執行）sudo rm -r /data/spark_data 從slave1機器上復制一份給master（在slave1機器上執行）scp -r /data/spark_data hadoop@master:/data 1. ${SPARK_HOME}/conf/spark-env.sh 2. ${SPARK_HOME}/conf/slaves 3. ${SPARK_HOME}/conf/spark-defaults.conf這三個文件都是由原始的 template 文件復制過來的，比如：先進入conf目錄下，打開終端，再： su hadoopcp spark-env.sh.template spark-env.shcp slaves.template slavescp spark-env.sh.template spark-env.sh sudo chmod -R 777 ../*

配置文件 1：sudo gedit spark-env.sh

【重點注意】SPARK_MASTER_IP=192.168.1.10一定要修改成自己的master地址注意：需要在本地創建/data/spark_data/spark_works 目錄JAVA_HOME=/data/jdk1.8.0_111 SCALA_HOME=/data/scala-2.11.8 SPARK_MASTER_IP=192.168.1.10 HADOOP_CONF_DIR=/data/hadoop-2.6.5/etc/hadoop # shuffled以及 RDD的數據存放目錄 SPARK_LOCAL_DIRS=/data/spark_data # worker端進程的工作目錄 SPARK_WORKER_DIR=/data/spark_data/spark_works

配置文件 2：sudo gedit slaves

去掉最后一行的localhost后，在最后一行加上下面內容 master slave1 slave2

配置文件 3：sudo gedit spark-defaults.conf

注意：需要在本地創建/data/spark_data/history/event-log、/data/spark_data/history/spark-events spark.master spark://master:7077 spark.serializer org.apache.spark.serializer.KryoSerializer spark.eventLog.enabled true spark.eventLog.dir file:///data/spark_data/history/event-log spark.history.fs.logDirectory file:///data/spark_data/history/spark-events spark.eventLog.compress true

===

三 . 復制到其他節點

在 master 上：1. scp -r /data/spark* hadoop@slave1:/data2. scp -r /data/spark* hadoop@slave2:/data 發現在 slave1 和slave2 上的/data目錄下有spark-1.6.3-bin-hadoop2.6的目錄，查看權限是hadoop組。spark*實際上也把創建的目錄/data/spark_data全部拷貝過去了。

四 . 設置環境變量

在master機器上：su hadoopsudo gedit ~/.bashrc 將以下內容加入到~/.bashrc 文件中， export SPARK_HOME=/data/spark-1.6.3-bin-hadoop2.6 export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH然后執行以下命令：source ~/.bashrc再把master機器上的~/.bashrc文件拷貝到slave機器上：（在hadoop用戶下） su hadoop #切換到hadoop用戶scp -r ~/.bashrc hadoop@slave1:~/ scp -r ~/.bashrc hadoop@slave2:~/

=======================================

5. 啟動驗證

在master機器上

1）啟動 masterstart-master.sh下圖說明在 master 節點上成功啟動 Master 進程：

在master機器上

2）啟動 slavestart-slaves.shjps

在slave機器上

執行jps

上面的圖片說明在每臺機器上都成功啟動了 Worker 進程。

3）訪問 WebUI

在 master、slave1 和 slave2 這三臺中任意一臺機器上的瀏覽器中輸入：http://master:8080/，看到如下圖片，就說明我們的 spark 集群安裝成功了。

===

趟過的坑

配置 core-site.xml 和 hdfs-site.xml 文件時所指定的本地目錄一定要自己創建，否則在執行玩格式化 hdfs 后，啟動 hdfs 會丟失進程。

總結

以上是生活随笔為你收集整理的二、安装Spark集群的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

集群
Spark

上一篇： 7.测试hadoop安装成功与否，并跑m
下一篇：加载Hadoop+spark镜像文件需要