二、安装Spark集群
生活随笔
收集整理的這篇文章主要介紹了
二、安装Spark集群
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
【一個很疑惑的問題】為什么我們一直在反復做一個操作:就是scp拷貝過來拷貝過去?
【答案】這是為了將文件或目錄的權限修改成hadoop所屬組。
一. 下載Spark安裝包并傳給mster機器,使權限是hadoop
①在slave1機器上下載Spark(進入官網下載更快)
②解壓安裝包
tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz -C /data③把slave1機器上的解壓后的spark拷貝到master機器上
先進入/data目錄下,打開終端,不用修改用戶再: scp -r spark-1.6.3-bin-hadoop2.6/ hadoop@master:/data/④刪除slave1機器上的spark-1.6.3-bin-hadoop2.6
sudo rm -r /data/spark-1.6.3-bin-hadoop2.6 到現在為止,slave1機器上的spark-1.6.3-bin-hadoop2.6安裝包已經被刪除;只在master機器上有spark-1.6.3-bin-hadoop2.6安裝包,且權限是 hadoop。 可以進行下面的Spark配置了!==========
二 .配置 spark(涉及到的配置文件有以下幾個:)
在master機器上,新建下面文件:
先su hadoopsudo mkdir /data/spark_data sudo chmod -R 777 /data/spark_datasudo mkdir /data/spark_data/spark_works sudo chmod -R 777 /data/spark_data/spark_workssudo mkdir /data/spark_data/history sudo chmod -R 777 /data/spark_data/historysudo mkdir /data/spark_data/history/event-log sudo chmod -R 777 /data/spark_data/history/event-logsudo mkdir /data/spark_data/history/spark-events sudo chmod -R 777 /data/spark_data/history/spark-events再把在master創建好的上面的文件拷貝給slave機器: 在 master 機器上: 先切換到hadoop用戶 su hadoopscp -r /data/spark_data hadoop@slave1:/data scp -r /data/spark_data hadoop@slave2:/data 此時,在slave機器上就產生了/data/spark_data目錄,查看權限是hadoop刪除上面再master機器上創建的目錄(在master機器上執行)sudo rm -r /data/spark_data 從slave1機器上復制一份給master(在slave1機器上執行)scp -r /data/spark_data hadoop@master:/data 1. ${SPARK_HOME}/conf/spark-env.sh 2. ${SPARK_HOME}/conf/slaves 3. ${SPARK_HOME}/conf/spark-defaults.conf這三個文件都是由原始的 template 文件復制過來的,比如: 先進入conf目錄下,打開終端,再: su hadoopcp spark-env.sh.template spark-env.shcp slaves.template slavescp spark-env.sh.template spark-env.sh sudo chmod -R 777 ../*配置文件 1:sudo gedit spark-env.sh
【重點注意】SPARK_MASTER_IP=192.168.1.10一定要修改成自己的master地址 注意:需要在本地創建/data/spark_data/spark_works 目錄JAVA_HOME=/data/jdk1.8.0_111 SCALA_HOME=/data/scala-2.11.8 SPARK_MASTER_IP=192.168.1.10 HADOOP_CONF_DIR=/data/hadoop-2.6.5/etc/hadoop # shuffled以及 RDD的數據存放目錄 SPARK_LOCAL_DIRS=/data/spark_data # worker端進程的工作目錄 SPARK_WORKER_DIR=/data/spark_data/spark_works配置文件 2:sudo gedit slaves
去掉最后一行的localhost后,在最后一行加上下面內容 master slave1 slave2配置文件 3:sudo gedit spark-defaults.conf
注意:需要在本地創建/data/spark_data/history/event-log、/data/spark_data/history/spark-events spark.master spark://master:7077 spark.serializer org.apache.spark.serializer.KryoSerializer spark.eventLog.enabled true spark.eventLog.dir file:///data/spark_data/history/event-log spark.history.fs.logDirectory file:///data/spark_data/history/spark-events spark.eventLog.compress true===
三 . 復制到其他節點
在 master 上:1. scp -r /data/spark* hadoop@slave1:/data2. scp -r /data/spark* hadoop@slave2:/data 發現在 slave1 和slave2 上的/data目錄下有spark-1.6.3-bin-hadoop2.6的目錄, 查看權限是hadoop組。spark*實際上也把創建的目錄/data/spark_data全部拷貝過去了。四 . 設置環境變量
在master機器上:su hadoopsudo gedit ~/.bashrc 將以下內容加入到~/.bashrc 文件中, export SPARK_HOME=/data/spark-1.6.3-bin-hadoop2.6 export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH然后執行以下命令:source ~/.bashrc再把master機器上的~/.bashrc文件拷貝到slave機器上:(在hadoop用戶下) su hadoop #切換到hadoop用戶scp -r ~/.bashrc hadoop@slave1:~/ scp -r ~/.bashrc hadoop@slave2:~/=======================================
=======================================
5. 啟動驗證
在master機器上
1)啟動 masterstart-master.sh下圖說明在 master 節點上成功啟動 Master 進程:在master機器上
2)啟動 slavestart-slaves.shjps在slave機器上
執行jps 上面的圖片說明在每臺機器上都成功啟動了 Worker 進程。3)訪問 WebUI
在 master、slave1 和 slave2 這三臺中任意一臺機器上的瀏覽器中輸入:http://master:8080/, 看到如下圖片,就說明我們的 spark 集群安裝成功了。===
趟過的坑
配置 core-site.xml 和 hdfs-site.xml 文件時所指定的本地目錄一定要自己 創建,否則在執行 玩格式化 hdfs 后,啟動 hdfs 會丟失進程。總結
以上是生活随笔為你收集整理的二、安装Spark集群的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 7.测试hadoop安装成功与否,并跑m
- 下一篇: 加载Hadoop+spark镜像文件需要