大数据篇:Spark安装及测试PI的值
本文運行的具體環境如下:
- centos7.3
- Hadoop 2.8.4
- Java JDK 1.8
- Spark 1.6.3
一、安裝Hadoop
關于Hadoop的安裝,這里就不概述了!
二、安裝 Spark
下載網址http://archive.apache.org/dist/spark/spark-1.6.3/spark-1.6.3-bin-hadoop2.6.tgz,下載速度比較慢,建議迅雷下載,速度會提升許多。
Spark部署模式主要有四種:Local模式(單機模式)、Standalone模式(使用Spark自帶的簡單集群管理器)、YARN模式(使用YARN作為集群管理器)和Mesos模式(使用Mesos作為集群管理器)。
這里介紹Local模式(單機模式)的 Spark安裝。
運用winscp將spark-1.6.3-bin-hadoop2.6.tgz上傳到master服務器主節點端的/usr/local下,解壓
sudo tar -zxf spark-1.6.3-bin-hadoop2.6.tgz cd /usr/local sudo chown -R hadoop:hadoop ./spark #此處的hadoop為你的用戶名安裝后,還需要修改Spark的配置文件spark-env.sh
cd /usr/local/spark-1.6.3-bin-hadoop2.6 cp ./conf/spark-env.sh.template ./conf/spark-env.sh編輯spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.8.4/bin/hadoop classpath)有了上面的配置信息以后,Spark就可以把數據存儲到Hadoop分布式文件系統HDFS中,也可以從HDFS中讀取數據。如果沒有配置上面信息,Spark就只能讀寫本地數據,無法讀寫HDFS數據。配置完成后就可以直接使用,不需要像Hadoop運行啟動命令。通過運行Spark自帶的示例,驗證Spark是否安裝成功。
cd /usr/local/spark-1.6.3-bin-hadoop2.6 bin/run-example SparkPi執行時會輸出非常多的運行信息,輸出結果不容易找到,可以通過 grep 命令進行過濾(命令中的 2>&1 可以將所有的信息都輸出到 stdout 中,否則由于輸出日志的性質,還是會輸出到屏幕中)
bin/run-example SparkPi 2>&1 | grep "Pi is"過濾后的運行結果如下圖示,可以得到π 的 近似值:
總結
以上是生活随笔為你收集整理的大数据篇:Spark安装及测试PI的值的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 鸿鹄系统和鸿蒙系统的区别,华为鸿蒙系统和
- 下一篇: linux分区sda和sdb合并,给系统