當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据篇：Spark安装及测试PI的值

發布時間：2023/12/20 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据篇：Spark安装及测试PI的值小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文運行的具體環境如下：

centos7.3
Hadoop 2.8.4
Java JDK 1.8
Spark 1.6.3

一、安裝Hadoop

關于Hadoop的安裝，這里就不概述了！

二、安裝 Spark

下載網址http://archive.apache.org/dist/spark/spark-1.6.3/spark-1.6.3-bin-hadoop2.6.tgz，下載速度比較慢，建議迅雷下載，速度會提升許多。

Spark部署模式主要有四種：Local模式（單機模式）、Standalone模式（使用Spark自帶的簡單集群管理器）、YARN模式（使用YARN作為集群管理器）和Mesos模式（使用Mesos作為集群管理器）。
這里介紹Local模式（單機模式）的 Spark安裝。

運用winscp將spark-1.6.3-bin-hadoop2.6.tgz上傳到master服務器主節點端的/usr/local下，解壓

sudo tar -zxf spark-1.6.3-bin-hadoop2.6.tgz cd /usr/local sudo chown -R hadoop:hadoop ./spark #此處的hadoop為你的用戶名

安裝后，還需要修改Spark的配置文件spark-env.sh

cd /usr/local/spark-1.6.3-bin-hadoop2.6 cp ./conf/spark-env.sh.template ./conf/spark-env.sh

編輯spark-env.sh文件(vim ./conf/spark-env.sh)，在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.8.4/bin/hadoop classpath)

有了上面的配置信息以后，Spark就可以把數據存儲到Hadoop分布式文件系統HDFS中，也可以從HDFS中讀取數據。如果沒有配置上面信息，Spark就只能讀寫本地數據，無法讀寫HDFS數據。配置完成后就可以直接使用，不需要像Hadoop運行啟動命令。通過運行Spark自帶的示例，驗證Spark是否安裝成功。

cd /usr/local/spark-1.6.3-bin-hadoop2.6 bin/run-example SparkPi

執行時會輸出非常多的運行信息，輸出結果不容易找到，可以通過 grep 命令進行過濾（命令中的 2>&1 可以將所有的信息都輸出到 stdout 中，否則由于輸出日志的性質，還是會輸出到屏幕中）

bin/run-example SparkPi 2>&1 | grep "Pi is"

過濾后的運行結果如下圖示，可以得到π 的近似值：

總結

以上是生活随笔為你收集整理的大数据篇：Spark安装及测试PI的值的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：鸿鹄系统和鸿蒙系统的区别,华为鸿蒙系统和
下一篇： linux分区sda和sdb合并,给系统