當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PySpark 相关基础知识

發布時間：2024/1/1 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 PySpark 相关基础知识小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

SparkBase

1. spark的基本介紹

1.1 spark的基本介紹

MapReduce: 分布式計算引擎

MR 分布式計算引擎, 可以用來處理大規模數據, 主要是用于批處理, 用于離線處理MR存在弊端: 1- 執行效率比較低2- API相對比較低級, 開發效率慢3- 執行迭代計算不方便

也正因為MR存在這樣的一些弊端在一些場景中, 希望能夠有一款執行效率更加高效, 能夠更好支持迭代計算, 同時還能夠處理大規模數據的一款新的軟件, 而spark就是在這樣的背景下產生了

Apache spark 是一款用于處理大規模數據的分布式計算引擎, 基于內存計算, 整個spark的核心數據結構: RDD

RDD: 彈性的分布式數據集

Spark 最早期是來源于加州大學伯克萊分析一幫博士發布的論文,而產生的, 后期貢獻給了apache 稱為apache的頂級項目: http://spark.apache.org

Spark采用Scala語言編寫的

為什么Spark的執行速度快:

原因一: spark 提供了一個全新的數據結構: RDD通過這個數據結構, 讓分布式執行引擎能夠在內存中進行計算, 同時能夠更好的進行迭代計算操作對于MR來說, 主要是基于磁盤來計算, 而且迭代計算的時候, 需要將多個MR程序串聯, 執行效率低原因二: Spark是基于線程運行的, MR是基于進程運行的線程的啟動和銷毀的速度, 要遠遠高于進程的啟動和銷毀

1.2 spark的發展史

關注:

spark是一個分布式計算引擎, pyspark是一個python的庫專門用于操作spark的庫

1.3 spark的特點

1- 運行速度快

方面一: 基于內存計算的采用DAG 有向無環圖進行計算操作中間的結果是保存在內存中方面二: spark是基于線程來運行的, 線程的啟動和銷毀要高于進程

2- 易用性

方面一: spark提供多種語言的客戶端, 可以基于多種語言來運行spark: 比如 python SQL scala java R ...方面二: spark提供了更加高階的API, 而且這些API在不同的語言上, 基本上都是一樣的, 大大的降低了程序員學習成本

3- 通用型強

spark提供了多種工具庫, 用于滿足各種計算的場景spark core: spark的核心庫, 次重點, 它是學習的基礎主要是用于放置spark的核心API, 內存管理API,包括維護RDD的數據結構spark SQL: 通過SQL操作spark計算框架最為重要的spark streaming: spark的流式處理, 主要是用于支持流式計算(實時計算) (目前不使用, 整個實時主要是基于flink來完成的) spark MLlib: spark的機器學習庫, 主要包括相關算法: 回歸聚類 .... (針對于特點人群)spark graphX: spark的圖計算庫比如導航行程規劃 (針對于特點人群)

4- 隨處運行:

方面一: 編寫的spark程序可以運行在不同的資源調度平臺: local yarn平臺 spark集群 , 云上的調度平臺方面二: spark程序可以和大數據生態圈中各種軟件進行集成, 讓我們更加方便使用spark對接各個軟件

2. spark環境安裝

2.1 local模式搭建

local 模式主要是用于本地代碼測試操作

本質上就是一個單進程程序, 在一個進程中運行多個線程

類似于pandas , 都是一個單進程程序, 無法處理大規模數據, 只需要處理小規模數據

安裝操作, 可以直接參考課件中部署文檔

注意事項:

上傳安裝包:

要求: 只要能夠上傳到 linux的 /export/software 下那么就是OK的, 用什么方式無所謂如果想使用rz上傳:請先安裝: yum -y install lrzsz

注意: 如果使用瀏覽器訪問 node1:4040 無法訪問的時候, 嘗試去看一下windows本地hosts文件是否有以下配置:

hosts文件所在位置: C:\Windows\System32\drivers\etc

192.168.88.161 node1 node1.itcast.cn 192.168.88.162 node2 node2.itcast.cn 192.168.88.163 node3 node3.itcast.cn

退出客戶端, 禁止使用 ctrl + z (本質掛載后臺)

嘗試使用以下方式退出: ctrl + cctrl + d:quitquit:exitexit

2.2 PySpark庫安裝

安裝pyspark ,其實就是在python上安裝pyspark的庫, 要求首先必須先有python環境

發現在虛擬機上, python環境為 2.7.5 , 但是實際是3.8的版本, 需要先安裝 python3環境

安裝 python環境和pyspark環境, 可以直接參考部署文檔即可

擴展: anaconda的常用命令

安裝庫: conda install 包名 pip install 包名卸載庫: conda uninstall 包名 pip uninstall 包名設置anaconda下載的庫的鏡像地址: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --set show_channel_urls yes如何使用anaconda構建虛擬環境: -- 查看當前有那些虛擬環境(沙箱環境) conda env list -- 創建一個新的虛擬環境: conda create 虛擬環境名稱 python=python版本號 #創建python3.8.8環境-- 激活當前環境 source activate 虛擬環境名稱或者 conda activate 虛擬環境名稱-- 退出當前環境 deactivate 虛擬環境名稱 #退出環境或者 conda deactivate

如何將spark程序, 提交給spark local模式進行執行運行呢?

使用命令:spark-submit簡單使用cd /export/server/spark/bin./spark-submit --master local[*] 指定python的spark程序文件 [args參數]案例演示:./spark-submit --master local[2] /export/server/spark/examples/src/main/python/pi.py 10

2.3 spark集群模式架構

3. 基于pycharm完成pySpark入門案例

3.1 pycharm連接遠端環境

背景說明:

一般在企業中, 會存在兩套線上環境, 一套環境是用于開發(測試)環境, 一套環境是用于生產環境, 首先一般都是先在開發測試環境上進行編寫代碼, 并且在此環境上進行測試, 當整個項目全部開發完成后, 需要將其上傳到生產環境, 面向用于使用如果說還是按照之前的本地模式開發方案, 每個人的環境有可能都不一致, 導致整個團隊無法統一一套開發環境進行使用, 從而導致后續在進行測試上線的時候, 出現各種各樣環境問題pycharm提供了一些解決方案: 遠程連接方案, 允許所有的程序員都去連接遠端的測試環境的, 確保大家的環境都是統一, 避免各種環境問題發生, 而且由于連接的遠程環境, 所有在pycharm編寫代碼, 會自動上傳到遠端環境中, 在執行代碼的時候, 相當于是直接在遠端環境上進行執行操作

操作實現: 本次這里配置遠端環境, 指的連接虛擬機中虛擬環境, 可以配置為 base環境, 也可以配置為 pyspark_env虛擬環境, 但是建議配置為 base環境, 因為base環境自帶python包更全面一些

創建項目后, 設置自動上傳操作

校驗是否有pyspark

ok 后, 就可以在項目上創建子項目進行干活了: 最終項目效果圖

最后, 就可以在 main中編寫今日代碼了, 比如WordCount代碼即可

擴展: 關于pycharm 專業版高級功能

1- 直接連接遠端虛擬機, 進行文件上傳, 下載查看等等操作

2- 可以模擬shell控制臺:

3- 模擬datagrip操作:

3.2 WordCount代碼實現_local

3.2.2 編寫代碼實現

可能存在異常:

異常: JAVA_HOME is not set出現位置: 當pycharm采用SSH連接遠程Python環境時, 啟動執行spark程序可能報出原因: 加載不到jdk的位置解決方案:第一步: 可以在linux的 /root/.bashrc 文件中, 添加以下兩行內容 (注意需要三臺都添加)export JAVA_HOME=/export/server/jdk1.8.0_241export PYSPARK_PYTHON=/root/anaconda3/bin/python第二步: 在代碼中, 指定linux中spark所在目錄, spark中配置文件, 即可自動加載到: 鎖定遠端操作環境, 避免存在多個版本環境的問題os.environ['SPARK_HOME'] = '/export/server/spark'os.environ["PYSPARK_PYTHON"]="/root/anaconda3/bin/python"os.environ["PYSPARK_DRIVER_PYTHON"]="/root/anaconda3/bin/python"

3.3 (擴展)部署windows開發環境(不需要做)

1- 第一步: 需要安裝Python 環境 , 建議使用anaconda 來安裝即可
2- 第二步: 在Python安裝pySpark

執行:pip install pyspark==3.1.2

3- 第三步: 配置 hadoop的環境

首先, 需要將 hadoop-3.3.0 放置到一個沒有中文, 沒有空格的目錄下接著將目錄中bin目錄下有一個 hadoop.dll文件, 放置在c:/windows/system32 目錄下 (配置后, 需要重啟電腦)最后, 將這個hadoop3.3.0 配置到環境變量中:

配置后, 一定一直點確定退出, 否則就白配置了…

4-第四步: 配置spark本地環境

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-b4UnVo3R-1649749704191)(day01_pySparkBase.assets/image-20211011093739472.png)]

首先, 需要將 spark-3.1.2... 放置到一個沒有中文, 沒有空格的目錄下最后, 將這個 spark-3.1.2... 配置到環境變量中:

配置后, 一定一直點確定退出, 否則就白配置了…

5-配置pySpark環境

需要修改環境變量

配置后, 一定一直點確定退出, 否則就白配置了…

6- 配置 jdk的環境:

首先: 需要將 jdk1.8 放置在一個沒有中文, 沒有空格的目錄下接著:要在環境變量中配置 JAVA_HOME, 并在path設置

總結

以上是生活随笔為你收集整理的PySpark 相关基础知识的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： qsort库函数详解
下一篇：一键自动整理文件！简单好用的Python