當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Apache Spark概述

發布時間：2024/2/28 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 Apache Spark概述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

MR和Hadoop已被證明是高性能處理海量數據的最佳解決方案。然而，MR在迭代計算中性能不足：多個MR作業之間的輸出必須被寫入HDFS。在單個MR作業中，因為MR框架存在的一些缺點也存在性能不足。

Spark是一個計算引擎，可以把數據存儲在內存里或Tachyon上進行處理。Spark具有從存儲在HDFS或Hadoop API支持的其他存儲系統中的任何文件創建分布式數據集的能力。

Spark不是Hadoop，不需要Hadoop運行它。Spark支持文本文件、序列文件、Avro、Parquet和其他任何Hadoop輸入格式。

MR速度慢是因為MR作業中每個作業都把數據存儲在磁盤上，對同一數據集的多查詢會分別讀取數據，產生大量磁盤讀寫。

Spark把中間數據存儲在內存中，根據需要多次重復使用，提高了性能。

Spark的架構組件有 Spark Core，Spark SQL，Dataset、DataFrame、Spark Streaming、Structured Streaming、Mlib、GraphX、SparkR

以上是生活随笔為你收集整理的Apache Spark概述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。