當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark 简介

發布時間：2025/3/19 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 Spark 简介小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

==>?什么是?Spark

????--->?Spark?是一個針對大規模數據處理的快速通用引擎

? ??--->?Spark?是?MapReduce?的替代方案，而且兼容 HDFS, Hive,?可容入Hadoop?的生態系統，彌補?MapReduce?的不足

? ??--->?RDD?可簡單理解為：?一個提供了很多操作接口的數據集合，分布式存儲于集群環境中的存儲設備中（內存或硬盤），其中包括容錯，并行處理等功能

==> Spark?特點

????--->?快

????????----?優點：與Mapreduce?相比，Spark?基于內存運算，運算速度要快100倍，基于硬盤計算，運算速度要快 10?倍

? ? ????----?缺點：沒有對內存進行管理，把所有的內存管理都交給應用程序，以彌補MapReduce的不足，

????????????????????????容易出現?OOM（out? of? memory）,?可使用?Java? Heap? Dump? 工具分析?Java?程序的內存溢出

????--->?易用?

????????----?Spark?支持?Java ，Python, Scala?的 API?

? ??????----?支持80多種算法

? ??????----?支持交互式，可以在shell?中使用Spark?驗證解決問題的方法

????--->?通用（生態圈）

? ??????----?批處理

? ??????----?交互式查詢? ?（Spark? SQL）

? ??????----?實時流處理????（Spark Streaming）

? ??????----?機器學習????????( Spark? MLlib )

? ??????----?圖計算????????????( GraphX )

? ??????----?與?Hadoop?很好的融合，?可以直接操作 HDFS,?并提供?Hive on Spark, Pig on Spark的框架集成?Hadoop（配置Hive on Spark?還不成熟）

????--->?兼容性????可以非常方便的與其它開源產品進行融合

? ??????----?可以使用?Hadoop?的??YARN?和?Apache? Mesos?作為它的資源管理調度器

? ??????----??可以處理所有?Hadoop?支持的數據：HDFS， HBase，? Cassandra?等

? ??????----?不需要做任何的數據遷移就可以使用?Spark?的強大處理能力

? ??????----?可以不依賴第三方的資源管理和調度器，實現?Standalone?作為它的內置的資源管理和調試框架，降低部署的復雜性

? ??????----??提供了在?EC2?上部署?Standalone?的Spark?集群工具

==>?Spark?生太圈

????--->?Spark Core

????---> Spark SQL

????---> Spark Streaming

????---> Spark MLLib:?機器學習

????--->?Spark GraphX:?圖計算

本文轉自菜鳥的征程 51CTO博客，原文鏈接:http://blog.51cto.com/songqinglong/2072605

以上是生活随笔為你收集整理的Spark 简介的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。