Spark 简介
==>?什么是?Spark
????--->?Spark?是一個針對大規模數據處理的快速通用引擎
? ??--->?Spark?是?MapReduce?的替代方案,而且兼容 HDFS, Hive,?可容入Hadoop?的生態系統,彌補?MapReduce?的不足
R
? ??--->?RDD?可簡單理解為:?一個提供了很多操作接口的數據集合,分布式存儲于集群環境中的存儲設備中(內存或硬盤),其中包括容錯,并行處理等功能
==> Spark?特點
????--->?快
????????----?優點:與Mapreduce?相比,Spark?基于內存運算,運算速度要快100倍,基于硬盤計算,運算速度要快 10?倍
? ? ????----?缺點:沒有對內存進行管理,把所有的內存管理都交給應用程序,以彌補MapReduce的不足,
????????????????????????容易出現?OOM(out? of? memory),?可使用?Java? Heap? Dump? 工具分析?Java?程序的內存溢出
????--->?易用?
????????----?Spark?支持?Java ,Python, Scala?的 API?
? ??????----?支持80多種算法
? ??????----?支持交互式,可以在shell?中使用Spark?驗證解決問題的方法
????--->?通用(生態圈)
? ??????----?批處理
? ??????----?交互式查詢? ?(Spark? SQL)
? ??????----?實時流處理????(Spark Streaming)
? ??????----?機器學習????????( Spark? MLlib )
? ??????----?圖計算????????????( GraphX )
? ??????----?與?Hadoop?很好的融合,?可以直接操作 HDFS,?并提供?Hive on Spark, Pig on Spark的框架集成?Hadoop(配置Hive on Spark?還不成熟)
????--->?兼容性????可以非常方便的與其它開源產品進行融合
? ??????----?可以使用?Hadoop?的??YARN?和?Apache? Mesos?作為它的資源管理調度器
? ??????----??可以處理所有?Hadoop?支持的數據:HDFS, HBase,? Cassandra?等
? ??????----?不需要做任何的數據遷移就可以使用?Spark?的強大處理能力
? ??????----?可以不依賴第三方的資源管理和調度器,實現?Standalone?作為它的內置的資源管理和調試框架,降低部署的復雜性
? ??????----??提供了在?EC2?上部署?Standalone?的Spark?集群工具
==>?Spark?生太圈
????--->?Spark Core
????---> Spark SQL
????---> Spark Streaming
????---> Spark MLLib:?機器學習
????--->?Spark GraphX:?圖計算
本文轉自 菜鳥的征程 51CTO博客,原文鏈接:http://blog.51cto.com/songqinglong/2072605
總結
- 上一篇: CentOS 6.7 FTP安装配置之p
- 下一篇: Scala 语言之模式匹配(6)