spark2
特點
通用 批處理 迭代式計算 交互查詢 流處理
組件
spark core:任務調度 內存管理 容錯機制 內部定義了RDDs? 提供了很多API ,為其他組件提供底層的服務
spark sql:報表統計
streaming :從kafka接收數據做實時統計
mlib:mll 支持橫向擴展,機器學習
graphx:處理圖 圖計算 如社交網絡圖
cluster managers:集群管理
緊密集成優點
節省組件組合時的部署測試時間
與hadoop比較
時效性高(基于內存) 機器學習等領域
RDD
分布式數據集。不可變、可分區、可并行計算
允許用戶在執行多個查詢時顯式將工作集緩存在內存中
后續查詢能重用工作集
RDD屬性
分片partition
?
轉載于:https://www.cnblogs.com/NeverGiveUp0/p/11112659.html
總結
- 上一篇: 利用js实现 禁用浏览器后退
- 下一篇: Python中字符串如何定义简单举例