Spark RDD中cache和persist的区别
轉自:http://www.ithao123.cn/content-6053935.html
通過觀察RDD.scala源代碼即可知道cache和persist的區別:
| def?persist(newLevel: StorageLevel): this.type = { sc.cleaner.foreach(_.registerRDDForCleanup(this)) /** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ ? /** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ |
?
?
?
?
?
?
?
?
?
可知:
1)RDD的cache()方法其實調用的就是persist方法,緩存策略均為MEMORY_ONLY;
2)可以通過persist方法手工設定StorageLevel來滿足工程需要的存儲級別;
3)cache或者persist并不是action;
附:cache和persist都可以用unpersist來取消
總結
以上是生活随笔為你收集整理的Spark RDD中cache和persist的区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spark 中的RDD编程:基于Java
- 下一篇: SparkJavaAPI:join的使用