當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark初识-弹性分布式数据集RDD

發(fā)布時(shí)間：2025/3/8 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了 Spark初识-弹性分布式数据集RDD 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Spark 的核心是建立在統(tǒng)一的抽象彈性分布式數(shù)據(jù)集（Resiliennt Distributed Datasets，RDD）之上的，這使得 Spark 的各個(gè)組件可以無縫地進(jìn)行集成，能夠在同一個(gè)應(yīng)用程序中完成大數(shù)據(jù)處理。

一、RDD概念

RDD 是 Spark 提供的最重要的抽象概念，它是一種有容錯(cuò)機(jī)制的特殊數(shù)據(jù)集合，可以分布在集群的結(jié)點(diǎn)上，以函數(shù)式操作集合的方式進(jìn)行各種并行操作。

通俗點(diǎn)來講，可以將 RDD 理解為一個(gè)分布式對(duì)象集合，本質(zhì)上是一個(gè)只讀的分區(qū)記錄集合。每個(gè) RDD 可以分成多個(gè)分區(qū)，每個(gè)分區(qū)就是一個(gè)數(shù)據(jù)集片段。一個(gè) RDD 的不同分區(qū)可以保存到集群中的不同結(jié)點(diǎn)上，從而可以在集群中的不同結(jié)點(diǎn)上進(jìn)行并行計(jì)算。

設(shè)計(jì)背景，迭代式算法，若采用MapReduce則會(huì)重用中間結(jié)果；MapReduce不斷在磁盤中讀寫數(shù)據(jù)，會(huì)帶來很大開銷。

二、RDD的典型執(zhí)行過程

1）讀入外部數(shù)據(jù)源進(jìn)行創(chuàng)建，分區(qū)

2）RDD經(jīng)過一系列的轉(zhuǎn)化操作，每一次都會(huì)產(chǎn)生不同的RDD供給下一個(gè)轉(zhuǎn)化擦操作使用

3）最后一個(gè)RDD經(jīng)過一個(gè)動(dòng)作操作進(jìn)行計(jì)算并輸出到外部數(shù)據(jù)源

優(yōu)點(diǎn)：惰性調(diào)用、調(diào)用、管道化、避免同步等待，不需要保存中間結(jié)果

三、高效的原因

1）容錯(cuò)性：現(xiàn)有方式是用日志記錄的方式。而RDD具有天生的容錯(cuò)，任何一個(gè)RDD出錯(cuò)，都可以去找父親節(jié)點(diǎn)，代價(jià)低。RDD的每次轉(zhuǎn)換都會(huì)生成一個(gè)新的RDD，所以RDD之間就會(huì)形成類似于流水線一樣的前后依賴關(guān)系。在部分分區(qū)數(shù)據(jù)丟失時(shí)，Spark可以通過這個(gè)依賴關(guān)系重新計(jì)算丟失的分區(qū)數(shù)據(jù)，而不是對(duì)RDD的所有分區(qū)進(jìn)行重新計(jì)算。

2）中間結(jié)果保存到內(nèi)存，避免了不必要的內(nèi)存開銷

3）存放的數(shù)據(jù)可以是java對(duì)象，避免了對(duì)象的序列化和反序列化。

四、RDD的依賴關(guān)系：窄依賴和寬依賴

窄依賴：（narrow dependency）是指每個(gè)父RDD的一個(gè)Partition最多被子RDD的一個(gè)Partition所使用，例如map、filter、union等操作都會(huì)產(chǎn)生窄依賴；（獨(dú)生子女）即rdd中的每個(gè)partition僅僅對(duì)應(yīng)父rdd中的一個(gè)partition。父rdd里面的partition只去向子rdd****里的某一個(gè)partition！這叫窄依賴，如果父rdd里面的某個(gè)partition會(huì)去子rdd里面的多個(gè)partition，那它就一定是寬依賴！**

寬依賴（shuffle dependency）：是指一個(gè)父RDD的Partition會(huì)被多個(gè)子RDD的Partition所使用，例如groupByKey、reduceByKey、sortByKey等操作都會(huì)產(chǎn)生寬依賴；（超生）每一個(gè)父rdd的partition數(shù)據(jù)都有可能傳輸一部分?jǐn)?shù)據(jù)到子rdd的每一個(gè)partition中，即子rdd的多個(gè)partition依賴于父rdd。寬依賴劃分成一個(gè)stage！！！

作用:完成Stage的劃分

Stage的劃分：

spark劃分stage的整體思路是：從后往前推，遇到寬依賴就斷開，劃分為一個(gè)stage；遇到窄依賴就將這個(gè)RDD加入該stage中。因此在上圖中RDD C,RDD D,RDD E,RDDF被構(gòu)建在一個(gè)stage中,RDD A被構(gòu)建在一個(gè)單獨(dú)的Stage中,而RDD B和RDD G又被構(gòu)建在同一個(gè)stage中。

ShuffleMapStage和ResultStage：

簡(jiǎn)單來說，DAG的最后一個(gè)階段會(huì)為每個(gè)結(jié)果的partition生成一個(gè)ResultTask，即每個(gè)Stage里面的Task的數(shù)量是由該Stage中最后一個(gè)RDD的Partition的數(shù)量所決定的！而其余所有階段都會(huì)生成ShuffleMapTask；之所以稱之為ShuffleMapTask是因?yàn)樗枰獙⒆约旱挠?jì)算結(jié)果通過shuffle到下一個(gè)stage中；也就是說上圖中的stage1和stage2相當(dāng)于mapreduce中的Mapper,而ResultTask所代表的stage3就相當(dāng)于mapreduce中的reducer。

*、本文參考

Spark RDD是什么？

spark原理：概念與架構(gòu)、工作機(jī)制

總結(jié)

以上是生活随笔為你收集整理的Spark初识-弹性分布式数据集RDD的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。