编程问答

我们并没有觉得MapReduce速度慢，直到Spark出现

發(fā)布時(shí)間：2024/7/5 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了我们并没有觉得MapReduce速度慢，直到Spark出现小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

learn from 從0開始學(xué)大數(shù)據(jù)（極客時(shí)間）

Spark 擁有更快的執(zhí)行速度
更友好的編程接口
迅速搶占 MapReduce 的市場(chǎng)份額，成為主流的大數(shù)據(jù)計(jì)算框架

val textFile = sc.textFile("hdfs://...") // 根據(jù) HDFS 路徑生成一個(gè)輸入數(shù)據(jù) RDD val counts = textFile.flatMap(line => line.split(" "))// 每一行文本用空格拆分成單詞.map(word => (word, 1))// 每個(gè)單詞進(jìn)行轉(zhuǎn)換，word => (word, 1)，生成 <Key, Value> 的結(jié)構(gòu).reduceByKey(_ + _)// 相同的 Key 進(jìn)行統(tǒng)計(jì)，統(tǒng)計(jì)方式是對(duì) Value 求和，(_ + _) counts.saveAsTextFile("hdfs://...") // 將這個(gè) RDD 保存到 HDFS

RDD 是 Spark 的核心概念，是彈性數(shù)據(jù)集（Resilient Distributed Datasets）的縮寫

MapReduce 面向過程的大數(shù)據(jù)計(jì)算

Spark 將大規(guī)模數(shù)據(jù)集合抽象成一個(gè) RDD 對(duì)象，然后在這個(gè) RDD 上進(jìn)行各種計(jì)算處理，得到一個(gè)新的 RDD，繼續(xù)計(jì)算處理，直到得到最后的結(jié)果數(shù)據(jù)。

Spark 可以理解成是面向?qū)ο?/strong>的大數(shù)據(jù)計(jì)算。
在進(jìn)行 Spark 編程的時(shí)候，思考的是一個(gè) RDD 對(duì)象需要經(jīng)過什么樣的操作，轉(zhuǎn)換成另一個(gè) RDD 對(duì)象

RDD 上定義的函數(shù)分兩種

轉(zhuǎn)換（transformation）函數(shù)，返回值還是 RDD
執(zhí)行（action）函數(shù)，不再返回 RDD

總結(jié)

以上是生活随笔為你收集整理的我们并没有觉得MapReduce速度慢，直到Spark出现的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

速度慢

Spark

MapReduce

歡迎分享！

轉(zhuǎn)載請(qǐng)說明來源于"生活随笔"，并保留原作者的名字。

本文地址：我们并没有觉得MapReduce速度慢，直到Spark出现

上一篇： LeetCode 2007. 从双倍数组

下一篇： python的普通方法、类方法和静态方法

最新發(fā)布

IO流操作HDFS

JAVA操作Hadoop

Hadoop伪分布式运行案例

移植uboot第十步：制作uboot补丁

移植uboot第九步：支持yaffs映像烧写

熱門推薦

蓝牙厂商代码与公司对应列表

历年高考报考人数和录取人数

河南王牌计算机专业,河南计算机专业实力突出的7所大学，郑大位列次席，榜首实至名归...

UniCode编码对照表及过滤方案

LeetCode——Backtracking

標(biāo)簽云

连接数据库

单元格

蓝牙耳机

程序语言

微信游戏

软件安装

双系统

游戏开发者

设计理念

计算机资源

ycz

组周二

Flody

道水题

码灵鼠

组周四

naive

黄碧云

林下风气

组周一