MapReduce简介
生活随笔
收集整理的這篇文章主要介紹了
MapReduce简介
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
問題:如何解決海量數據的運算?
先從一張圖簡單的看下mapreduce的處理過程
?
?
MapReduce概述:
MapReduce是一種分布式計算模型,由Google提出,主要用于搜索領域,解決海量數據的計算問題。
MR由兩個階段組成:Map和Reduce,用戶只需要實現map()和reduce()兩個函數,即可實現分布式計算,非常簡單。
這兩個函數的形參是key、value對,表示函數的輸入信息。
MapReduce原理:
MapReduce執行步驟:
執行步驟:
?1、map任務處理
1.1 讀取輸入文件內容,解析成key、value對。對輸入文件的每一行,解析成key、value對。每一個鍵值對調用一次map函數。
1.2 寫自己的邏輯,對輸入的key、value處理,轉換成新的key、value輸出。
2、reduce任務處理
2.1 在reduce之前,有一個shuffle的過程對多個map任務的輸出進行合并、排序。
2.2 寫reduce函數自己的邏輯,對輸入的key、value處理,轉換成新的key、value輸出。
2.3 把reduce的輸出保存到文件中。
?
轉載于:https://www.cnblogs.com/sMKing/p/7544785.html
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的MapReduce简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最优化算法-斐波那契数列搜索
- 下一篇: SpringBoot入门:新一代Java