MapReduce01
================== Hadoop內(nèi)核 | MapReduce(分布式計(jì)算框架)?==================
源于Google的MapReduce論文?---------->
√發(fā)表于2004年12月
√Hadoop MapReduce是Google MapReduce克隆版
MapReduce特點(diǎn) ---------->
√良好的擴(kuò)展性
√高容錯(cuò)性
√適合PB級(jí)以上海量數(shù)據(jù)的離線處理
?
?===================== WordCount問(wèn)題?=====================
場(chǎng)景:有大量文件,里面存儲(chǔ)了單詞,且一個(gè)單詞占一行
任務(wù):如何統(tǒng)計(jì)每個(gè)單詞出現(xiàn)的次數(shù)?
類似應(yīng)用場(chǎng)景:
√搜索引擎中,統(tǒng)計(jì)最流行的K個(gè)搜索詞
√統(tǒng)計(jì)搜索詞頻率,幫助優(yōu)化搜索詞提示
?
Case 1:整個(gè)文件可以加載到內(nèi)存中;
√sort datafile | uniq -c?
Case 2:文件太大不能加載到內(nèi)存中,但<word,count>可以存放到內(nèi)存中;
Case 3:文件太大無(wú)法加載到內(nèi)存中,且 <word,count>也不行
將問(wèn)題范化為:有一批文件(規(guī)模為TB級(jí)或 者 PB級(jí)),如何統(tǒng)計(jì)這些文件中所有單詞出 現(xiàn)的次數(shù);?
方案:首先,分別統(tǒng)計(jì)每個(gè)文件中單詞出現(xiàn) 次數(shù),然后累加不同文件中同一個(gè)單詞出現(xiàn) 次數(shù);
典型的MapReduce過(guò)程。
?
Worcount問(wèn)題—MR解決過(guò)程
?
?
轉(zhuǎn)載于:https://www.cnblogs.com/xtdxs/p/7076581.html
總結(jié)
以上是生活随笔為你收集整理的MapReduce01的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: (回文串)Manacher算法
- 下一篇: 秒懂Mycat和MySQL的区别【转自百