rhadoop之mapreduce函数
rhadoop mapreduce詳解
無奈,rhadoop這個方面的書簡直太少了,從官方的源代碼學習吧。
mapreduce(
input,
output = NULL,
map = to.map(identity),
reduce = NULL,
vectorized.reduce = FALSE,
combine = NULL,
in.memory.combine = FALSE,
input.format = “native”,
output.format = “native”,
backend.parameters = list(),
verbose = TRUE)
這個是官方文檔對于map-reduce的一些定義,一會詳細解釋一下。
input:輸入路徑,指的是hdfs中路徑
ouput:輸出路徑,允許為NULL,當為NULL時,輸出結果在 /tmp目錄下
map: 大致可以理解為hadoop中的map,但是返回形式略有不同,
返回的是keyval這樣的對象,接下來具體介紹keyval,也可以理解為key-value這樣的組合。
reduce:大致同hadoop中的reduce,同一個key后面跟著的是value的list形式
combine: 同hadoop中combiner,略有不同,為TRUE時,使用reducer作為combiner,為NULL則不使用。
in.memory.combine :這個屬性為true時,便會進行本地的combiner,類似于hadoop中的combiner,可以提高效率和時間
backend.parameters = list(),
verbose = TRUE
這兩個屬性可以無視,是做一些配置工作的。
總結
以上是生活随笔為你收集整理的rhadoop之mapreduce函数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【已解决】vue项目地址栏的图标不显示
- 下一篇: 进程控制块PCB简介