Hadoop Streaming二次排序
生活随笔
收集整理的這篇文章主要介紹了
Hadoop Streaming二次排序
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
由于Hadoop機器內存不足,所以需要把數據mapred進來跑。
這樣,就需要,同一個key下的輸入數據是有序的,即:對于keyA的數據,要求data1先來,之后data2再來……。所以需要對data進行二次排序。
-D stream.num.map.output.key.fields=2
這個,可以設置在map之后,進行partition時,使用前兩個tab的數據進行排序(包括key和data中的第一列)。
具體參考:http://blog.csdn.net/xhu_eternalcc/article/details/47147425
http://www.dreamingfish123.info/?p=1102
總結
以上是生活随笔為你收集整理的Hadoop Streaming二次排序的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 正则提取编码解码问题
- 下一篇: Hadoop put file 错误:f