学习笔记Hadoop(十五)—— MapReduce编程进阶
生活随笔
收集整理的這篇文章主要介紹了
学习笔记Hadoop(十五)—— MapReduce编程进阶
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 一、輸出文件格式及序列化文件生成
- 1.1、輸出文件格式
- 1.2、設置輸出SequenceFileOutputFormat文件格式
- 二、輸入文件格式及序列化文件讀取
- 2.1、輸入數據文件類型
- 2.2、設置輸入SequenceFileInputFormat文件格式
- 三、使用Partitioner優化程序
- 3.1、自定義單詞計數
- 四、本地提交MapReduce程序
- 4.1、自定義單詞計數
一、輸出文件格式及序列化文件生成
1.1、輸出文件格式
默認輸出類型是:TextOutputFormat
1.2、設置輸出SequenceFileOutputFormat文件格式
流程(Mapper、Reducer、Main、打包運行)
(參考SortByCountFirst程序)
Main函數
運行Job:
打包上傳后,查看:
(master:8088)
(master:50070)
(終端查看:hdfs dfs -text sortbycountfirstseq_output00/part-r-00000 | head -2)
二、輸入文件格式及序列化文件讀取
2.1、輸入數據文件類型
默認輸入類型是:TextInputFormat
2.2、設置輸入SequenceFileInputFormat文件格式
流程(Mapper、Reducer、Main、打包運行)
(參考SortByCountSecond程序)
Mapper函數
Main函數
結果查看:
三、使用Partitioner優化程序
只有一個reducer的話,Partitioner是沒有用處的
3.1、自定義單詞計數
Partitioner
(添加,可以查找HashPartitioner.java找完后修改)
Main函數
查看結果
四、本地提交MapReduce程序
4.1、自定義單詞計數
Main 函數
可能出現的問題及解決方法:
1、問題:
解決:修改權限
2、問題:
任務提交仍然失敗!
(日志)
解決:添加文件
總結
以上是生活随笔為你收集整理的学习笔记Hadoop(十五)—— MapReduce编程进阶的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习笔记Hadoop(十四)—— Map
- 下一篇: 学习笔记Hive(一)—— Hive简介