使用Hadoop自带的例子wordcount实现词频统计
Hadoop中自帶的hadoop-mapreduce-examples-2.7.6.jar含有一些事例,本文將用wordcount實現詞頻統計。具體步驟如下:
1. 啟動Hadoop
? ? 切換到Hadoop安裝目錄下的sbin目錄下執行./start-all.sh命令
? ? 或執行./start-dfs.sh和./start-yarn.sh兩條命令
2. 在集群中創建目錄inputdata_w
? ??hdfs dfs -mkdir /inputdata_w
3. 將Hadoop安裝目錄下的LICENSE.txt、README.txt、NOTICE.txt文件上傳到集群
? ??hdfs dfs -put ../LICENSE.txt /inputdata_w
? ??hdfs dfs -put ../README.txt /inputdata_w
? ??hdfs dfs -put ../NOTICE.txt /inputdata_w
4. 使用hadoop-mapreduce-examples-2.7.6.jar對上傳的數據進行詞頻統計
? ? hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /inputdata_w
? ? /output/wordcountout01
5. 查看統計結果
? ? hdfs dfs -cat /output/wordcountout01/part-r-00000
總結
以上是生活随笔為你收集整理的使用Hadoop自带的例子wordcount实现词频统计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python实现一个数组除以一个数
- 下一篇: QT学习笔记(十三):绘制图像