Hadoop的SequenceFile读写实例
生活随笔
收集整理的這篇文章主要介紹了
Hadoop的SequenceFile读写实例
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1 SequenceFile可以處理hdfs上大量小文件,它可以作為大量小文件的容器。HDFS和MapReduce是針對大文件優化的,所以通過SequenceFile類型將小文件包裝起來可以獲得更高效的存儲和處理。存儲
2 在SequenceFile中的鍵和值并不一定是Writable類型,只要能被Serialization序列化和反序列化,任何類型都可以。
3
4 SequenceFile的優點是:以鍵值對方式存儲、支持壓縮、合并大量小文件。
5
6
7 Configuration conf = new Configuration();
8 FileSystem fs = FileSystem.get(new URI("hdfs://single32:9000"), conf);
9 Path targetPath = new Path("/sfs");
10
11 //在HDFS上創建不使用壓縮的SequenceFile
12 final Option optPath = SequenceFile.Writer.file(targetPath);
13 final Option optKeyClass = SequenceFile.Writer.keyClass(Text.class);
14 final Option optValueClass = SequenceFile.Writer.valueClass(BytesWritable.class);
15 final SequenceFile.Writer writer = SequenceFile.createWriter(conf, optPath, optKeyClass, optValueClass);
16 final Collection<File> listFiles = FileUtils.listFiles(new File("/usr/local/"), new String[]{"txt"}, false);
17 Text key = null;
18 BytesWritable value = null;
19 for (File file : listFiles) {
20 key = new Text(file.getPath());
21 value = new BytesWritable(FileUtils.readFileToByteArray(file));
22 writer.append(key, value);
23 }
24 IOUtils.closeStream(writer);
25
26 //讀取HDFS上指定目錄下的SequenceFile文件
27 final SequenceFile.Reader reader = new SequenceFile.Reader(fs, targetPath, conf);
28 final Text outputKey = new Text();
29 final BytesWritable outputValue = new BytesWritable();
30 while(reader.next(outputKey, outputValue)){
31 final File file = new File("/usr/"+outputKey.toString());
32 FileUtils.writeByteArrayToFile(file, outputValue.getBytes());
33 }
34 IOUtils.closeStream(reader);
35
?
轉載于:https://www.cnblogs.com/mengyao/archive/2013/02/03/4456148.html
總結
以上是生活随笔為你收集整理的Hadoop的SequenceFile读写实例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ldd随笔(1)-linux设备模型
- 下一篇: as3 physaxe 2d 物理引擎