hadoop深入研究:(五)——Archives
生活随笔
收集整理的這篇文章主要介紹了
hadoop深入研究:(五)——Archives
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
轉載請注明來源地址:http://blog.csdn.net/lastsweetop/article/details/9123155
簡介
我們在hadoop深入研究:(一)——hdfs介紹里已講過,hdfs并不擅長存儲小文件,因為每個文件最少一個block,每個block的元數據都會在namenode節點占用內存,如果存在這樣大量的小文件,它們會吃掉namenode節點的大量內存。 hadoop Archives可以有效的處理以上問題,他可以把多個文件歸檔成為一個文件,歸檔成一個文件后還可以透明的訪問每一個文件,并且可以做為mapreduce任務的輸入。?
用法
hadoop Archives可以使用archive工具創建,同上一篇講的distcp一樣,archive也是一個mapreduce任務。首先我們先來看下我的目錄結構:?
[hadoop@namenode ~]$hadoop fs -lsr drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2013-06-20 12:37 /user/hadoop/har drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2013-05-23 11:35 /user/hadoop/input -rw-r--r-- ? 2 hadoop supergroup ? ? 888190 2013-05-23 11:35 /user/hadoop/input/1901 -rw-r--r-- ? 2 hadoop supergroup ? ? 888978 2013-05-23 11:35 /user/hadoop/input/1902 -rw-r--r-- ? 2 hadoop supergroup ? ? ? ?293 2013-06-02 17:44 /user/hadoop/news.txt 我們通過archive工具才對該目錄進行歸檔hadoop archive -archiveName input.har -p /user/hadoop/ input har archiveName指定archive的文件名,-p代表父目錄,可以把多個目錄文件放到archive里,我們來看下創建好的har文件。 [hadoop@namenode ~]$hadoop fs -ls har Found 1 items drwxr-xr-x - hadoop supergroup 0 2013-06-20 12:38 /user/hadoop/har/input.har [hadoop@namenode ~]$hadoop fs -ls har/input.har Found 4 items -rw-r--r-- 2 hadoop supergroup 0 2013-06-20 12:38 /user/hadoop/har/input.har/_SUCCESS -rw-r--r-- 5 hadoop supergroup 272 2013-06-20 12:38 /user/hadoop/har/input.har/_index -rw-r--r-- 5 hadoop supergroup 23 2013-06-20 12:38 /user/hadoop/har/input.har/_masterindex -rw-r--r-- 2 hadoop supergroup 1777168 2013-06-20 12:38 /user/hadoop/har/input.har/part-0 這里可以看到har文件包括,兩個索引文件,多個part文件,這里只顯示一個。part文件是多個原文件的集合,根據index文件去找到原文件。 如果用har uri去訪問的話,這些文件就會隱藏起來,只顯示原文件 [hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har drwxr-xr-x - hadoop supergroup 0 2013-05-23 11:35 /user/hadoop/har/input.har/input -rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902 -rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901 還可以象普通文件系統那樣訪問har下一級的文件 [hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har/input -rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902 -rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901 如果要遠程訪問的話可以使用以下命令 [hadoop@namenode ~]$hadoop fs -lsr har://hdfs-namenode:9000/user/hadoop/har/input.har/input -rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902 -rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901 har開頭說明時har文件系統,hdfs-域名:端口,har文件系統進行轉換直到har文件末位,例子中會轉換為hdfs://namenode:9000/user/hadoop/har/input.har,剩余的部分仍然用archive方式打開:input 刪除文件相對簡單,但需要遞歸刪除,否則報錯 [hadoop@namenode ~]$hadoop fs -rmr har/input.har Deleted hdfs://192.168.115.5:9000/user/hadoop/har/input.har
限制
archive文件有一些限制條件:
1.創建archive文件要消耗和原文件一樣多的硬盤空間
2.archive文件不支持壓縮,盡管archive文件看起來象已經被壓縮過了。
3.archive文件一旦創建就無法改變,這就意味這你要改一些東西的話,你需要創新創建archive文件
4.雖然解決了namenode的內存空間問題,但是在執行mapreduce時,會把多個小文件交給同一個mapreduce去split,這樣明顯是低效的
解決namenode內存的問題可以參照之前的文章中的hdfs federation。
?
?
?
轉載于:https://www.cnblogs.com/snake-hand/p/3149452.html
總結
以上是生活随笔為你收集整理的hadoop深入研究:(五)——Archives的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mxf转换工具(Aiseesoft MX
- 下一篇: 统计通话次数和时间的软件_通话时间统计a