當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hadoop深入研究:(五)——Archives

發布時間：2023/12/10 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 hadoop深入研究:(五)——Archives 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載請注明來源地址：http://blog.csdn.net/lastsweetop/article/details/9123155

簡介

我們在hadoop深入研究:(一)——hdfs介紹里已講過，hdfs并不擅長存儲小文件，因為每個文件最少一個block，每個block的元數據都會在namenode節點占用內存，如果存在這樣大量的小文件，它們會吃掉namenode節點的大量內存。 hadoop Archives可以有效的處理以上問題，他可以把多個文件歸檔成為一個文件，歸檔成一個文件后還可以透明的訪問每一個文件，并且可以做為mapreduce任務的輸入。

用法

hadoop Archives可以使用archive工具創建，同上一篇講的distcp一樣，archive也是一個mapreduce任務。首先我們先來看下我的目錄結構：

[hadoop@namenode ~]$hadoop fs -lsr drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2013-06-20 12:37 /user/hadoop/har drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2013-05-23 11:35 /user/hadoop/input -rw-r--r-- ? 2 hadoop supergroup ? ? 888190 2013-05-23 11:35 /user/hadoop/input/1901 -rw-r--r-- ? 2 hadoop supergroup ? ? 888978 2013-05-23 11:35 /user/hadoop/input/1902 -rw-r--r-- ? 2 hadoop supergroup ? ? ? ?293 2013-06-02 17:44 /user/hadoop/news.txt 我們通過archive工具才對該目錄進行歸檔
hadoop archive -archiveName input.har -p /user/hadoop/ input har archiveName指定archive的文件名，-p代表父目錄，可以把多個目錄文件放到archive里，我們來看下創建好的har文件。 [hadoop@namenode ~]$hadoop fs -ls har Found 1 items drwxr-xr-x - hadoop supergroup 0 2013-06-20 12:38 /user/hadoop/har/input.har [hadoop@namenode ~]$hadoop fs -ls har/input.har Found 4 items -rw-r--r-- 2 hadoop supergroup 0 2013-06-20 12:38 /user/hadoop/har/input.har/_SUCCESS -rw-r--r-- 5 hadoop supergroup 272 2013-06-20 12:38 /user/hadoop/har/input.har/_index -rw-r--r-- 5 hadoop supergroup 23 2013-06-20 12:38 /user/hadoop/har/input.har/_masterindex -rw-r--r-- 2 hadoop supergroup 1777168 2013-06-20 12:38 /user/hadoop/har/input.har/part-0 這里可以看到har文件包括，兩個索引文件，多個part文件，這里只顯示一個。part文件是多個原文件的集合，根據index文件去找到原文件。如果用har uri去訪問的話，這些文件就會隱藏起來，只顯示原文件 [hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har drwxr-xr-x - hadoop supergroup 0 2013-05-23 11:35 /user/hadoop/har/input.har/input -rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902 -rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901 還可以象普通文件系統那樣訪問har下一級的文件 [hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har/input -rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902 -rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901 如果要遠程訪問的話可以使用以下命令 [hadoop@namenode ~]$hadoop fs -lsr har://hdfs-namenode:9000/user/hadoop/har/input.har/input -rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902 -rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901 har開頭說明時har文件系統，hdfs-域名:端口，har文件系統進行轉換直到har文件末位，例子中會轉換為hdfs://namenode:9000/user/hadoop/har/input.har,剩余的部分仍然用archive方式打開：input 刪除文件相對簡單，但需要遞歸刪除，否則報錯 [hadoop@namenode ~]$hadoop fs -rmr har/input.har Deleted hdfs://192.168.115.5:9000/user/hadoop/har/input.har

限制

archive文件有一些限制條件：

1.創建archive文件要消耗和原文件一樣多的硬盤空間

2.archive文件不支持壓縮，盡管archive文件看起來象已經被壓縮過了。

3.archive文件一旦創建就無法改變，這就意味這你要改一些東西的話，你需要創新創建archive文件

4.雖然解決了namenode的內存空間問題，但是在執行mapreduce時，會把多個小文件交給同一個mapreduce去split，這樣明顯是低效的

解決namenode內存的問題可以參照之前的文章中的hdfs federation。

轉載于:https://www.cnblogs.com/snake-hand/p/3149452.html

總結

以上是生活随笔為你收集整理的hadoop深入研究:(五)——Archives的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mxf转换工具(Aiseesoft MX
下一篇：统计通话次数和时间的软件_通话时间统计a