Hadoop LZO的安装与配置
2019獨角獸企業重金招聘Python工程師標準>>>
Hadoop支持好幾種壓縮算法,包括:
Bzip2
Gzip
DEFLATE
Hadoop提供這些算法的Java實現,所以可以很方便的通過FileSystem?API來進行文件的壓縮和解壓縮。這些壓縮算法都有一個缺陷,那就是文件不能被分片(splittable)。這就意味著采用這些算法進行壓縮的文件需要讀取整個文件才能將文件解壓縮。這對MapReduce會產生致命的影響,因為這意味著一個壓縮文件必須由一個map來處理。這也正是LZO優越之處,LZO壓縮的文件是可分片的(這要感謝Hadoop社區的不懈努力)。
LZO的安裝與配置步驟如下:
1.從https://github.com/kevinweil/hadoop-lzo下載Hadoop-LZO(注意Hadoop-LZO有兩個版本,分別由Cloudera和Twitter維護),一般建議采用Twitter版本。
2.安裝lzo和lzo-devel包。在聯網情況下可以非常方便的進行安裝。
在Red?Hat下通過下面的命令:
在Ubuntu下通過下面的命令:
如果是在斷網的情況下可以到網站http://www.oberhumer.com/opensource/lzo/下載lzo源碼,下載完成后通過下面的命令完成LZO的安裝:
安裝完成后要確保.so文件放在/usr/lib和/usr/lib64文件夾下面(/usr/lib/liblzo2.so?/usr/lib64/liblzo2.so)。LZO需要在集群中的每一個節點進行安裝。
安裝完成后最好把LZOP也安裝上,以便在本地使用,LZOP的下載地址:http://www.lzop.org/。
3.編譯和安裝Hadoop-LZO
首先需要下載和安裝apache-ant,這里不再做詳細的介紹。然后通過下面的命令進行編譯:
32位機器
64位機器
在編譯過程中需要ivy依賴解析,可以聯網活著將依賴包拷到機器上。
4.將編譯好的HADOOP-LZO拷貝到Hadoop安裝目錄下相應的文件夾。在Hadoop-LZO的主目錄下執行下面的相關命令:
5.配置Hadoop,在core-site.xml中添加如下內容:
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.BZip2Codec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec
</value>
</property>
<property>
<name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
6.測試Hadoop-Lzo是否安裝成功
首先在本地壓縮一個文件并將該文件put到HDFS:
對測試文件進行索引:
查看集群上是否有20120229.lzo.index:
如果索引文件存在則證明安裝成功。
轉載于:https://my.oschina.net/sdzzboy/blog/169676
總結
以上是生活随笔為你收集整理的Hadoop LZO的安装与配置的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一些与oracle相关的关于查询锁的信息
- 下一篇: 【九度OJ1518】|【剑指offer1