linux 安装 hadoop
http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece76310438633460e97634b8f83512c83d81f84642c101a39feeb797f4519d2c77a6d00ae5d19b7b0607d69587cf0d1df883b87e8c47572ca3034010bf64605a01eb8bb3632b553&p=9d6dc64ad3d51dc31dbd9b7911&user=baidu
?
?NOTE:因為hadoop遠程調用用的是RPC,所以linux系統必須關閉防火墻
????? service iptables stop
???? 格式化:hadoop namenode -format
1.vi /etc/inittab
? id:5:initdefault:改為id:3:initdefault:即為字符型啟動
2.ip configuration:/etc/sysconfig/network-scripts/
3.vi /etc/hosts,add hostname
4.useradd hadoop :增加一個用戶
? passwd hadoop? :給用戶加密碼
5.對于以下文件:
? -rw-r--r-- 1 root root 42266180 Dec 26 10:08 hadoop-0.19.0.tar.gz
? 可用如下的命令修改:
? chmod 777 hadoop hadoop-0.19.0.tar.gz :修改文件權限為最大權限
? chown hadoop.hadoop hadoop-0.19.0.tar.gz :修改文件的所有者和組所有者都改為hadoop
6.在每臺master和slavers上各增加ssh授權(在hadoop用戶下操作)
? 用ssh-keygen -t rsa命令后一路三個回車
? cd .ssh
? cp id_rsa.pub authorized_keys
? 通過scp將master上的authorized_keys文件Copy到其他所有slaves機器上如:
? scp authorized_keys? root@slave01:/home/hadoop/master_au_keys
? 同時將每天slave機器上的authorized_keys也copy到master機器上增加進master的authorized_keys中
? 用ssh master或ssh slave01不用密碼,即OK!
7.安裝JDK
? 到sun網站下載JDK安裝包jdk-6u11-linux-i586.bin,copy到機器的usr目錄中,并在每臺機器的root用戶下面安裝.
? 在root用戶下:
? cd /usr
? chmod +x jdk-6u11-linux-i586.bin? 給安裝文件增加執行權限.
? ./jdk-6u11-linux-i586.bin,按提示按幾個空格健后,輸入yes后開始安裝jdk6.
? 安裝好后,將目錄名修改為jdk6.
注(Centos5.2可以不用刪除1.4的jdk了):一般linux里安裝好后自帶一個1.4的jdk,必須刪除.
? rpm -qa |grep -i java,將查看到的包含java的rmp包全部刪除.
? rpm -e 包名.
? 設置JDK的環境變量,考慮到JDK可能會有其他系統用戶也會用到,建議將環境變量直接設置在/etc/profile中具體內容:
? export JAVA_HOME=/usr/jdk6
? export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
? export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin
? 用source /etc/profile使用java環境生效.
8.Hadoop環境變量設置和配置文件修改
? 在conf/hadoop-env文件里增加jdk目錄
? export JAVA_HOME=/usr/jdk6
? 在masters里增加nameNode機器名:master
? 在slavers里增加dataNode機器名:slave01...
?
? 在/etc/profile文件中增加hadoop的path路徑:
? export HADOOP_HOME=/home/hadoop/hadoop-0.19.0
? export PATH=$PATH:$HADOOP_HOME/bin
? 修改hadoop-site.xml
? 增加以下內容:
<configuration>
? <property>
?? <name>fs.default.name</name>//你的namenode的配置,機器名加端口
?? <value>hdfs://10.2.224.46:54310/</value>
</property>
<property>
?? <name>mapred.job.tracker</name>//你的JobTracker的配置,機器名加端口
?? <value>hdfs://10.2.224.46:54311/</value>
</property>
<property>
?? <name>dfs.replication</name>//數據需要備份的數量,默認是三
?? <value>1</value>
</property>
<property>
??? <name>hadoop.tmp.dir</name>//Hadoop的默認臨時路徑,這個最好配置,然后在新增節點或者其他情況下莫名其妙的DataNode啟動不了,就刪除此文件中的tmp目錄即可。不過如果刪除了NameNode機器的此目錄,那么就需要重新執行NameNode格式化的命令了。
??? <value>/home/hadoop/tmp/</value>
</property>
<property>
? <name>dfs.name.dir</name>
? <value>/home/hadoop/name/</value>
?
</property>
<property>
? <name>dfs.data.dir</name>
? <value>/home/hadoop/data/</value>
?
</property>
<property>
?? <name>mapred.child.java.opts</name>//java虛擬機的一些參數可以參照配置
?? <value>-Xmx512m</value>
</property>
<property>
? <name>dfs.block.size</name>//block的大小,單位字節,后面會提到用處,必須是512的倍數,因為采用crc作文件完整性交驗,默認配置512是checksum的最小單元。
? <value>5120000</value>
? <description>The default block size for new files.</description>
</property>
</configuration>
-----------------------
啟動之前,我們先要格式化namenode,先進入~/HadoopInstall/hadoop目錄,執行下面的命令
$bin/hadoop namenode -format
下面就該正式啟動hadoop啦,在bin/下面有很多啟動腳本,可以根據自己的需要來啟動。
* start-all.sh 啟動所有的Hadoop守護。包括namenode, datanode, jobtracker, tasktrack
* stop-all.sh 停止所有的Hadoop
* start-mapred.sh 啟動Map/Reduce守護。包括Jobtracker和Tasktrack
* stop-mapred.sh 停止Map/Reduce守護
* start-dfs.sh 啟動Hadoop DFS守護.Namenode和Datanode
* stop-dfs.sh 停止DFS守護
--------------------------
查看和測試
bin/hadoop dfsadmin -report? 查看所有的datanode節點情況
通過web形式去瀏覽 NameNode和 JobTracker
??? * NameNode - http://10.0.0.88:50070
??? * JobTracker - http://10.0.0.88:50030
------------------
linux文件compress
打包:tar cvf 打包后文件名.tar 要打包的目錄名
壓縮:gzip 壓縮文件? ==>*.tar.gz
解包: tar xvzf *.tar.gz
總結
以上是生活随笔為你收集整理的linux 安装 hadoop的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux 下安装java
- 下一篇: ubuntu linux 下 singl