torque配置
torque配置
- torque配置
- 實驗要求
- 通用環(huán)境配置
- 關(guān)閉防火墻
- 無密碼登陸
- 修改hosts文件
- torque 安裝
- server配置
- 節(jié)點配置
- 創(chuàng)建隊列
- 測試
- 串行文件測試
- 并行文件測試結(jié)合MPICH
- 出現(xiàn)錯誤
- 要點
實驗要求
在五臺機(jī)器上搭建torque分布式集群環(huán)境
lk:master
slave2~5:slave節(jié)點
通用環(huán)境配置
關(guān)閉防火墻
查看防火墻狀態(tài)
service iptables status
然后永久關(guān)閉防火墻,使用chkconfig iptables off命令,此時當(dāng)前虛擬機(jī)的防火墻還沒有關(guān)閉。只有在關(guān)機(jī)重啟后才能生效。
無密碼登陸
將A的公鑰放進(jìn)B的~/.ssh/authorized_keys,那么A就可以無密登陸B(tài)
先生成公私鑰對
ssh-keygen
默認(rèn)放在~/.ssh/中將公鑰弄進(jìn)B中
文件傳輸:xshell的rz和sz將公鑰放入~/.ssh/authorized_keys
用指令
cat id_rsa.pub >> ~/.ssh/authorized_keys
配置完成之后,就可以直接
ssh IP進(jìn)行登陸
修改hosts文件
- /etc/hosts
- /etc/hostname
在每個機(jī)器上的這個文件夾里面改成上面的對應(yīng)的昵稱
eg:在lk中,這個文件里面就是lk,在10.113.10.2 中,就是slave2
torque 安裝
server配置
下載torque
wget http://wpfilebase.s3.amazonaws.com/torque/torque-4.2.9.tar.gz
或者在官網(wǎng)下載解壓文件
- 編譯安裝
- 設(shè)置環(huán)境變量
初始化torque server db
./torque.setup root啟動pbs_server、pbs_sched、pbs_mom、trqauthd幾個服務(wù)
說明:Torque主要是由三個主要部件組成
pbs_server PBS服務(wù)守護(hù)進(jìn)程,負(fù)責(zé)接收作業(yè)提交,位于服務(wù)節(jié)點上
pbs_sched PBS調(diào)度守護(hù)進(jìn)程,負(fù)責(zé)調(diào)度作業(yè),位于服務(wù)節(jié)點上
pbs_mom PBS MOM守護(hù)進(jìn)程, 負(fù)責(zé)監(jiān)控本機(jī)并執(zhí)行作業(yè),位于所有計算節(jié)點上
- 配置torque
創(chuàng)建/var/spool/torque/mom_priv/config文件并寫入如下內(nèi)容
$pbsserver master $logevent 225- 將計算節(jié)點加入到服務(wù)節(jié)點中
編輯/var/spool/torque/server_priv/nodes文件并寫入如下內(nèi)容
- 配置hosts文件
添加自己所控制主機(jī)的IP以及主機(jī)名
類似于:
這里注意,各個主機(jī)的名字最好改一下,不要用一樣的,因為torque要用node節(jié)點的名字查找IP進(jìn)行通信,同時,所用node節(jié)點名字要與主機(jī)名對應(yīng)。
- 啟動torque
- 節(jié)點配置
然后sudo啟動qmgr:
若提示沒有該指令,則進(jìn)入 /usr/local/bin ,然后sudo啟動。
啟動后執(zhí)行以下指令:(括號內(nèi)可以不填,用簡寫即可)
節(jié)點配置
首先都要配置無密碼登陸,/etc/hosts,/etc/hostname這些文檔
從server中拷貝文件
將這兩個文件拷貝到計算節(jié)點上(或者是共享磁盤上),登錄進(jìn)計算節(jié)點,運(yùn)行:
- hosts設(shè)置
與服務(wù)節(jié)點相同,編輯 /etc/hosts ,添加相關(guān)主機(jī)名與IP
添加內(nèi)容:
$pbsserver master # hostname running pbs server $logevent 225 # bitmap of which events to log- 啟動mom服務(wù)
同樣進(jìn)入 /usr/local/sbin
- 查看torque狀態(tài)和節(jié)點狀態(tài)
ps -e | grep pbs
qnodes #或者是pbsnodes –a
結(jié)果
lkstate = freepower_state = Runningnp = 2ntype = clusterstatus = ......slave2state = freepower_state = Runningnp = 2ntype = clusterstatus = ...... slave3state = freepower_state = Runningnp = 2ntype = clusterstatus = ...... slave4state = freepower_state = Runningnp = 2ntype = clusterstatus = ......slave5state = freepower_state = Runningnp = 2ntype = clusterstatus = ......顯示free就是可以的
- 查看消息日志:
cd /var/spool/torque
進(jìn)入相關(guān)log文件夾查看
創(chuàng)建隊列
qmgr添加queue
自動搞定:
- 查看queue:
測試
- 常用指令
- torque的調(diào)度需要使用非root用戶
串行文件測試
[qsb@lk sharefold]$ cat 11.pbs #!/bin/bash #PBS -N job11 #PBS -o job11.log #PBS -e job11.err #PBS -q batch cd /data/sharefold echo Running on hosts `hostname` >> 11.txt echo Time is `date` >> 11.txt echo Directory is $PWD >> 11.txt echo This job runs on the following nodes: >> 11.txt cat $PBS_NODEFILE >> 11.txt echo This job has allocated 1 node >> 11.txt ./hello >> 11.txt并行文件測試(結(jié)合MPICH)
#!/bin/bash #PBS -N job22 #PBS -o /data/sharefold/job22.log #PBS -e /data/sharefold/job22.err #PBS -q batch #PBS -l nodes=4 cd /data/sharefold echo Time is `date` >>22.txt echo Directory is $PWD >>22.txt #echo This job runs on the following nodes: >>22.txt #cat $PBS_NODEFILE >>22.txt #NPROCS=`wc -l < $PBS_NODEFILE` >>22.txt #echo This job has allocated $NPROCS nodes >>22.txt mpiexec -machinefile machinefile -np 16 ./cpi >>22.txt運(yùn)行結(jié)果
出現(xiàn)錯誤
用腳本去寫的時候,因為參照網(wǎng)上的程序,用了$PBS_NODEFILE和$NPROCS nodes,導(dǎo)致一直沒有結(jié)果出來
直接使用正常的命令就行了
其實挺坑的,網(wǎng)上的不能全信
要點
hostname,hosts,還有/var/spool/torque/mom_priv/config里面的控制節(jié)點的名稱要相同,子節(jié)點的名稱要和子節(jié)點的hostname對應(yīng)上
修改完hostname之后要輸入 bash --login 進(jìn)行更新
不要輕易運(yùn)行 torque.setup ——會覆蓋之前的所有數(shù)據(jù)——什么運(yùn)算節(jié)點信息都會清除
總結(jié)
- 上一篇: Centos7安装搭建FTP服务器VSF
- 下一篇: mysql awr flush_如何使用