torque+maui作业调度
生活随笔
收集整理的這篇文章主要介紹了
torque+maui作业调度
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
關(guān)于Torque+maui調(diào)度
- 使用背景
- 解決方案
- 使用總結(jié):
- 一.相關(guān)命令
- 二.maui配置:
使用背景
針對(duì)實(shí)際集群環(huán)境中,計(jì)算資源總體數(shù)量固定,容易產(chǎn)生計(jì)算需求高峰,用戶的作業(yè)會(huì)出現(xiàn)排隊(duì)的現(xiàn)象。為保障關(guān)鍵計(jì)算任務(wù)的運(yùn)行,避免資源需求“潮汐”影響,需要對(duì)集群的作業(yè)進(jìn)行自動(dòng)化調(diào)度、排序。解決方案
1.限定用戶作業(yè)的最大作業(yè)數(shù)量、同一時(shí)刻的最大運(yùn)行總核數(shù)、用戶的優(yōu)先級(jí),當(dāng)高優(yōu)先級(jí)用戶作業(yè)未超出上述限定范圍,但計(jì)算作業(yè)依然因?yàn)橘Y源需求排隊(duì),無(wú)法計(jì)算時(shí),則殺死部 分普通用戶作業(yè)(低優(yōu)先級(jí)作業(yè)),以釋放資源,滿足重大計(jì)算任務(wù)運(yùn)行。2.由于 torque+maui 在調(diào)度策略上不支持搶占調(diào)度,因此需要額外開(kāi)發(fā)工具,定期檢測(cè)作業(yè)的運(yùn)行狀態(tài),并采用外力干預(yù)作業(yè)的運(yùn)行。若集群可以更換為 Slurm 或者 LSF 作業(yè)調(diào)度系統(tǒng),則可以使用作業(yè)調(diào)度自帶的搶占功能,進(jìn)行彌補(bǔ)。使用總結(jié):
一.相關(guān)命令
與作業(yè)相關(guān)TORQUE 和Maui 常用的用戶命令主要有:canceljob:取消已存在的作業(yè)checkjob:顯示作業(yè)狀態(tài)、資源需求、環(huán)境、限制、信任、歷史、已分配資源和資源利用等nqs2pbs:將nqs 作業(yè)腳本轉(zhuǎn)換為pbs 作業(yè)腳本pbsnodes:顯示節(jié)點(diǎn)信息printjob:顯示指定作業(yè)腳本中的作業(yè)信息qdel:取消指定的作業(yè)qhold:掛起一個(gè)作業(yè)qmove:將一個(gè)作業(yè)從一個(gè)隊(duì)列移到另一個(gè)隊(duì)列中qnodes:pbsnodes 的別名,顯示節(jié)點(diǎn)信息qorder:交換兩個(gè)作業(yè)的排隊(duì)順序qrls:將被掛起的作業(yè)送入準(zhǔn)備運(yùn)行的隊(duì)列中qselect:顯示符合條件的作業(yè)的作業(yè)號(hào)qstat:顯示隊(duì)列、服務(wù)節(jié)點(diǎn)和作業(yè)的信息qsub:提交作業(yè)showbf:顯示有特殊資源需求的資源的可用性showq:顯示已激活和空閑的作業(yè)的優(yōu)先級(jí)細(xì)節(jié)showstart:顯示空閑作業(yè)的估計(jì)開(kāi)始時(shí)間tracejob:追蹤作業(yè)信息diagnose -p:查看正在排隊(duì)的任務(wù)的優(yōu)先值setspri 優(yōu)先值 JOBID:(maui命令)將JOBID的任務(wù)的優(yōu)先值修改為現(xiàn)在的優(yōu)先值,優(yōu)先值在0-1000之內(nèi)setspri -r 優(yōu)先值 JOBID:(maui命令)在現(xiàn)有的優(yōu)先值的基礎(chǔ)上加上或者減去指定的優(yōu)先值。優(yōu)先值的范圍在+/- 1000000000qhold JOBID:(torque的命令)將JOBID從排隊(duì)的隊(duì)列中暫停排隊(duì)qrls JOBID:(torque的命令)將被暫停掉的JOBID放回到隊(duì)列中,參與排隊(duì)。這個(gè)時(shí)候,任務(wù)的優(yōu)先值從頭計(jì)算。以前的優(yōu)先值丟失sethold -b JOBID:(maui的命令)將JOBID從排隊(duì)的隊(duì)列中暫停排隊(duì)。releasehold -a JOBID:(maui的命令)將被暫停掉的JOBID放回到隊(duì)列中,參與排隊(duì)。qmgr -c "p s":查看創(chuàng)建的隊(duì)列情況qrerun jobid:重新提交作業(yè),作業(yè)id和原作業(yè)相同注:具體請(qǐng)參考TORQUE 和Maui 用戶手冊(cè)。二.maui配置:
范例1:USERCFG[user1] MAXJOB=3 MAXPROC=64 RIORITY=1000說(shuō)明:用戶 user1,最多 3 個(gè) running 的作業(yè),一共最多 64 核,該用戶作業(yè)初始優(yōu)先級(jí)為 1000。 范例2:USERWEIGHT 2GROUPWEIGHT 1GROUPCFG[test1] PRIORITY=100GROUPCFG[test2] PRIORITY=1000說(shuō)明:用戶組test1中用戶提交的作業(yè)初始優(yōu)先級(jí)為 100。用戶組test2中用戶提交的作業(yè)初始優(yōu)先級(jí)為 1000,且用戶組設(shè)置的權(quán)重為1,如果用戶組test1、test2中設(shè)置了部分用戶的有限級(jí),USERWEIGHT 2表名用戶維度的優(yōu)先值權(quán)重為2。總優(yōu)先值=(A prioritiy)*(A WEIGHT)+(B prioritiy)*(B WEIGHT)+……關(guān)于隊(duì)列,節(jié)點(diǎn)等配置后續(xù)使用過(guò)程中繼續(xù)更新。因?qū)嫶蟮恼{(diào)度系統(tǒng)相關(guān)內(nèi)容研究淺薄,以上使用場(chǎng)景只是冰山一角,如有問(wèn)題,歡迎小伙們指正。總結(jié)
以上是生活随笔為你收集整理的torque+maui作业调度的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: matlab ecef2enu函数,GP
- 下一篇: osg+shader光照半透明