View Categories

任务提交与管理

一、Slurm作业管理系统

2.5 scontrol

2.6 srun

srun 命令示例:

交互式提交 A.exe 程序,其中,
-p CPU 指定提交作业到CPU队列
-w node01 指定使用node01节点
-n 48 指定总核数为48
-t 20 指定作业运行时间限制为20分钟

2.7 salloc

salloc命令的作用是申请计算节点,然后用户登录到申请到的计算节点上运行任务,salloc 与 sbatch 有几乎相同的参数,不同的是,sbatch在申请到资源后,直接跳转到申请到的计算节点运行脚本中的指令,而salloc只是申请资源,并不会自动跳转到节点执行指令

示例用法

执行salloc命令申请CPU队列的1个节点48核CPU资源

vasp6666@login01:~$ salloc -n 48 -p CPU
salloc: Granted job allocation 5194
salloc: Waiting for resource configuration
salloc: Nodes node01 are ready for job

2、根据屏幕分配的节点(比如是node节点),执行ssh node01登陆到所分配的节点

vasp6666@login01:~$ ssh node01

3、登陆计算节点后可以执行需要的提交命令或程序,比如程序编译安装

vasp6666@node01:~$ source /public/toolkit/oneapi_2023.2/setvar.sh
vasp6666@node01:~$ make DEPS=1 -j 48

4、作业结束后,执行scancel JOBID释放分配模式作业的节点资源

vasp6666@node01:~$ scancel 5194
salloc: Job allocation 5194 has been revoked.
vasp6666@login01:~$