一、集群启停标准操作流程
!!!以下所有的操作都需要使用管理员(root)权限!!!
1. 集群启动规范操作
1.1 开启主节点,并启动Slurm 控制守护进程和Slurm 数据库守护进程
systemctl restart slurmctld
systemctl restart slurmdbd
1.2 确认交换机已开启后,启动所有的计算节点,并启动Slurm节点守护进程
systemctl restart slurmd
2. 集群停止规范动作
2.1 终止所有已提交的任务
scancel -t PENDING && scancel -t RUNNING
2.2 按顺序依次关闭计算节点和主节点
shutdown -h now
二、账户管理

Linux 用户是Linux系统账户,用于登录集群、管理文件、运行程序等
Slurm 账户 ≠ Linux 用户,Slurm 账户可以看作是Linux用户的逻辑分组,用于管理计算资源分配,决定用户能使用多少 CPU、GPU、内存等
!!!以下所有的操作都需要使用管理员(root)权限!!!
1. 新建用户流程
1.1 使用以下命令新建Linux用户
useradd 用户名 -m -d /public/home/用户名 -s /bin/bash
新建的用户需要进一步设置密码
passwd 用户名
1.2 将新建的Linux用户关联到集群中名为user的Slurm账户下
sacctmgr -i add user 用户名 account=user
1.3 更新NIS数据库
cd /var/yp && make
2. 删除用户流程
2.1 将Linux用户与集群中名为user的Slurm账户的关联取消
sacctmgr -i del user 用户名 account=user
2.2 将Linux用户删除
userdel -rf 用户名
3. 为用户设置资源限制
3.1 设置用户可提交任务数量
sacctmgr -i modify user 用户名 set MaxSubmitJobs=2 #为用户设置最大提交作业数量为2
sacctmgr -i modify user 用户名 set MaxSubmitJobs=-1 #解除用户提交作业数量限制
3.2 设置用户可用CPU资源
sacctmgr -i modify user 用户名 set GrpTRES=cpu=128 #用户可用总CPU核心数为128
sacctmgr -i modify user 用户名 set GrpTRES=cpu=-1 #解除用户可用总CPU核心数限制
sacctmgr -i modify user 用户名 set MaxTRES=cpu=64 #用户每个任务可用最大核心数为64
sacctmgr -i modify user 用户名 set MaxTRES=cpu=-1 #解除用户每个任务可用最大CPU核心数限制
3.3 设置用户可用GPU资源
sacctmgr -i modify user 用户名 set GrpTRES=gres/gpu=8 #用户可用总GPU数量为8个
sacctmgr -i modify user 用户名 set GrpTRES=gres/gpu=-1 #解除用户可用总GPU数量限制
sacctmgr -i modify user 用户名 set MaxTRES=gres/gpu=4 #用户每个任务可用最大GPU数量为4
sacctmgr -i modify user 用户名 set MaxTRES=gres/gpu=-1 #解除用户每个任务可用最大GPU数量限制
