View Categories

定制服务器操作手册(集群版)

一、集群启停标准操作流程​

!!!以下所有的操作都需要使用管理员(root)权限!!!

1. 集群启动规范操作

1.1 开启主节点,并启动Slurm 控制守护进程​和Slurm 数据库守护进程

systemctl restart slurmctld
systemctl restart slurmdbd

1.2 确认交换机已开启后,启动所有的计算节点,并启动Slurm节点守护进程

systemctl restart slurmd

2. 集群停止规范动作

2.1 终止所有已提交的任务

scancel -t PENDING && scancel -t RUNNING

2.2 按顺序依次关闭计算节点和主节点

shutdown -h now

二、账户管理

Linux 用户是Linux系统账户,用于登录集群、管理文件、运行程序等
Slurm 账户 ≠ Linux 用户​​,Slurm 账户可以看作是Linux用户的逻辑分组,用于管理计算资源分配​​,决定用户能使用多少 CPU、GPU、内存等

!!!以下所有的操作都需要使用管理员(root)权限!!!

1. 新建用户流程

1.1 使用以下命令新建Linux用户

useradd 用户名 -m -d /public/home/用户名 -s /bin/bash

新建的用户需要进一步设置密码

passwd 用户名

1.2 将新建的Linux用户关联到集群中名为user的Slurm账户下

sacctmgr -i add user 用户名 account=user

1.3 更新NIS数据库

cd /var/yp && make

2. 删除用户流程

2.1 将Linux用户与集群中名为user的Slurm账户的关联取消

sacctmgr -i del user 用户名 account=user

2.2 将Linux用户删除

userdel -rf 用户名

3. 为用户设置资源限制

3.1 设置用户可提交任务数量

sacctmgr -i modify user 用户名 set MaxSubmitJobs=2   #为用户设置最大提交作业数量为2
sacctmgr -i modify user 用户名 set MaxSubmitJobs=-1  #解除用户提交作业数量限制

3.2 设置用户可用CPU资源

sacctmgr -i modify user 用户名 set GrpTRES=cpu=128    #用户可用总CPU核心数为128
sacctmgr -i modify user 用户名 set GrpTRES=cpu=-1     #解除用户可用总CPU核心数限制
sacctmgr -i modify user 用户名 set MaxTRES=cpu=64     #用户每个任务可用最大核心数为64
sacctmgr -i modify user 用户名 set MaxTRES=cpu=-1     #解除用户每个任务可用最大CPU核心数限制

3.3 设置用户可用GPU资源

sacctmgr -i modify user 用户名 set GrpTRES=gres/gpu=8      #用户可用总GPU数量为8个
sacctmgr -i modify user 用户名 set GrpTRES=gres/gpu=-1     #解除用户可用总GPU数量限制
sacctmgr -i modify user 用户名 set MaxTRES=gres/gpu=4      #用户每个任务可用最大GPU数量为4
sacctmgr -i modify user 用户名 set MaxTRES=gres/gpu=-1     #解除用户每个任务可用最大GPU数量限制