View Categories

定制服务器操作手册(集群版)

一、集群启停标准操作流程​

1. 集群启动规范操作

1.1 开启主节点,并启动Slurm 控制守护进程​和Slurm 数据库守护进程

2. 集群停止规范动作

二、账户管理

Linux 用户是Linux系统账户,用于登录集群、管理文件、运行程序等
Slurm 账户 ≠ Linux 用户​​,Slurm 账户可以看作是Linux用户的逻辑分组,用于管理计算资源分配​​,决定用户能使用多少 CPU、GPU、内存等

1. 新建用户流程

2. 删除用户流程

2.2 将Linux用户删除

3. 为用户设置资源限制

3.1 设置用户可提交任务数量

sacctmgr -i modify user 用户名 set MaxSubmitJobs=2   #为用户设置最大提交作业数量为2
sacctmgr -i modify user 用户名 set MaxSubmitJobs=-1  #解除用户提交作业数量限制

3.2 设置用户可用CPU资源

sacctmgr -i modify user 用户名 set GrpTRES=cpu=128    #用户可用总CPU核心数为128
sacctmgr -i modify user 用户名 set GrpTRES=cpu=-1     #解除用户可用总CPU核心数限制
sacctmgr -i modify user 用户名 set MaxTRES=cpu=64     #用户每个任务可用最大核心数为64
sacctmgr -i modify user 用户名 set MaxTRES=cpu=-1     #解除用户每个任务可用最大CPU核心数限制

3.3 设置用户可用GPU资源

sacctmgr -i modify user 用户名 set GrpTRES=gres/gpu=8      #用户可用总GPU数量为8个
sacctmgr -i modify user 用户名 set GrpTRES=gres/gpu=-1     #解除用户可用总GPU数量限制
sacctmgr -i modify user 用户名 set MaxTRES=gres/gpu=4      #用户每个任务可用最大GPU数量为4
sacctmgr -i modify user 用户名 set MaxTRES=gres/gpu=-1     #解除用户每个任务可用最大GPU数量限制

三、集群状态监控

1. 集群资源监控

2. 集群硬件监控