

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 PCS 中使用 Slurm 重启计算节点 AWS
<a name="slurm-reboot"></a>

AWS PCS 支持 Slurm 的原`scontrol reboot`生命令。使用此命令可在不更换 EC2 实例的情况下重启计算节点。其他重启方法（Amazon EC2 控制台 AWS CLI、自动补丁或系统维护）会导致 AWS PCS 认为 EC2 实例运行状况不佳并替换它。

## 重启 Slurm 的好处
<a name="slurm-reboot-benefits"></a>

Slurm 重启为集群维护提供了多种优势：
+ **保留容量**-避免将容量受限的 EC2 实例丢给其他客户。
+ **降低成本** — 消除不必要的实例更换周期和对闲置节点的持续计费。
+ **更快的恢复** — 与更换实例相比，没有配置延迟。
+ **操作灵活性** — 清除内存泄漏、删除临时文件以及将节点从降级状态中恢复。

## 何时使用 Slurm 重启
<a name="slurm-reboot-use-cases"></a>

在常见的操作维护场景中使用 Slurm 重启：
+ **故障排除**-解决性能问题或进程无响应，尤其是 GPU 节点。
+ **资源清理**-清除影响作业性能的内存泄漏`/tmp`、临时文件或卡住的进程。
+ **恢复**-在要求更换完整节点之前，将节点从挂起或降级状态中恢复。

## 限制
<a name="slurm-reboot-limitations"></a>
+ 只有 Slurm 管理员用户（root 用户）可以执行重启命令。
+ 重启支持`scontrol reboot`仅限于。
+ RebootProgram 不支持配置。
+ 没有控制台界面 — 仅限命令行。

**Topics**
+ [重启 Slurm 的好处](#slurm-reboot-benefits)
+ [何时使用 Slurm 重启](#slurm-reboot-use-cases)
+ [限制](#slurm-reboot-limitations)
+ [在 PCS 中使用 Slurm 重启计算节点 AWS](slurm-reboot-procedure.md)
+ [取消 AWS PCS 中待重启的操作](slurm-reboot-cancel.md)
+ [PCS 中的 Slurm 重启常见问题解答 AWS](slurm-reboot-faq.md)
+ [对 PCS 中的 Slurm 重启问题进行故障排除 AWS](slurm-reboot-troubleshooting.md)