

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 对 PCS 中的 Slurm 重启问题进行故障排除 AWS
<a name="slurm-reboot-troubleshooting"></a>

遇到节点重启问题时，请先使用检查节点状态`scontrol show node {{nodename}}`。然后检查 Slurm（slurmctld 和 slurmd）和 CloudWatch 系统日志的日志，以确定潜在的错误。

要进行基本的故障排除，请验证网络连接，检查安全组设置，并确保重启后所有必需的服务都在运行。如果完成基本故障排除步骤后问题仍然存在，请联系 Supp AWS ort。联系支持人员时，请提供相关的日志摘录、节点状态信息和重启尝试的时间表，以帮助加快解决过程。

## 其他资源
<a name="slurm-reboot-troubleshooting-additional-resources"></a>
+ 有关使用监控 AWS PCS 实例的信息 CloudWatch，请参阅[使用 Amazon 监控 AWS PCS 实例 CloudWatch](https://docs.aws.amazon.com/pcs/latest/userguide/monitoring-cloudwatch_instances.html)。
+ 有关一般故障排除，请参阅[对 AWS 并行计算服务中的问题进行故障排除](troubleshooting.md)。
+ 有关 Slurm 文档，请参阅 [Slur](https://slurm.schedmd.com/troubleshoot.html) m 故障排除指南。