本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。 # 集群运行状况指标故障排除从 3.6.0 AWS ParallelCluster 版开始，集群运行状况指标已添加到 AWS ParallelCluster Amazon CloudWatch 控制面板中。在以下各节中，您可以了解控制面板运行状况指标以及可用于排除和解决问题的操作。 **Topics** + [看到**实例预置错误**图表](#troubleshooting-v3-cluster-health-metrics-instance-provisioning) + [看到**运行状况不佳的实例错误**图表](#troubleshooting-v3-cluster-health-metrics-unhealthy-instance) + [看到**计算实例集空闲时间**图表](#troubleshooting-v3-cluster-health-metrics-idle-time-errors) ## 看到**实例预置错误**图表如果您在`Instance Provisioning Errors`图表中看到非零值，则表示用于支持 Slurm 节点的 Amazon EC2 实例无法在 `CreateFleet` 或 `RunInstance` API 上启动。 ### 看到 `IAMPolicyErrors` + **发生了什么？** 权限不足导致许多实例启动失败，错误代码为 `UnauthorizedOperation`。 + **如何解决？** 如果您配置了自定义 [`InstanceRole`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceRole) 或 [`InstanceProfile`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceProfile)，请检查 IAM 策略并验证使用的凭证是否正确。检查 `clustermgtd` 文件以查看静态节点错误详细信息。检查 `slurm_resume.log` 文件以查看动态节点错误详细信息。通过详细信息进一步了解必须添加的缺失权限。 ### 看到 `VcpuLimitErrors` + **发生了什么？** AWS ParallelCluster 无法启动实例，因为它已达到您 AWS 账户为集群计算节点配置的特定 Amazon EC2 实例类型的 vCPU 限制。 + **如何解决？** 在静态节点的 `clustermgtd` 文件和动态节点的 `slurm_resume.log` 文件中检查 `VcpuLimitExceeded` 错误，以获取更多详细信息。要解决此问题，您可以请求提高 vCPU 限制。有关如何查看当前限制和请求新限制的更多信息，请参阅《Amazon Elastic Compute Cloud 用户指南（适用于 Linux 实例）》**中的 [Amazon Elastic Compute Cloud 服务限额](https://docs.aws.amazon.com//AWSEC2/latest/UserGuide/ec2-resource-limits.html)。 ### 看到 `VolumeLimitErrors` + **发生了什么？** 您已达到自己的 Amazon EBS 容量限制 AWS 账户， AWS ParallelCluster 并且无法启动带有错误代码`InsufficientVolumeCapacity`或`VolumeLimitExceeded`的实例。 + **如何解决？** 对静态节点检查 `clustermgtd` 文件，对动态节点检查 `slurm_resume.log` 文件，以获取更多卷限制详细信息。要解决此问题，您可以使用其他卷清理现有卷 AWS 区域，或者联系 AWS 支持中心提交提高 Amazon EBS 卷限制的请求。 ### 看到 `InsufficientCapacityErrors` + **发生了什么？** AWS ParallelCluster 没有足够的容量启动 Amazon EC2 实例来支持节点。 + **如何解决？** 对静态节点检查 `clustermgtd` 文件，对动态节点检查 `slurm_resume.log` 文件，以获取容量不足错误的详细信息。要对问题进行故障排除，请按照[https://aws.amazon.com/premiumsupport/知识中心/ec2-/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)中的指导进行操作。insufficient-capacity-errors ### `OtherInstanceLaunchFailures` + **发生了什么？** 用于支持计算节点的 Amazon EC2 实例无法使用 `CreateFleet` 或 `RunInstance` API 启动。 + **如何解决？** 对静态节点检查 `clustermgtd` 文件，对动态节点检查 `slurm_resume.log` 文件，以获取错误的详细信息。 ## 看到**运行状况不佳的实例错误**图表 + **发生了什么？** 许多计算实例已启动，但随后因运行状况不佳而终止。 + **如何解决？** 有关排查运行状况不佳的节点的更多信息，请参阅[**排查意外节点替换和终止问题**](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-unexpected-node-replacements-and-terminations)。 ### 看到 `InstanceBootstrapTimeoutError` + **发生了什么？** 实例无法在 `resume_timeout` 内（对于动态节点）或 `node_replacement_timeout` 内（对于静态节点）加入集群。如果没有为计算节点正确配置网络，则可能会发生这种情况，或者，如果在计算节点上运行的自定义脚本需要太长时间才能完成，则可能会发生这种情况。 + **如何解决？** 对于动态节点，检查 `clustermgtd` 日志 (`/var/log/parallelcluster/clustermgtd`) 以查看计算节点 IP 地址和错误，例如以下内容： ``` Node bootstrap error: Resume timeout expires for node ``` 对于静态节点，检查 `clustermgtd` 日志 (`/var/log/parallelcluster/clustermgtd`) 以查看计算节点 IP 地址和错误，例如以下内容： ``` Node bootstrap error: Replacement timeout expires for node ... in replacement. ``` 有关更多详细信息，请检查 `/var/log/cloud-init-output.log` 文件中的错误。您可以从 `clustermgtd` 和 `slurm_resume` 日志文件中检索有问题的计算节点的 IP 地址。 ### 看到 `EC2HealthCheckErrors` + **发生了什么？** 实例未通过 Amazon EC2 运行状况检查。 + **如何解决？** 有关如何排查此问题的信息，请参阅[通过故障状态检查来排查实例问题](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstances.html)。 ### 看到 `ScheduledEventHealthCheckErrors` + **发生了什么？** 实例未通过 Amazon EC2 计划事件运行状况检查，并且运行状况不佳。 + **如何解决？** 有关如何排查此问题的信息，请参阅[实例的计划事件](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html)。 ### 看到 `NoCorrespondingInstanceErrors` + **发生了什么？** AWS ParallelCluster 找不到支持节点的实例。这些节点可能已在引导操作期间自行终止。[`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues)/[`CustomActions`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-CustomActions)/[`OnNodeStart`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeStart) \$1 [`OnNodeConfigured`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeConfigured) 脚本或网络错误可能会产生 `NoCorrespondingInstanceErrors`。 + **如何解决？** 有关更多详细信息，请检查 `/var/log/cloud-init-output.log` 以查看计算节点。 ## 看到**计算实例集空闲时间**图表 ### 看到 `MaxDynamicNodeIdleTime` 远长于**空闲时间缩减**阈值 + **发生了什么？** 实例未正确终止。`MaxDynamicNodeIdleTime` 显示由 Amazon EC2 实例支持的动态节点处于空闲状态的最长时间（以秒为单位）。**空闲时间缩减**阈值源自集群配置 [`ScaledownIdletime`](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-ScaledownIdletime) 参数。当计算节点的闲置**时间超过 Idle Time Scaledown** 秒数时，Slurm会关闭该节点的电源并 AWS ParallelCluster 终止后备实例。在这种情况下，某些因素会阻止实例终止。 + **如何解决？** 有关此问题的更多信息，请参阅[排查扩展问题](troubleshooting-v3-scaling-issues.md)中的[**替换、终止或关闭有问题的实例和节点**](troubleshooting-v3-scaling-issues.md#replacing-terminating-or-powering-down-problematic-instances-and-nodes-v3)。