本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。 # 叢集運作狀態指標疑難排解從 3.6.0 AWS ParallelCluster 版開始，叢集運作狀態指標會新增至 AWS ParallelCluster Amazon CloudWatch 儀表板。在下列各節中，您可以了解儀表板運作狀態指標，以及疑難排解和解決問題時可採取的動作。 **Topics** + [請參閱**執行個體佈建錯誤**圖表](#troubleshooting-v3-cluster-health-metrics-instance-provisioning) + [查看**運作狀態不佳的執行個體錯誤**圖表](#troubleshooting-v3-cluster-health-metrics-unhealthy-instance) + [請參閱**運算機群閒置時間**圖表](#troubleshooting-v3-cluster-health-metrics-idle-time-errors) ## 請參閱**執行個體佈建錯誤**圖表如果您在`Instance Provisioning Errors`圖形中看到非零值，則表示用於備份 slurm 節點的 Amazon EC2 執行個體無法在 `CreateFleet`或 `RunInstance` API 上啟動。 ### 查看 `IAMPolicyErrors` + **發生了什麼事？** 許多執行個體無法啟動，這是由於錯誤碼的許可不足所致`UnauthorizedOperation`。 + **如何解決？** 如果您已設定自訂 [`InstanceRole`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceRole)或 [`InstanceProfile`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceProfile)，請檢查您的 IAM 政策，並確認您使用的是正確的登入資料。檢查 `clustermgtd` 檔案是否有靜態節點錯誤詳細資訊。檢查 `slurm_resume.log` 檔案以取得動態節點錯誤詳細資訊。使用詳細資訊進一步了解必須新增的缺少許可。 ### 查看 `VcpuLimitErrors` + **發生了什麼事？** AWS ParallelCluster 無法啟動執行個體，因為它已達到您 AWS 帳戶為叢集運算節點設定之特定 Amazon EC2 執行個體類型的上的 vCPU 限制。 + **如何解決？** 檢查`clustermgtd`檔案中是否有靜態節點的`VcpuLimitExceeded`錯誤，並檢查`slurm_resume.log`檔案中是否有動態節點以取得其他詳細資訊。若要解決此問題，您可以請求提高 vCPU 限制。如需如何檢視目前限制和請求新限制的詳細資訊，請參閱《[Amazon Elastic Compute Cloud Linux 執行個體使用者指南》中的 Amazon Elastic Compute Cloud 服務配額](https://docs.aws.amazon.com//AWSEC2/latest/UserGuide/ec2-resource-limits.html)。 ** ### 查看 `VolumeLimitErrors` + **發生了什麼事？** 您已達到的 Amazon EBS 磁碟區限制 AWS 帳戶， AWS ParallelCluster 且無法使用錯誤代碼 `InsufficientVolumeCapacity`或啟動執行個體`VolumeLimitExceeded`。 + **如何解決？** 檢查`clustermgtd`檔案是否有靜態節點，並檢查`slurm_resume.log`檔案是否有動態節點，以取得額外的磁碟區限制詳細資訊。若要解決此問題，您可以使用不同的 AWS 區域清除現有磁碟區，或聯絡 AWS Support Center 提交請求以增加 Amazon EBS 磁碟區限制。 ### 查看 `InsufficientCapacityErrors` + **發生了什麼事？** AWS ParallelCluster 沒有足夠的容量來啟動 Amazon EC2 執行個體以恢復節點。 + **如何解決？** 檢查`clustermgtd`檔案是否有靜態節點，並檢查`slurm_resume.log`檔案是否有動態節點，以取得容量不足的錯誤詳細資訊。若要對問題進行疑難排解，請遵循 https：//[https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) 上的指引。 ### `OtherInstanceLaunchFailures` + **發生了什麼事？** 用於備份運算節點的 Amazon EC2 執行個體無法使用 `CreateFleet`或 `RunInstance` API 啟動。 + **如何解決？** 檢查`clustermgtd`檔案是否有靜態節點，並檢查`slurm_resume.log`檔案是否有動態節點以取得錯誤詳細資訊。 ## 查看**運作狀態不佳的執行個體錯誤**圖表 + **發生了什麼事？** 許多運算執行個體已啟動，但後來因運作狀態不佳而終止。 + **如何解決？** 如需故障診斷運作狀態不佳節點的詳細資訊，請參閱 [**對非預期的節點替換和終止進行故障診斷**](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-unexpected-node-replacements-and-terminations)。 ### 查看 `InstanceBootstrapTimeoutError` + **發生了什麼事？** 執行個體無法在 `resume_timeout`（適用於動態節點）或 `node_replacement_timeout`（適用於靜態節點）中聯結叢集。如果未針對運算節點正確設定網路，則可能會發生這種情況，或者如果在運算節點上執行的自訂指令碼需要太長的時間才能完成，則可能會發生這種情況。 + **如何解決？** 對於動態節點，請檢查`clustermgtd`日誌 (`/var/log/parallelcluster/clustermgtd`) 是否有運算節點 IP 地址和錯誤，如下所示： ``` Node bootstrap error: Resume timeout expires for node ``` 對於靜態節點，請檢查`clustermgtd`日誌 (`/var/log/parallelcluster/clustermgtd`) 是否有運算節點 IP 地址和錯誤，如下所示： ``` Node bootstrap error: Replacement timeout expires for node ... in replacement. ``` 如需其他詳細資訊，請檢查 `/var/log/cloud-init-output.log` 檔案是否有錯誤。您可以從 `clustermgtd`和 `slurm_resume`日誌檔案擷取有問題的運算節點 IP 地址。 ### 查看 `EC2HealthCheckErrors` + **發生了什麼事？** 執行個體未通過 Amazon EC2 運作狀態檢查。 + **如何解決？** 如需如何對此問題進行故障診斷的資訊，請參閱[對狀態檢查失敗的執行個體進行故障診斷](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstances.html)。 ### 查看 `ScheduledEventHealthCheckErrors` + **發生了什麼事？** 執行個體未通過 Amazon EC2 排程事件運作狀態檢查，而且運作狀態不佳。 + **如何解決？** 如需如何疑難排解此問題的資訊，請參閱[執行個體的排程事件](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html)。 ### 查看 `NoCorrespondingInstanceErrors` + **發生了什麼事？** AWS ParallelCluster 找不到執行個體後端節點。節點可能會在引導操作期間自行終止。/[`CustomActions`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-CustomActions)/ [`OnNodeStart`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeStart) \$1 [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues) [`OnNodeConfigured`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeConfigured)指令碼或網路錯誤可能會產生 `NoCorrespondingInstanceErrors`。 + **如何解決？** 如需其他詳細資訊，請檢查運算節點`/var/log/cloud-init-output.log`的。 ## 請參閱**運算機群閒置時間**圖表 ### 看到`MaxDynamicNodeIdleTime`明顯長於**閒置時間縮減**閾值的 + **發生了什麼事？** 您的執行個體未正確終止。 `MaxDynamicNodeIdleTime`顯示動態節點由 Amazon EC2 執行個體支援的閒置時間上限，以秒為單位。**閒置時間縮減**閾值衍生自叢集組態[`ScaledownIdletime`](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-ScaledownIdletime)參數。當運算節點閒置超過**閒置時間縮放**秒時，會關閉節點Slurm電源並 AWS ParallelCluster 終止備份執行個體。在這種情況下，某些情況會阻止執行個體終止。 + **如何解決？** 如需此問題的詳細資訊，請參閱 [**取代、終止或關閉有問題的執行個體和節點**](troubleshooting-v3-scaling-issues.md#replacing-terminating-or-powering-down-problematic-instances-and-nodes-v3)中的 [對擴展問題進行故障診斷](troubleshooting-v3-scaling-issues.md)。