

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 叢集運作狀態指標疑難排解
<a name="troubleshooting-v3-cluster-health-metrics"></a>

從 3.6.0 AWS ParallelCluster 版開始，叢集運作狀態指標會新增至 AWS ParallelCluster Amazon CloudWatch 儀表板。在下列各節中，您可以了解儀表板運作狀態指標，以及疑難排解和解決問題時可採取的動作。

**Topics**
+ [請參閱**執行個體佈建錯誤**圖表](#troubleshooting-v3-cluster-health-metrics-instance-provisioning)
+ [查看**運作狀態不佳的執行個體錯誤**圖表](#troubleshooting-v3-cluster-health-metrics-unhealthy-instance)
+ [請參閱**運算機群閒置時間**圖表](#troubleshooting-v3-cluster-health-metrics-idle-time-errors)

## 請參閱**執行個體佈建錯誤**圖表
<a name="troubleshooting-v3-cluster-health-metrics-instance-provisioning"></a>

如果您在`Instance Provisioning Errors`圖形中看到非零值，則表示用於備份 slurm 節點的 Amazon EC2 執行個體無法在 `CreateFleet`或 `RunInstance` API 上啟動。

### 查看 `IAMPolicyErrors`
<a name="troubleshooting-v3-cluster-health-metrics-iam-policy"></a>
+ **發生了什麼事？**

  許多執行個體無法啟動，這是由於錯誤碼 的許可不足所致`UnauthorizedOperation`。
+ **如何解決？**

  如果您已設定自訂 [`InstanceRole`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceRole)或 [`InstanceProfile`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceProfile)，請檢查您的 IAM 政策，並確認您使用的是正確的登入資料。

  檢查 `clustermgtd` 檔案是否有靜態節點錯誤詳細資訊。檢查 `slurm_resume.log` 檔案以取得動態節點錯誤詳細資訊。使用詳細資訊進一步了解必須新增的缺少許可。

### 查看 `VcpuLimitErrors`
<a name="troubleshooting-v3-cluster-health-metrics-vcpu-limit"></a>
+ **發生了什麼事？**

  AWS ParallelCluster 無法啟動執行個體，因為它已達到您 AWS 帳戶 為叢集運算節點設定之特定 Amazon EC2 執行個體類型的 上的 vCPU 限制。
+ **如何解決？**

  檢查`clustermgtd`檔案中是否有靜態節點的`VcpuLimitExceeded`錯誤，並檢查`slurm_resume.log`檔案中是否有動態節點以取得其他詳細資訊。若要解決此問題，您可以請求提高 vCPU 限制。如需如何檢視目前限制和請求新限制的詳細資訊，請參閱《[Amazon Elastic Compute Cloud Linux 執行個體使用者指南》中的 Amazon Elastic Compute Cloud 服務配額](https://docs.aws.amazon.com//AWSEC2/latest/UserGuide/ec2-resource-limits.html)。 **

### 查看 `VolumeLimitErrors`
<a name="troubleshooting-v3-cluster-health-metrics-volume-limit"></a>
+ **發生了什麼事？**

  您已達到 的 Amazon EBS 磁碟區限制 AWS 帳戶， AWS ParallelCluster 且無法使用錯誤代碼 `InsufficientVolumeCapacity`或 啟動執行個體`VolumeLimitExceeded`。
+ **如何解決？**

  檢查`clustermgtd`檔案是否有靜態節點，並檢查`slurm_resume.log`檔案是否有動態節點，以取得額外的磁碟區限制詳細資訊。若要解決此問題，您可以使用不同的 AWS 區域清除現有磁碟區，或聯絡 AWS Support Center 提交請求以增加 Amazon EBS 磁碟區限制。

### 查看 `InsufficientCapacityErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ice"></a>
+ **發生了什麼事？**

  AWS ParallelCluster 沒有足夠的容量來啟動 Amazon EC2 執行個體以恢復節點。
+ **如何解決？**

  檢查`clustermgtd`檔案是否有靜態節點，並檢查`slurm_resume.log`檔案是否有動態節點，以取得容量不足的錯誤詳細資訊。若要對問題進行疑難排解，請遵循 https：//[https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) 上的指引。

### `OtherInstanceLaunchFailures`
<a name="troubleshooting-v3-cluster-health-metrics-other-launch-failures"></a>
+ **發生了什麼事？**

  用於備份運算節點的 Amazon EC2 執行個體無法使用 `CreateFleet`或 `RunInstance` API 啟動。
+ **如何解決？**

  檢查`clustermgtd`檔案是否有靜態節點，並檢查`slurm_resume.log`檔案是否有動態節點以取得錯誤詳細資訊。

## 查看**運作狀態不佳的執行個體錯誤**圖表
<a name="troubleshooting-v3-cluster-health-metrics-unhealthy-instance"></a>
+ **發生了什麼事？**

  許多運算執行個體已啟動，但後來因運作狀態不佳而終止。
+ **如何解決？**

  如需故障診斷運作狀態不佳節點的詳細資訊，請參閱 [**對非預期的節點替換和終止進行故障診斷**](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-unexpected-node-replacements-and-terminations)。

### 查看 `InstanceBootstrapTimeoutError`
<a name="troubleshooting-v3-cluster-health-metrics-bootstrap-timeout"></a>
+ **發生了什麼事？**

  執行個體無法在 `resume_timeout`（適用於動態節點） 或 `node_replacement_timeout`（適用於靜態節點） 中聯結叢集。如果未針對運算節點正確設定網路，則可能會發生這種情況，或者如果在運算節點上執行的自訂指令碼需要太長的時間才能完成，則可能會發生這種情況。
+ **如何解決？**

  對於動態節點，請檢查`clustermgtd`日誌 (`/var/log/parallelcluster/clustermgtd`) 是否有運算節點 IP 地址和錯誤，如下所示：

  ```
  Node bootstrap error: Resume timeout expires for node
  ```

  對於靜態節點，請檢查`clustermgtd`日誌 (`/var/log/parallelcluster/clustermgtd`) 是否有運算節點 IP 地址和錯誤，如下所示：

  ```
  Node bootstrap error: Replacement timeout expires for node ... in replacement.
  ```

  如需其他詳細資訊，請檢查 `/var/log/cloud-init-output.log` 檔案是否有錯誤。您可以從 `clustermgtd`和 `slurm_resume`日誌檔案擷取有問題的運算節點 IP 地址。

### 查看 `EC2HealthCheckErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ec2-check"></a>
+ **發生了什麼事？**

  執行個體未通過 Amazon EC2 運作狀態檢查。
+ **如何解決？**

  如需如何對此問題進行故障診斷的資訊，請參閱[對狀態檢查失敗的執行個體進行故障診斷](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstances.html)。

### 查看 `ScheduledEventHealthCheckErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ec2-scheduled-event"></a>
+ **發生了什麼事？**

  執行個體未通過 Amazon EC2 排程事件運作狀態檢查，而且運作狀態不佳。
+ **如何解決？**

  如需如何疑難排解此問題的資訊，請參閱[執行個體的排程事件](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html)。

### 查看 `NoCorrespondingInstanceErrors`
<a name="troubleshooting-v3-cluster-health-metrics-missing-instances"></a>
+ **發生了什麼事？**

  AWS ParallelCluster 找不到執行個體後端節點。節點可能會在引導操作期間自行終止。/[`CustomActions`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-CustomActions)/ [`OnNodeStart`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeStart) \$1 [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues) [`OnNodeConfigured`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeConfigured)指令碼或網路錯誤可能會產生 `NoCorrespondingInstanceErrors`。
+ **如何解決？**

  如需其他詳細資訊，請檢查運算節點`/var/log/cloud-init-output.log`的 。

## 請參閱**運算機群閒置時間**圖表
<a name="troubleshooting-v3-cluster-health-metrics-idle-time-errors"></a>

### 看到`MaxDynamicNodeIdleTime`明顯長於**閒置時間縮減**閾值的
<a name="troubleshooting-v3-cluster-health-idle-time-threshold"></a>
+ **發生了什麼事？**

  您的執行個體未正確終止。 `MaxDynamicNodeIdleTime`顯示動態節點由 Amazon EC2 執行個體支援的閒置時間上限，以秒為單位。**閒置時間縮減**閾值衍生自叢集組態[`ScaledownIdletime`](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-ScaledownIdletime)參數。當運算節點閒置超過**閒置時間縮放**秒時， 會關閉節點Slurm電源並 AWS ParallelCluster 終止備份執行個體。在這種情況下，某些情況會阻止執行個體終止。
+ **如何解決？**

  如需此問題的詳細資訊，請參閱 [**取代、終止或關閉有問題的執行個體和節點**](troubleshooting-v3-scaling-issues.md#replacing-terminating-or-powering-down-problematic-instances-and-nodes-v3)中的 [對擴展問題進行故障診斷](troubleshooting-v3-scaling-issues.md)。