

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 叢集警示
<a name="troubleshooting-v3-cluster-alarms"></a>

叢集運作狀態監控對於確保最佳效能至關重要。 AWS ParallelCluster 可讓您監控叢集前端節點的多個 CloudWatch 型警示。

本節提供每種頭部節點叢集警示類型的詳細資訊，包括其命名慣例、觸發警示的特定條件，以及建議的疑難排解步驟。

叢集警示的命名慣例為 `CLUSTER_NAME-COMPONENT-METRIC`，例如 。 `mycluster-HeadNode-Cpu`
+ `CLUSTER_NAME-HeadNode`： 會發出頭部節點的整體狀態訊號。如果以下至少一個警示是，則為紅色。
+ `CLUSTER_NAME-HeadNode-Health`：如果至少有一個 Amazon EC2 運作狀態檢查失敗，則為紅色。如果發生警示，建議您查看[故障診斷狀態檢查失敗的執行個體](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstances.html)。
+ `CLUSTER_NAME-HeadNode-Cpu`：如果 CPU 使用率大於 90%，則為紅色。如果發生警示，請使用 檢查消耗 CPU 最多的程序`ps -aux --sort=-%cpu | head -n 10`。
+ `CLUSTER_NAME-HeadNode-Mem`：如果記憶體使用率大於 90%，則為紅色。如果發生警示，請使用 檢查最常耗用記憶體的程序`ps -aux --sort=-%mem | head -n 10`。
+ `CLUSTER_NAME-HeadNode-Disk`：如果路徑 / 上的佔用磁碟空間大於 90%，則為紅色。如果發生警示，請檢查使用 佔用大部分空間的資料夾`du -h --max-depth=2 / 2> /dev/null | sort -hr`。