

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 叢集指標的 Amazon CloudWatch 警示
<a name="cloudwatch-alarms-v3"></a>

AWS ParallelCluster 設定 Amazon CloudWatch 警示以監控前端節點的運作狀態和資源使用率。警示名為 `cluster-name-HeadNode-metric`，其中 *cluster-name* 是叢集的名稱，*指標*會識別要監控的指標。

在導覽窗格中選擇警示，以存取 CloudWatch 主控台中的**警示**。

當觸發任何個別頭部節點警示時，名為 的複合警示會`cluster-name-HeadNode`進入 `ALARM` 狀態。

## 磁碟和記憶體警示
<a name="cloudwatch-alarms-v3-disk-mem"></a>

從 3.6.0 AWS ParallelCluster 版開始，會建立下列 CloudWatch 警示：
+ `cluster-name-HeadNode-Disk` — 監控根磁碟區`disk_used_percent`指標。在 1 分鐘內 1 個資料點的磁碟用量大於 90% 時，進入 `ALARM` 狀態。
+ `cluster-name-HeadNode-Mem` — 監控`mem_used_percent`指標。在 1 分鐘內 1 個資料點的記憶體用量大於 90% 時，進入 `ALARM` 狀態。

如需詳細資訊，請參閱《Amazon CloudWatch 使用者指南》**中的 [CloudWatch 代理程式收集的指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/metrics-collected-by-CloudWatch-agent.html)。

## 運作狀態檢查和 CPU 警示
<a name="cloudwatch-alarms-v3-health-cpu"></a>

從 3.8.0 AWS ParallelCluster 版開始，會建立下列 CloudWatch 警示：
+ `cluster-name-HeadNode-Health` — 監控 Amazon EC2 `StatusCheckFailed` 指標。在 1 分鐘內 1 個資料點的值大於 0 時，進入 `ALARM` 狀態。
+ `cluster-name-HeadNode-Cpu` — 監控 Amazon EC2 `CPUUtilization` 指標。當 CPU 使用率在 1 分鐘內 1 個資料點大於 90% 時， 會進入 `ALARM` 狀態。

## 叢集管理常駐程式活動訊號警示
<a name="cloudwatch-alarms-v3-clustermgtd"></a>

從 3.15.0 AWS ParallelCluster 版開始，啟用 Amazon CloudWatch 記錄並使用Slurm排程器時，會建立下列警示：
+ `cluster-name-HeadNode-ClustermgtdHeartbeat` — 監控 `ParallelCluster` 命名空間中的`ClustermgtdHeartbeat`指標。在 1 分鐘內連續 10 個資料點收到少於 1 個活動訊號時，警示會進入 `ALARM` 狀態。遺失的資料會被視為違規。

**注意**  
所有警示會以對稱的方式復原：觸發警示的相同資料點和評估期間也會管理復原。例如，具有 1 個資料點的警示會在相同觀察期間內 1 個良好資料點後復原，同樣地，`ClustermgtdHeartbeat`警示需要連續 10 個良好資料點 (10 分鐘） 才能返回 `OK`。

**注意**  
AWS ParallelCluster 不會設定警示動作。如需有關如何設定警示動作的資訊，例如傳送通知，請參閱[警示動作](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions)。如需 Amazon CloudWatch 警示的詳細資訊，請參閱《[Amazon CloudWatch 使用者指南》中的使用 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)。 *Amazon CloudWatch *  
對於 3.8.0 版和更新 AWS ParallelCluster 版本，請在叢集組態`false`中將 [`Monitoring`](Monitoring-v3.md) / [`Alarms`](Monitoring-v3.md#yaml-Monitoring-Alarms) / 設定為 [`Enabled`](Monitoring-v3.md#yaml-Monitoring-Alarms-Enabled)來停用警示。  
對於 3.8.0 之前的 AWS ParallelCluster 版本，請在叢集組態`false`中將 [`Monitoring`](Monitoring-v3.md) / [`Dashboards`](Monitoring-v3.md#yaml-Monitoring-Dashboards) / [`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch) / 設定為 [`Enabled`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch-Enabled)來停用警示。請注意，此設定也會停用 Amazon CloudWatch 儀表板。如需其他詳細資訊[Amazon CloudWatch 儀表板](cloudwatch-dashboard-v3.md)，請參閱 。