

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon 针对集群指标的 CloudWatch 警报
<a name="cloudwatch-alarms-v3"></a>

AWS ParallelCluster 配置 Amazon CloudWatch 警报以监控头节点的运行状况和资源利用率。警报是命名的`cluster-name-HeadNode-metric`，其中*cluster-name*是您的集群的名称，*metric*用于标识正在监控的指标。

在导航窗格中选择警报，即可访问 CloudWatch 控制台中的**警报**。

当任何单个头节点警报触发时，名为的复合警报`cluster-name-HeadNode`进入`ALARM`状态。

## 磁盘和内存警报
<a name="cloudwatch-alarms-v3-disk-mem"></a>

从 3.6.0 AWS ParallelCluster 版开始，将创建以下 CloudWatch 警报：
+ `cluster-name-HeadNode-Disk`— 监视根音量`disk_used_percent`指标。进入在 1 分钟内有 1 个数据点的磁盘使用率超过 90% 时的`ALARM`状态。
+ `cluster-name-HeadNode-Mem`— 监控`mem_used_percent`指标。在 1 分钟内，1 个数据点的内存使用率大于 90% 时进入`ALARM`状态。

有关更多信息，请参阅 *Amazon CloudWatch 用户指南*[中的 CloudWatch代理收集的指标](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/metrics-collected-by-CloudWatch-agent.html)。

## Health 检查和 CPU 警报
<a name="cloudwatch-alarms-v3-health-cpu"></a>

从 3.8.0 AWS ParallelCluster 版开始，将创建以下 CloudWatch 警报：
+ `cluster-name-HeadNode-Health`— 监控 Amazon EC2 `StatusCheckFailed` 指标。在 1 分钟时间段内，1 个数据点的值大于 0 时进入`ALARM`状态。
+ `cluster-name-HeadNode-Cpu`— 监控 Amazon EC2 `CPUUtilization` 指标。在 1 分钟内，1 个数据点的 CPU 利用率大于 90% 时进入`ALARM`状态。

## 集群管理守护程序心跳警报
<a name="cloudwatch-alarms-v3-clustermgtd"></a>

从 AWS ParallelCluster 版本 3.15.0 开始，当启用 Amazon CloudWatch 日志记录并使用Slurm计划程序时，会创建以下警报：
+ `cluster-name-HeadNode-ClustermgtdHeartbeat`— 监控命`ParallelCluster`名空间中的`ClustermgtdHeartbeat`指标。当在 1 分钟内连续 10 个数据点收到的心跳少于 1 次时，警报就会进入`ALARM`状态。丢失的数据被视为泄露。

**注意**  
所有警报均以对称方式恢复：触发警报的相同数据点和评估周期也控制着恢复。例如，在同一观察周期内，具有 1 个数据点的警报在 1 个正常数据点后恢复，同样，`ClustermgtdHeartbeat`警报需要连续 10 个良好的数据点（10 分钟）才能返回`OK`。

**注意**  
AWS ParallelCluster 不配置警报动作。有关如何设置警报操作（例如发送通知）的信息，请参阅[警报操作](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions)。有关亚马逊 CloudWatch 警报的更多信息，请参阅[亚马逊* CloudWatch 用户指南中的使用亚马逊 CloudWatch *警报](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)。  
对于 3.8.0 及更高 AWS ParallelCluster 版本，请在集群配置`false`中将 [`Monitoring`](Monitoring-v3.md)/[`Alarms`](Monitoring-v3.md#yaml-Monitoring-Alarms)/设置[`Enabled`](Monitoring-v3.md#yaml-Monitoring-Alarms-Enabled)为来禁用警报。  
对于 3.8.0 之前的 AWS ParallelCluster 版本，请在集群配置`false`中将 [`Monitoring`](Monitoring-v3.md)//[`Dashboards`[`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch)](Monitoring-v3.md#yaml-Monitoring-Dashboards)/设置[`Enabled`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch-Enabled)为来禁用警报。请注意，此设置还会禁用 Amazon CloudWatch 控制面板。有关更多[亚马逊 CloudWatch 控制面板](cloudwatch-dashboard-v3.md)详细信息，请参阅。