Amazon 针对集群指标的 CloudWatch 警报

AWS ParallelCluster 配置 Amazon CloudWatch 警报以监控头节点的运行状况和资源利用率。警报是命名的cluster-name-HeadNode-metric，其中cluster-name是您的集群的名称，metric用于标识正在监控的指标。

在导航窗格中选择警报，即可访问 CloudWatch 控制台中的警报。

当任何单个头节点警报触发时，名为的复合警报cluster-name-HeadNode进入ALARM状态。

磁盘和内存警报

从 3.6.0 AWS ParallelCluster 版开始，将创建以下 CloudWatch 警报：

cluster-name-HeadNode-Disk— 监视根音量disk_used_percent指标。进入在 1 分钟内有 1 个数据点的磁盘使用率超过 90% 时的ALARM状态。
cluster-name-HeadNode-Mem— 监控mem_used_percent指标。在 1 分钟内，1 个数据点的内存使用率大于 90% 时进入ALARM状态。

有关更多信息，请参阅 Amazon CloudWatch 用户指南中的 CloudWatch代理收集的指标。

Health 检查和 CPU 警报

从 3.8.0 AWS ParallelCluster 版开始，将创建以下 CloudWatch 警报：

cluster-name-HeadNode-Health— 监控 Amazon EC2 StatusCheckFailed 指标。在 1 分钟时间段内，1 个数据点的值大于 0 时进入ALARM状态。
cluster-name-HeadNode-Cpu— 监控 Amazon EC2 CPUUtilization 指标。在 1 分钟内，1 个数据点的 CPU 利用率大于 90% 时进入ALARM状态。

集群管理守护程序心跳警报

从 AWS ParallelCluster 版本 3.15.0 开始，当启用 Amazon CloudWatch 日志记录并使用Slurm计划程序时，会创建以下警报：

cluster-name-HeadNode-ClustermgtdHeartbeat— 监控命ParallelCluster名空间中的ClustermgtdHeartbeat指标。当在 1 分钟内连续 10 个数据点收到的心跳少于 1 次时，警报就会进入ALARM状态。丢失的数据被视为泄露。

注意

所有警报均以对称方式恢复：触发警报的相同数据点和评估周期也控制着恢复。例如，在同一观察周期内，具有 1 个数据点的警报在 1 个正常数据点后恢复，同样，ClustermgtdHeartbeat警报需要连续 10 个良好的数据点（10 分钟）才能返回OK。

注意

AWS ParallelCluster 不配置警报动作。有关如何设置警报操作（例如发送通知）的信息，请参阅警报操作。有关亚马逊 CloudWatch 警报的更多信息，请参阅亚马逊 CloudWatch 用户指南中的使用亚马逊 CloudWatch 警报。

对于 3.8.0 及更高 AWS ParallelCluster 版本，请在集群配置false中将 Monitoring/Alarms/设置Enabled为来禁用警报。

对于 3.8.0 之前的 AWS ParallelCluster 版本，请在集群配置false中将 Monitoring//DashboardsCloudWatch/设置Enabled为来禁用警报。请注意，此设置还会禁用 Amazon CloudWatch 控制面板。有关更多亚马逊 CloudWatch 控制面板详细信息，请参阅。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

亚马逊 CloudWatch 控制面板

AWS ParallelCluster 配置的日志轮换