本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon 针对集群指标的 CloudWatch 警报
AWS ParallelCluster 配置 Amazon CloudWatch 警报以监控头节点的运行状况和资源利用率。警报是命名的,其中cluster-name-HeadNode-metriccluster-name是您的集群的名称,metric用于标识正在监控的指标。
在导航窗格中选择警报,即可访问 CloudWatch 控制台中的警报。
当任何单个头节点警报触发时,名为的复合警报进入cluster-name-HeadNodeALARM状态。
磁盘和内存警报
从 3.6.0 AWS ParallelCluster 版开始,将创建以下 CloudWatch 警报:
-
— 监视根音量cluster-name-HeadNode-Diskdisk_used_percent指标。进入在 1 分钟内有 1 个数据点的磁盘使用率超过 90% 时的ALARM状态。 -
— 监控cluster-name-HeadNode-Memmem_used_percent指标。在 1 分钟内,1 个数据点的内存使用率大于 90% 时进入ALARM状态。
有关更多信息,请参阅 Amazon CloudWatch 用户指南中的 CloudWatch代理收集的指标。
Health 检查和 CPU 警报
从 3.8.0 AWS ParallelCluster 版开始,将创建以下 CloudWatch 警报:
-
— 监控 Amazon EC2cluster-name-HeadNode-HealthStatusCheckFailed指标。在 1 分钟时间段内,1 个数据点的值大于 0 时进入ALARM状态。 -
— 监控 Amazon EC2cluster-name-HeadNode-CpuCPUUtilization指标。在 1 分钟内,1 个数据点的 CPU 利用率大于 90% 时进入ALARM状态。
集群管理守护程序心跳警报
从 AWS ParallelCluster 版本 3.15.0 开始,当启用 Amazon CloudWatch 日志记录并使用Slurm计划程序时,会创建以下警报:
-
— 监控命cluster-name-HeadNode-ClustermgtdHeartbeatParallelCluster名空间中的ClustermgtdHeartbeat指标。当在 1 分钟内连续 10 个数据点收到的心跳少于 1 次时,警报就会进入ALARM状态。丢失的数据被视为泄露。
注意
所有警报均以对称方式恢复:触发警报的相同数据点和评估周期也控制着恢复。例如,在同一观察周期内,具有 1 个数据点的警报在 1 个正常数据点后恢复,同样,ClustermgtdHeartbeat警报需要连续 10 个良好的数据点(10 分钟)才能返回OK。
注意
AWS ParallelCluster 不配置警报动作。有关如何设置警报操作(例如发送通知)的信息,请参阅警报操作。有关亚马逊 CloudWatch 警报的更多信息,请参阅亚马逊 CloudWatch 用户指南中的使用亚马逊 CloudWatch 警报。
对于 3.8.0 及更高 AWS ParallelCluster 版本,请在集群配置false中将 Monitoring/Alarms/设置Enabled为来禁用警报。
对于 3.8.0 之前的 AWS ParallelCluster 版本,请在集群配置false中将 Monitoring//DashboardsCloudWatch/设置Enabled为来禁用警报。请注意,此设置还会禁用 Amazon CloudWatch 控制面板。有关更多亚马逊 CloudWatch 控制面板详细信息,请参阅。