View a markdown version of this page

摄取 CloudWatch 警报 - AWS 事件检测及响应服务用户指南

摄取 CloudWatch 警报

AWS 事件检测及响应服务可以摄取 Amazon CloudWatch 警报,来为您的关键工作负载提供主动监控。通过摄取您的 Amazon CloudWatch 警报来进行监控,AWS 事件检测及响应服务可以:

  • 自动检测警报何时进入“警报”状态。

  • 与您的团队联系,以协同响应和解决事件。

为了确保您加入的警报有效,AWS 事件检测及响应服务建议采用以下最佳实践:

  • 使用指标数学表达式配置警报,以便在定期维护或批处理作业执行期间对其进行抑制,从而避免出现误报联系情形。

  • 根据预期的数据点交付频率设置警报的缺失数据处理。例如,生成连续数据点流的警报监控指标应将缺失的数据视为“Breaching”(不良),因为缺失数据点可能表明所监控的底层资源存在问题。相反,不经常报告数据点的警报监控指标(例如,仅在发生故障或错误时才记录数据点的警报监控指标)应将缺失的数据视为 NotBreaching(良好)。

  • 定义当工作负载受到严重、持续的影响时进入“警报”状态的警报。例如,将警报配置为在自动替换运行状况不佳的资源所需的预期时间之后触发,而不是在首次检测到运行状况不佳的资源时触发。

  • 识别自定义指标并为其创建警报,这些指标直接代表您的工作负载的客户体验。

有关常见 AWS 服务的建议 Amazon CloudWatch 警报的列表,请参阅 AWS re:Post 上的事件检测及响应服务最佳实践