测试已加入事件检测及响应服务的工作负载
注意
您用于警报测试的 AWS Identity and Access Management 用户或角色必须具有 cloudwatch:SetAlarmState 权限。
加入流程的最后一步是为您的新工作负载执行游戏日演练。警报摄取完成后,AWS 事件检测及响应服务会确认您选择开始执行游戏日演练的日期和时间。
您的游戏日演练有两个主要目的:
功能验证:确认 AWS 事件检测及响应服务可以正常接收您的警报事件。而且,功能验证可确认您的警报事件是否可以触发相应的运行手册以及任何其它所需的操作,例如,会根据您的选择在警报摄取期间自动创建案例。
模拟:游戏日演练是对真实事件中可能发生的情况进行端到端模拟。AWS 事件检测及响应服务会按照您规定的运行手册步骤,让您深入了解真实事件会如何发展。游戏日演练可为您提供机会来提出问题或完善指示,进而改进参与。
在警报测试期间,AWS 事件检测及响应服务团队会与您协作,纠正发现的任何问题。
CloudWatch 警报
AWS 事件检测及响应服务通过监控警报的状态变化来测试您的 Amazon CloudWatch 警报。为此,请使用 AWS Command Line Interface手动将警报改为警报状态。您还可以从 AWS CloudShell 访问 AWS CLI。AWS 事件检测及响应服务为您提供了一系列 AWS CLI 命令供您在测试期间使用。
为了防止不必要的操作(例如 Amazon EC2 实例重启),请在更改警报状态之前禁用任何 CloudWatch 警报操作。测试完成后,您可以重新启用 CloudWatch 警报操作。要了解有关禁用或启用警报操作的更多信息,请参阅《Amazon CloudWatch API 参考》中的 DisableAlarmActions 和 EnableAlarmActions。
设置警报状态的 AWS CLI 命令示例:
aws cloudwatch set-alarm-state --alarm-name "ExampleAlarm" --state-value ALARM --state-reason "Testing AWS Incident Detection and Response" --regionus-east-1
要详细了解如何手动更改 CloudWatch 警报的状态,请参阅 SetAlarmState。
要了解有关 CloudWatch API 操作所需权限的更多信息,请参阅 Amazon CloudWatch 权限参考。
第三方 APM 警报
使用第三方应用程序性能监控(APM)工具(例如 Datadog、Splunk、New Relic 或 Dynatrace)的工作负载需要不同的指示来模拟警报。游戏日演练开始时,AWS 事件检测及响应服务将要求您暂时更改警报阈值或比较运算符,以强制警报进入警报状态。此状态会触发 AWS 事件检测及响应服务的有效载荷。
主要输出
主要输出:
成功摄取警报并正确配置警报。
AWS 事件检测及响应服务成功创建并摄取警报。
系统会为您的联系创建支持案例,并通知您指定的联系人。
AWS 事件检测及响应服务会通过您规定的会议方式与您联系。
游戏日演练期间生成的所有警报和支持案例均得以解决。
系统会发送一封正式上线电子邮件,确认您的工作负载已受 AWS 事件检测及响应服务监控。