

# 响应事件
<a name="responding-to-events"></a>

 您应该预测运营事件，包括计划内（例如，促销、部署和故障测试）和计划外（例如，利用率激增和组件故障）事件。在响应警报时，您应该使用现有的运行手册和行动手册来交付一致的结果。定义的警报应由负责响应和升级的角色或团队所有。您还需要了解系统组件的业务影响，并在需要时使用它来设定工作目标。您应该在事件发生后执行根本原因分析（RCA），然后防止故障再次发生或记录解决方法。

 AWS 可以提供工具，为工作负载和运营即代码的方方面面提供支持，从而简化您的事件响应过程。借助这些工具，您可以编写对运营事件的响应脚本，并启动这些脚本来响应监控数据。

 在 AWS 中，您可以将故障组件替换为已知良好的版本，而不是尝试修复它们，以此来缩短恢复时间。然后，您可以在带外对失败的资源进行分析。

**Topics**
+ [OPS10-BP01 使用流程来管理事件、意外事件和问题](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 针对每个警报设置一个流程](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 根据业务影响确定运营事件的优先顺序](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 定义上报路径](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 为影响服务的事件定义客户沟通计划](ops_event_response_push_notify.md)
+ [OPS10-BP06 通过控制面板传达状态信息](ops_event_response_dashboards.md)
+ [OPS10-BP07 自动响应事件](ops_event_response_auto_event_response.md)