

# OPS10-BP04 定义上报路径
<a name="ops_event_response_define_escalation_paths"></a>

在意外事件响应协议中确立明确的上报路径，有助于及时地采取有效措施。这包括指定上报提示、详细说明上报流程，以及预先批准相关措施，以便加快决策速度并缩短平均解决时间（MTTR）。

 **期望结果：**结构化的高效流程，可将意外事件上报给相应人员，从而尽可能减少响应时间和影响。

 **常见反模式：**
+ 恢复程序不明确，导致在发生重大意外事件时采取权宜之计。
+ 没有明确的权限和负责人，导致在需要采取紧急措施时出现延误。
+  发送给利益相关方和客户的通知不符合他们的预期。
+  推迟重要决策。

 **建立此最佳实践的好处：**
+  通过预定义的上报程序简化意外事件响应。
+  通过预先批准相关措施并明确负责人，减少停机时间。
+  根据意外事件严重性，改进资源分配和支持级别调整。
+  改善与利益相关方和客户的沟通。

 **在未建立这种最佳实践的情况下暴露的风险等级：**中 

## 实施指导
<a name="implementation-guidance"></a>

 妥善定义的上报路径对于快速响应意外事件至关重要。AWS Systems Manager Incident Manager 支持设置结构化上报计划和随时待命方案，这可以在发生意外事件时提醒相关人员，让他们准备好采取行动。

### 实施步骤
<a name="implementation-steps"></a>

1.  **设置上报提示：**设置 [CloudWatch 警报](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions)，在 [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html) 中创建意外事件。

1.  **设置随时待命方案：**在 Incident Manager 中创建与上报路径一致的[随时待命方案](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html)。为随时待命人员提供必要的权限和工具，以便迅速采取行动。

1.  **详细说明上报程序：**
   +  确定上报意外事件的具体条件。
   +  在 Incident Manager 中创建[上报计划](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)。
   +  上报渠道应包括联系人或随时待命方案。
   +  定义团队在每个上报级别的角色和职责。

1.  **预先批准缓解措施：**与决策者合作，针对预期场景预先批准措施。使用与 Incident Manager 集成的 [Systems Manager Automation 运行手册](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html)来加快意外事件的解决速度。

1.  **指定负责人：**明确指定上报路径中每个环节的内部负责人。

1.  **详细说明第三方上报情况：**
   +  记录第三方服务水平协议（SLA），将其与内部目标保持一致。
   +  针对发生意外事件时的供应商沟通情况，制定明确的协议。
   +  将供应商联系人集成到事件管理工具中，以便直接访问。
   +  定期开展演习，包括第三方响应场景。
   +  确保详细记录了供应商上报信息，以便轻松访问。

1.  **针对上报计划进行培训和演习：**针对上报流程对团队进行培训，并定期进行意外事件响应演习或 GameDay 活动。Enterprise Support 客户可以申请[事件管理讲习会](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/)。

1.  **不断改进：**定期审查上报路径的有效性。根据从意外事件事后分析中吸取的经验教训和持续反馈来更新流程。

 **实施计划的工作量级别：**中 

## 资源
<a name="resources"></a>

 **相关最佳实践：**
+  [OPS08-BP04 创建可操作的警报](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 针对每个警报设置一个流程](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 在意外事件发生后执行分析](ops_evolve_ops_perform_rca_process.md) 

 **相关文档：**
+ [AWS Systems Manager Incident Manager Escalation Plans](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [Working with on-call schedules in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [创建和管理运行手册](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [Temporary elevated access management with AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [Atlassian - Escalation policies for effective incident management](https://www.atlassian.com/incident-management/on-call/escalation-policies)