# OPS10-BP01 使用流程来管理事件、意外事件和问题
<a name="ops_event_response_event_incident_problem_process"></a>

要想维持工作负载的运行状况和性能，对事件、意外事件和问题的高效管理能力非常关键。因此务必要认识和理解这些要素之间的不同，这样才能制定有效的响应和解决策略。针对各个方面确立并遵循明确的流程，有助于团队快速有效地应对出现的任何运营挑战。

 **期望结果：**组织通过记录详实且集中存储的流程，高效地管理运营事件、意外事件和问题。这些流程会不断更新来反映变更，并简化处理过程，保持出色的服务可靠性和工作负载性能。

 **常见反模式：**
+  被动而不是主动地响应事件。
+  面对不同类型的事件或意外事件，采取不一致的方法。
+ 组织没有分析意外事件并从中吸取教训，以防将来再次发生。

 **建立此最佳实践的好处：**
+  简化响应流程并使之标准化。
+  降低意外事件对服务和客户的影响。
+  加快问题解决速度。
+  持续改进运营流程。

 **在未建立这种最佳实践的情况下暴露的风险等级：**高 

## 实施指导
<a name="implementation-guidance"></a>

 实施这种最佳实践意味着您正在跟踪工作负载事件。建立用于处理意外事件和问题的流程。记录、分享并经常更新这些流程。发现问题，确定问题优先级并加以解决。

 **了解事件、意外事件和问题** 
+  **事件：***事件*是观察到的动作、事件或状态变化。事件可以是预先计划的，也可以是计划外的，可以源自工作负载内部，也可以源自工作负载外部。
+  **意外事件：***意外事件*是需要响应的事件，例如计划外的中断或服务质量下降。意外事件表示出现了中断，需要立即采取行动才能恢复工作负载正常运行。
+  **问题：***问题*是一起或多起意外事件的根本原因。发现和解决问题需要对意外事件进行更深入的研究，以防将来再次发生。

### 实施步骤
<a name="implementation-steps"></a>

 **Events** 

1.  **监控事件：**
   +  [实现可观测性](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html)并[利用工作负载可观测性](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html)。
   +  监控用户、角色或 AWS 服务执行的操作，并将其作为事件记录在 [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) 中。
   +  使用 [Amazon EventBridge](https://aws.amazon.com/eventbridge/) 实时响应应用程序的运营变化。
   +  使用 [AWS Config](https://aws.amazon.com/config/) 持续评测、监控和记录资源配置变更。

1.  **创建流程：**
   +  制定一个流程来评测哪些事件很重要，需要进行监控。这包括为正常活动和异常活动设置阈值和参数。
   +  确定将事件升级为意外事件的标准。这些标准可以基于严重性、对用户的影响或与预期行为的偏差。
   +  定期审查事件监控情况和响应流程。这包括分析过去的意外事件、调整阈值和完善警报机制。

 **意外事件** 

1.  **响应意外事件：**
   +  使用来自可观测性工具的洞察快速识别和响应意外事件。
   +  实施 [AWS Systems Manager Ops Center](https://aws.amazon.com/systems-manager/features/#OpsCenter) 来汇总和整理运营项目及意外事件，并确定其优先级。
   +  使用 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 和 [AWS X-Ray](https://aws.amazon.com/xray/) 等服务进行更深入的分析和故障排除。
   +  考虑使用 [AWS Managed Services（AMS）](https://aws.amazon.com/managed-services/)来增强事件管理，利用其主动、预防和侦查能力。AMS 借助监控、意外事件检测和响应以及安全管理等服务来扩展运营支持。
   +  Enterprise Support 客户可以使用 [AWS 事件检测和响应](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)，为生产工作负载提供持续的主动监控和事件管理。

1.  **创建事件管理流程：**
   +  建立结构化的事件管理流程，包括明确的角色、通信协议和解决步骤。
   +  将事件管理与[聊天应用程序中的 Amazon Q 开发者版](https://aws.amazon.com/chatbot/)等工具集成，来实现高效的响应和协调。
   +  按严重性对意外事件进行分类，并针对每个类别预先制定[意外事件响应计划](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html)。

1.  **学习和改进：**
   +  执行[意外事件后分析](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html)，了解根本原因和解决方案的有效性。
   +  根据审查结果和不断发展的做法，持续更新和改进响应计划。
   +  记录学到的经验教训，并在各个团队之间分享，从而增强运营韧性。
   +  Enterprise Support 客户可以向其技术客户经理申请[事件管理讲习会](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives)。这场有指导意义的讲习会可测试现有的意外事件响应计划，并帮助找出需要改进之处。

 ** 问题** 

1.  **确定问题：**
   +  使用先前意外事件的数据来确定反复出现的模式，这些模式可能表明出现了更深层次的系统性问题。
   +  利用 [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) 和 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 等工具来分析趋势并发现潜在问题。
   +  让运营、开发和业务部门等跨职能团队参与进来，从多元化的视角来审视根本原因。

1.  **创建问题管理流程：**
   +  制定结构化的问题管理流程，重点在于制定长期解决方案，而不是快速的权宜之计。
   +  采用根本原因分析（RCA）技术来调查和了解意外事件的根本原因。
   +  根据调查发现来更新运营策略、程序和基础设施，以防问题再次发生。

1.  **持续改进：**
   +  培养持续学习和改进的文化，鼓励团队主动发现和解决潜在问题。
   +  定期审查和修订问题管理流程及工具，适应不断变化的业务和技术形势。
   +  在整个组织内分享洞察和最佳实践，以便建立更具韧性、更高效的运营环境。

1.  **利用 AWS 支持：**
   +  使用 [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/) 等 AWS 支持资源，获取主动指导和优化建议。
   +  Enterprise Support 客户可以在关键事件期间访问 [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) 等专业计划，以便获取支持。

 **实施计划的工作量级别：**中 

## 资源
<a name="resources"></a>

 **相关最佳实践：**
+  [OPS04-BP01 确定关键绩效指标](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 实施应用程序遥测](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 使用运行手册执行程序](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 根据行动手册调查问题](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 分析工作负载指标](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 在意外事件发生后执行分析](ops_evolve_ops_perform_rca_process.md) 

 **相关文档：**
+  《[AWS Security Incident Response Guide](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html)》 
+ [AWS Incident Detection and Response](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Incident Management in the Age of DevOps and SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/)

 **相关视频：**
+ [Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - The Amazon Builders' Library: 25 yrs of Amazon operational excellence](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201)](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **相关示例：**
+  [AWS Proactive Services – Incident Management 讲习会](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [How to Automate Incident Response with PagerDuty and AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Engage Incident Responders with the On-Call Schedules in AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Improve the Visibility and Collaboration during Incident Handling in AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Incident reports and service requests in AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **相关服务：**
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html)