

# OPS09-BP06 在运营成果面临风险时发出提醒
<a name="ops_operations_health_ops_outcome_alerts"></a>

 任何时候，只要运营成果存在风险，就必须引发警报并采取操作。运营成果是为生产工作负载提供支持的任意活动。其范围极广，从开发应用程序新版本到从中断中恢复，无所不包。需要像重视业务成果一样重视运营成果。 

软件团队应确定关键运营指标和活动，并为其设定警报。警报必须及时并且内容可付诸行动。引发警报时，必须附带对相应运行手册或行动手册的引用。没有相应操作的警报会导致用户疲于应对警报。

 **期望的结果：** 运营活动存在风险时，发送警报来督促采取行动。警报应包含引发警报的背景信息，并指向行动手册（提供调查方法）或运行手册（提供防范方法）。在可能时，运行手册应自动运行并发送通知。 

 **常见反模式：** 
+ 您在调查一起事件并建立了支持案例。支持案例指明违反了服务等级协议（SLA，Service Level Agreement），但没有引发警报。
+ 原本计划在午夜进行生产环境部署，但由于最后时刻进行代码更改而延迟。没有引发警报，部署挂起。
+ 出现生产中断，但没有发送警报。
+  您的部署时间始终落后于预计时间。没有采取任何调查操作。 

 **建立此最佳实践的好处：** 
+  在运营成果存在风险时引发警报有助于防患于未然，提升支持工作负载的能力。 
+  由于实现了积极的运营成果，业务成果得到改善。 
+  对运营问题的检测和修复能力得到改进。 
+  整体的运营健康状况得以提升。 

 **未建立这种最佳实践的情况下暴露的风险等级：** 中 

## 实施指导
<a name="implementation-guidance"></a>

 您必须先定义运营成果，然后才能在运营成果上设置警报。这个过程首先要定义哪些运营活动对您的组织来说最重要。是需要在两个小时内部署到生产环境，还是在设定的时间内响应支持案例？ 您的组织必须定义关键运营活动以及衡量方式，这样才能对其进行监控、改进和设定警报。您需要一个集中位置来存储和分析工作负载及运营遥测数据。应该能够使用同一套机制，在运营成果存在风险时引发警报。 

 **客户示例** 

 在 AnyCompany Retail 的例行部署期间触发了 CloudWatch 警报。已经超过了部署的准备时间。Amazon EventBridge 在 AWS Systems Manager OpsCenter 中创建了 OpsItem。云运营团队使用行动手册调查问题，确定架构更改用时超过了预期时间。他们向待命开发人员发出警报并继续监控部署。部署完成后，云运营团队解决了 OpsItem。该团队将在事后检查期间分析事件。 

## 实施步骤
<a name="implementation-steps"></a>

1. 如果您尚未确定运营 KPI、指标和活动，请针对这一问题实施前述最佳实践（OPS09-BP01 到 OPS09-BP05）。 
   +  支持 客户如果具有 [企业支持](https://aws.amazon.com/premiumsupport/plans/enterprise/) ，就可以向其技术客户经理请求举行 [运营 KPI 研讨会](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 。这一协作式研讨会免费提供，可以帮助您根据业务目标定义运营 KPI 和指标。请联系您的技术客户经理了解详情。

1.  在您建立运营活动、KPI 和指标之后，可以在监控平台上配置警报。警报应该有关联的操作，例如行动手册或运行手册。应该避免没有操作的警报。 

1.  在经过一段时间之后，您应该评估运营指标、KPI 以及活动来确定改进领域。作为对警报的响应，在运行手册和行动手册中收集操作员的反馈，确定改进领域。 

1.  警报应包括用于将它们标记为误报的机制。此机制应该引发对指标阈值的审查。 

 **实施计划的工作量级别：** 中。在实施此最佳实践之前，必须落实多个最佳实践。在确定运营活动并建立运营 KPI 之后，应该建立警报。 

## 资源
<a name="resources"></a>

 **相关最佳实践：** 
+  [OPS02-BP03 确定对运营活动绩效负责的所有者](ops_ops_model_def_activity_owners.md)：每个运营活动和成果都应该确定负责人。此人在成果存在风险时应收到警报。 
+  [OPS03-BP02 赋能团队成员在结果有风险时采取行动](ops_org_culture_team_emp_take_action.md)：在引发警报时，您的团队应该有人采取行动来修复问题。 
+  [OPS09-BP01 识别关键性能指标](ops_operations_health_define_ops_kpis.md)：在运营成果上发出警报的第一步是确定运营 KPI。 
+  [OPS09-BP02 定义运营指标](ops_operations_health_design_ops_metrics.md)：在开始生成警报之前建立此最佳实践。 
+  [OPS09-BP03 收集和分析运营指标](ops_operations_health_collect_analyze_ops_metrics.md)：建立警报需要集中收集运营指标。 
+  [OPS09-BP04 建立运营指标基准](ops_operations_health_ops_metric_baselines.md)：运营指标基准提供了调节警报和避免用户疲于应对警报的能力。 
+  [OPS09-BP05 了解运营的预期活动模式](ops_operations_health_learn_ops_usage_patterns.md)：您可以通过了解运营事件的活动模式来提高警报的准确性。 
+  [OPS09-BP08 验证实现的成果以及 KPI 和指标的有效性](ops_operations_health_biz_level_view_ops.md)：评估所取得的运营成果以确保 KPI 和指标有效。 
+  [OPS10-BP02 针对每个提醒设置一个流程](ops_event_response_process_per_alert.md)：每个警报应该具有关联的运行手册或行动手册，并向接收警报的人员提供背景信息。 
+  [OPS11-BP02 在意外事件发生后执行分析](ops_evolve_ops_perform_rca_process.md)：在警报之后开展事后分析，确定改进领域。 

 **相关文档：** 
+  [AWS 部署管道参考架构：应用程序管道架构](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab：敏捷性/DevOps 指标入门](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **相关视频：** 
+  [使用 AWS Systems Manager OpsCenter 聚合和解决运营问题](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [将 AWS Systems Manager OpsCenter 与 Amazon CloudWatch 警报集成](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [使用 Amazon EventBridge 将数据来源与 AWS Systems Manager OpsCenter 集成](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **相关示例：** 
+  [使用 Amazon EC2 Systems Manager Automation 和 AWS Health 为 Amazon EC2 通知和其他情况自动执行修正操作](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS 管理和监管工具研讨会 – Operations 2022](https://mng.workshop.aws/operations-2022.html) 
+  [在 AWS 上使用 DevOps 监控控制面板提取、分析和可视化指标](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **相关服务：** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [支持 主动服务 – 运营 KPI 研讨会](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [CloudWatch 事件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 