

# OPS09-BP06 在營運成果有風險時發出警示
<a name="ops_operations_health_ops_outcome_alerts"></a>

 每當營運成果有風險時，就必須發出警示並據以行動。營運成果是可支援生產中工作負載的任何活動。其中包含從部署新版應用程式到從中斷復原的所有作業。您必須以與業務成果一樣的重要性來看待營運成果。 

軟體團隊應找出關鍵的營運指標和活動，並為其建立警示。警示必須及時且可據以採取行動。發出警示時，應包含相應執行手冊或程序手冊的參考。發出警示，但未提供相應的動作可能會導致警示疲勞。

 **預期成果：** 當營運活動有風險時，就會傳送警示來促進行動。警示包含為何發出警示的背景資訊，並指向要調查的程序手冊和要採取緩解措施的執行手冊。盡可能自動化執行手冊並傳送通知。 

 **常見的反模式：** 
+ 您正在調查事件，以及正在將支援案例歸檔。支援案例違反服務水準協議 (SLA)，但未發出任何警示。
+ 由於最後一刻的程式碼變更，預定於午夜進行的生產部署遭到延遲。未發出任何警示，而部署發生懸置。
+ 發生生產中斷，但未傳送任何警示。
+  您的部署時間一直落後於預估值。未採取任何調查動作。 

 **建立此最佳實務的優勢：** 
+  當營運成果有風險時，發出警示可以協助您透過預先發現問題來支援工作負載。 
+  營運成果的運作狀態良好，業務成果因而獲得改善。 
+  營運問題的偵測和修復也獲得改善。 
+  整體營運運作狀態也有所改善。 

 **若未建立此最佳實務，暴露的風險等級：** 中 

## 實作指引
<a name="implementation-guidance"></a>

 必須先定義營運成果，才能針對這些成果發出警示。透過定義哪些營運活動對貴組織最重要來開始。是否要在兩小時內將其部署至生產，或是在固定的時間內回應支援案例？ 貴組織必須定義關鍵營運活動，以及如何衡量這些活動，如此才能夠監控、改善這些活動，並據以發出警示。您需要一個中心位置，來存放和分析工作負載及營運遙測。相同的機制應能夠在營運成果有風險時發出警示。 

 **客戶範例** 

 CloudWatch 警示會在 AnyCompany Retail 的例行部署期間觸發。超過部署的前置時間。Amazon EventBridge 已在 AWS Systems Manager OpsCenter 中建立 OpsItem。雲端營運團隊使用程序手冊來調查問題，並發現結構描述的變更花費的時間比預期更長。他們向待命的開發人員發出警示，並持續監控部署。在部署完成後，雲端營運團隊就會解析 OpsItem。該團隊會在事後分析事件。 

## 實作步驟
<a name="implementation-steps"></a>

1. 如果您還沒有確定營運 KPI、指標和活動，請著手實作先前所述的此問題的最佳實務 (OPS09-BP01 至 OPS09-BP05)。 
   +  使用 [企業支援的 支援 客戶](https://aws.amazon.com/premiumsupport/plans/enterprise/) 可以要求 [營運 KPI 研討會](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) (透過其技術客戶經理)。此協作研討會可協助您定義與業務目標一致的營運 KPI 和指標，而不需額外費用。聯絡技術客戶經理來進一步了解。

1.  在您建立營運活動、KPI 和指標後，請在可觀察性平台設定警示。警示應具備與其關聯的動作，例如程序手冊或執行手冊。應避免發出不含動作的警示。 

1.  經過一段時間後，您應能評估營運指標、KPI 和活動來找出待改善的地方。擷取執行手冊和程序手冊中來自操作人員的回饋，找出在回應警示時待改善的地方。 

1.  警示應包含將待改善地方標示為誤判的機制。這會導致對指標閾值的審查。 

 **實作計劃的工作量：** 中。在實作此最佳實務前，必須實作幾個最佳實務。在確定營運活動與建立營運 KPI 後，也應建立警示。 

## 資源
<a name="resources"></a>

 **相關的最佳實務：** 
+  [OPS02-BP03 已為營運活動識別負責其效能的擁有者](ops_ops_model_def_activity_owners.md)：每個營運活動和成果都應有確定的負責擁有者。當成果有風險時，該擁有者就應收到警示。 
+  [OPS03-BP02 授權團隊成員在成果有風險時採取動作](ops_org_culture_team_emp_take_action.md)：發出警示時，團隊中應有專員採取行動來修復此問題。 
+  [OPS09-BP01 識別關鍵績效指標](ops_operations_health_define_ops_kpis.md)：針對營運成果發出警示，從確定營運 KPI 開始。 
+  [OPS09-BP02 定義營運指標](ops_operations_health_design_ops_metrics.md)：先建立此最佳實務，再開始產生警示。 
+  [OPS09-BP03 收集和分析營運指標](ops_operations_health_collect_analyze_ops_metrics.md)：您必須集中收集營運指標，才能建立警示。 
+  [OPS09-BP04 建立營運指標基準](ops_operations_health_ops_metric_baselines.md)：營運指標基準讓您能夠調整警示並避免警示疲勞。 
+  [OPS09-BP05 了解營運活動的預期模式](ops_operations_health_learn_ops_usage_patterns.md)：您可以透過了解營運事件的活動模式，來改善警示的準確性。 
+  [OPS09-BP08 驗證結果的實現以及 KPI 和指標的有效性](ops_operations_health_biz_level_view_ops.md)：評估營運成果的達成情形，來確保 KPI 和指標是有效的。 
+  [OPS10-BP02 每個提醒建立一個程序](ops_event_response_process_per_alert.md)：每個警示應具備相關的執行手冊或程序手冊，並為收到警示的人員提供背景資訊。 
+  [OPS11-BP02 執行事故後分析](ops_evolve_ops_perform_rca_process.md)：在收到警示後執行事件後分析，來找出待改善的地方。 

 **相關文件：** 
+  [AWS 部署管道參考架構：應用程式管道架構](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab：開始使用敏捷 / DevOps 指標](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **相關影片：** 
+  [使用 AWS Systems Manager OpsCenter 彙總和解決營運問題](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [將 AWS Systems Manager OpsCenter 與 Amazon CloudWatch 警示整合](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [使用 Amazon EventBridge 將資料來源整合至 AWS Systems Manager OpsCenter](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **相關範例：** 
+  [使用 Amazon EC2 Systems Manager Automation 和 AWS Health 自動化 Amazon EC2 通知及其他方面的修復動作](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS 管理與管控工具研討會 - 2022 年營運 ](https://mng.workshop.aws/operations-2022.html) 
+  [在 AWS 上使用 DevOps 監控儀表板來擷取、分析和視覺化指標](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **相關服務：** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [支援 主動服務 - 營運 KPI 研討會 ](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter，](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [CloudWatch 事件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 