

# OPS10-BP01 使用程序進行事件、事故和問題管理
<a name="ops_event_response_event_incident_problem_process"></a>

有效管理事件、事故和問題的能力是維持工作負載運作狀態和效能的關鍵。識別和理解這些元素之間的差異，以制定有效的回應和解決策略至關重要。為每個方面建立並遵循明確定義的流程，有助於您的團隊迅速且有效地處理出現的任何運營挑戰。

 **預期成果：**您的組織透過詳細記錄且集中儲存的流程，有效地管理營運事件、事故和問題。這些流程會持續更新以反映變更，簡化處理並維持高服務可靠性和工作負載效能。

 **常見的反模式：**
+  您會反應性地 (而非主動) 回應事件。
+  對不同類型的事件或事故採取不一致的方法。
+ 您的組織不會分析事件並從中學習，以防止未來再次發生。

 **建立此最佳實務的優勢：**
+  簡化且標準化的回應流程。
+  減少事件對服務和客戶的影響。
+  加速解決問題。
+  持續改善營運流程。

 **未建立此最佳實務時的曝險等級：**高 

## 實作指引
<a name="implementation-guidance"></a>

 實作此最佳實務表示您正在追蹤工作負載事件。您有處理事件和問題的程序。會經常記錄、共用和更新這些程序。問題經識別後會定出優先順序，然後獲得修正。

 **了解事件、事故和問題** 
+  **事件：***事件*是對動作、狀況或狀態變化的觀察。事件可以經過計劃或未計劃，並且事情可以在工作負載內部或外部產生。
+  **事故：***事故*是指需要回應的事件，例如意外中斷或服務品質下降。它們表示需要立即注意以恢復正常工作負載操作的中斷。
+  **問題：***問題*是一個或多個事故的根本原因。識別和解決問題涉及更深入地研究事故，以防止將未來再次發生。

### 實作步驟
<a name="implementation-steps"></a>

 **事件** 

1.  **監控事件：**
   +  [實作可觀測性](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html)並[利用工作負載可觀測性](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html)。
   +  使用者、角色或 AWS 服務所採取的監控動作會記錄為 [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) 中的事件。
   +  使用 [Amazon EventBridge](https://aws.amazon.com/eventbridge/) 即時對應用程式中的操作變更進行回應。
   +  使用 [AWS Config](https://aws.amazon.com/config/) 持續評估、監控和記錄資源組態變更。

1.  **建立程序：**
   +  制定一個程序來評估哪些事件重要並需要監控。這涉及設定正常和異常活動的閾值和參數。
   +  確定將事件升級為事故的條件。這可以基於嚴重性、對使用者的影響或與預期行為的偏差。
   +  定期審核事件監控和回應程序。這包括分析過去的事件、調整閾值以及完善警示機制。

 **事故** 

1.  **回應事故：**
   +  使用可觀測性工具的洞察力，快速識別並回應事故。
   +  實作 [AWS Systems Manager Ops Center](https://aws.amazon.com/systems-manager/features/#OpsCenter) 以彙總、組織營運項目和事故，並排定優先順序。
   +  使用 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 和 [AWS X-Ray](https://aws.amazon.com/xray/) 等服務，進行更深入的分析和疑難排解。
   +  考慮使用 [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) 來加強事件管理，利用其主動、預防性和偵測功能。AMS 透過監控、事故偵測和回應以及安全管理等服務擴展了營運支援。
   +  Enterprise Support 客戶可利用 [AWS 事件偵測與回應](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)功能，為生產工作負載提供持續的主動監控和事件管理。

1.  **建立事件管理程序：**
   +  建立結構化的事件管理流程，包括清晰的角色、通訊協定和解決步驟。
   +  將事件管理與[聊天應用程式中的 Amazon Q Developer](https://aws.amazon.com/chatbot/) 這類工具整合，以實現有效率的回應和協調。
   +  依嚴重性將事件分類，並針對每個類別預先定義[事件回應計劃](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html)。

1.  **學習和改進：**
   +  進行[事件後分析](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html)以了解根本原因和解決方案有效性。
   +  根據審查和不斷發展的實務，持續更新和改進回應計劃。
   +  記錄並分享跨團隊所學到的經驗教訓，以增強營運彈性。
   +  Enterprise Support 客戶可向其技術客戶經理請求參加[事件管理研討會](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives)。這個指導性研討會可測試您現有的事件回應計畫，並協助您找出需要改進的領域。

 **問題** 

1.  **識別問題：**
   +  使用先前事件的資料來識別可能指出更深層次系統性問題的週期性模式。
   +  運用諸如 [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) 和 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 等工具來分析趨勢並發現潛在問題。
   +  與包括營運、開發和業務單位在內的跨職能團隊合作，以獲得有關根本原因的不同觀點。

1.  **建立問題管理程序：**
   +  制定問題管理的結構化程序，專注於長期解決方案，而不是快速修復。
   +  整合根本原因分析 (RCA) 技術，以調查並了解事件的根本原因。
   +  根據調查結果更新營運政策、程序和基礎設施，以防止重複發生。

1.  **持續改善：**
   +  培養不斷學習和改進的文化，鼓勵團隊積極識別和解決潛在問題。
   +  定期審查和修訂問題管理程序和工具，以配合不斷發展的業務和技術環境。
   +  在整個組織中分享見解和最佳實務，以建立更具彈性且更有效率的營運環境。

1.  **聯絡 AWS 支援：**
   +  使用 AWS 支援資源，例如 [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/)，取得主動式指引和最佳化建議。
   +  Enterprise Support 客戶可以在重大事件期間存取 [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) 等專業計畫以取得支援。

 **實作計劃的工作量：**中 

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS04-BP01 識別關鍵績效指標](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 實作應用程式遙測](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 使用執行手冊執行程序](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 使用程序手冊來調查問題](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 分析工作負載指標](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 執行事後分析](ops_evolve_ops_perform_rca_process.md) 

 **相關文件：**
+  [AWS 安全事件回應指南](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [AWS 事件偵測與回應](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework：營運角度 - 事件與問題管理](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [DevOps 和 SRE 時代的事件管理](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - 什麼是事件管理？](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **相關影片：**
+ [來自 AWS 的重要事件回應秘訣](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - Amazon 建置者資料中心：25 年 Amazon 卓越營運](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS 事故偵測與回應 (SUP201)](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [介紹 AWS Systems Manager 中的 Incident Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **相關範例：**
+  [AWS 主動服務 – 事件管理研討會](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [如何使用 PagerDuty 和 AWS Systems Manager Incident Manager 來自動化事故回應](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [使用 AWS Systems Manager Incident Manager 中的隨時待命的時間表與事故回應人員互動](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [改善 AWS Systems Manager Incident Manager 中事故處理期間的可見性和協作](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [AMS 中的事故報告和服務請求](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **相關服務：**
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 