

# OPS 10. 如何管理工作負載和營運事件？
<a name="ops-10"></a>

 準備和驗證回應事件的程序，大幅降低工作負載中斷情形。

**Topics**
+ [

# OPS10-BP01 使用程序進行事件、事故和問題管理
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 每個提醒建立一個程序
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 根據業務影響確定營運事件的優先順序
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 定義呈報路徑
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 為影響服務的事件定義客戶溝通計劃
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 透過儀表板傳達狀態
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 自動化對事件的回應
](ops_event_response_auto_event_response.md)

# OPS10-BP01 使用程序進行事件、事故和問題管理
<a name="ops_event_response_event_incident_problem_process"></a>

有效管理事件、事故和問題的能力是維持工作負載運作狀態和效能的關鍵。識別和理解這些元素之間的差異，以制定有效的回應和解決策略至關重要。為每個方面建立並遵循明確定義的流程，有助於您的團隊迅速且有效地處理出現的任何運營挑戰。

 **預期成果：**您的組織透過詳細記錄且集中儲存的流程，有效地管理營運事件、事故和問題。這些流程會持續更新以反映變更，簡化處理並維持高服務可靠性和工作負載效能。

 **常見的反模式：**
+  您會反應性地 (而非主動) 回應事件。
+  對不同類型的事件或事故採取不一致的方法。
+ 您的組織不會分析事件並從中學習，以防止未來再次發生。

 **建立此最佳實務的優勢：**
+  簡化且標準化的回應流程。
+  減少事件對服務和客戶的影響。
+  加速解決問題。
+  持續改善營運流程。

 **未建立此最佳實務時的曝險等級：**高 

## 實作指引
<a name="implementation-guidance"></a>

 實作此最佳實務表示您正在追蹤工作負載事件。您有處理事件和問題的程序。會經常記錄、共用和更新這些程序。問題經識別後會定出優先順序，然後獲得修正。

 **了解事件、事故和問題** 
+  **事件：***事件*是對動作、狀況或狀態變化的觀察。事件可以經過計劃或未計劃，並且事情可以在工作負載內部或外部產生。
+  **事故：***事故*是指需要回應的事件，例如意外中斷或服務品質下降。它們表示需要立即注意以恢復正常工作負載操作的中斷。
+  **問題：***問題*是一個或多個事故的根本原因。識別和解決問題涉及更深入地研究事故，以防止將未來再次發生。

### 實作步驟
<a name="implementation-steps"></a>

 **事件** 

1.  **監控事件：**
   +  [實作可觀測性](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html)並[利用工作負載可觀測性](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html)。
   +  使用者、角色或 AWS 服務所採取的監控動作會記錄為 [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) 中的事件。
   +  使用 [Amazon EventBridge](https://aws.amazon.com/eventbridge/) 即時對應用程式中的操作變更進行回應。
   +  使用 [AWS Config](https://aws.amazon.com/config/) 持續評估、監控和記錄資源組態變更。

1.  **建立程序：**
   +  制定一個程序來評估哪些事件重要並需要監控。這涉及設定正常和異常活動的閾值和參數。
   +  確定將事件升級為事故的條件。這可以基於嚴重性、對使用者的影響或與預期行為的偏差。
   +  定期審核事件監控和回應程序。這包括分析過去的事件、調整閾值以及完善警示機制。

 **事故** 

1.  **回應事故：**
   +  使用可觀測性工具的洞察力，快速識別並回應事故。
   +  實作 [AWS Systems Manager Ops Center](https://aws.amazon.com/systems-manager/features/#OpsCenter) 以彙總、組織營運項目和事故，並排定優先順序。
   +  使用 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 和 [AWS X-Ray](https://aws.amazon.com/xray/) 等服務，進行更深入的分析和疑難排解。
   +  考慮使用 [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) 來加強事件管理，利用其主動、預防性和偵測功能。AMS 透過監控、事故偵測和回應以及安全管理等服務擴展了營運支援。
   +  Enterprise Support 客戶可利用 [AWS 事件偵測與回應](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)功能，為生產工作負載提供持續的主動監控和事件管理。

1.  **建立事件管理程序：**
   +  建立結構化的事件管理流程，包括清晰的角色、通訊協定和解決步驟。
   +  將事件管理與[聊天應用程式中的 Amazon Q Developer](https://aws.amazon.com/chatbot/) 這類工具整合，以實現有效率的回應和協調。
   +  依嚴重性將事件分類，並針對每個類別預先定義[事件回應計劃](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html)。

1.  **學習和改進：**
   +  進行[事件後分析](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html)以了解根本原因和解決方案有效性。
   +  根據審查和不斷發展的實務，持續更新和改進回應計劃。
   +  記錄並分享跨團隊所學到的經驗教訓，以增強營運彈性。
   +  Enterprise Support 客戶可向其技術客戶經理請求參加[事件管理研討會](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives)。這個指導性研討會可測試您現有的事件回應計畫，並協助您找出需要改進的領域。

 **問題** 

1.  **識別問題：**
   +  使用先前事件的資料來識別可能指出更深層次系統性問題的週期性模式。
   +  運用諸如 [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) 和 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 等工具來分析趨勢並發現潛在問題。
   +  與包括營運、開發和業務單位在內的跨職能團隊合作，以獲得有關根本原因的不同觀點。

1.  **建立問題管理程序：**
   +  制定問題管理的結構化程序，專注於長期解決方案，而不是快速修復。
   +  整合根本原因分析 (RCA) 技術，以調查並了解事件的根本原因。
   +  根據調查結果更新營運政策、程序和基礎設施，以防止重複發生。

1.  **持續改善：**
   +  培養不斷學習和改進的文化，鼓勵團隊積極識別和解決潛在問題。
   +  定期審查和修訂問題管理程序和工具，以配合不斷發展的業務和技術環境。
   +  在整個組織中分享見解和最佳實務，以建立更具彈性且更有效率的營運環境。

1.  **聯絡 AWS 支援：**
   +  使用 AWS 支援資源，例如 [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/)，取得主動式指引和最佳化建議。
   +  Enterprise Support 客戶可以在重大事件期間存取 [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) 等專業計畫以取得支援。

 **實作計劃的工作量：**中 

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS04-BP01 識別關鍵績效指標](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 實作應用程式遙測](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 使用執行手冊執行程序](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 使用程序手冊來調查問題](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 分析工作負載指標](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 執行事後分析](ops_evolve_ops_perform_rca_process.md) 

 **相關文件：**
+  [AWS 安全事件回應指南](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [AWS 事件偵測與回應](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework：營運角度 - 事件與問題管理](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [DevOps 和 SRE 時代的事件管理](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - 什麼是事件管理？](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **相關影片：**
+ [來自 AWS 的重要事件回應秘訣](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - Amazon 建置者資料中心：25 年 Amazon 卓越營運](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS 事故偵測與回應 (SUP201)](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [介紹 AWS Systems Manager 中的 Incident Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **相關範例：**
+  [AWS 主動服務 – 事件管理研討會](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [如何使用 PagerDuty 和 AWS Systems Manager Incident Manager 來自動化事故回應](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [使用 AWS Systems Manager Incident Manager 中的隨時待命的時間表與事故回應人員互動](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [改善 AWS Systems Manager Incident Manager 中事故處理期間的可見性和協作](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [AMS 中的事故報告和服務請求](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **相關服務：**
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 每個提醒建立一個程序
<a name="ops_event_response_process_per_alert"></a>

 為系統中的每個提醒建立清晰明確的程序，對於有效且高效的事件管理至關重要。此做法可確保每個提醒都能產生特定且可行的回應，從而改善操作的可靠性和回應能力。

 **預期成果：**每個提醒都會啟動特定且明確定義的回應計劃。在可能的情況下，回應會自動化，具有明確的擁有權和定義的呈報路徑。提醒會連結至最新的知識庫，以便任何操作員都能一致且有效地回應。回應迅速且全面一致，可提升營運效率和可靠性。

 **常見的反模式：**
+  提醒沒有預定義的回應流程，導致臨時和延遲的解決方案。
+  提醒過載會導致重要提醒被忽略。
+  由於缺乏明確的擁有權和責任，提醒的處理不一致。

 **建立此最佳實務的優勢：**
+  透過僅提高可操作的提醒來減少提醒疲勞。
+  減少操作問題的平均解決時間 (MTTR)。
+  減少平均調查時間 (MTTI)，有助於降低 MTTR。
+  增強擴展操作回應的能力。
+  提高了處理操作事件中的一致性和可靠性。

 例如，您已有既定流程來處理重要帳戶的 AWS Health 事件，包括應用程式警示、營運問題及規劃的生命週期事件 (例如，在叢集自動更新之前更新 Amazon EKS 版本)，而且您為團隊提供主動監控、溝通和回應這些事件的能力。這些動作有助於防止 AWS 端變更造成的服務中斷，或是在發生非預期的問題時更快緩解。

 **未建立此最佳實務時的曝險等級：**高 

## 實作指引
<a name="implementation-guidance"></a>

 為每個提醒制定一個流程，包括：為每個提醒建立清晰的回應計劃；在可能的情況下自動化回應；並根據營運意見回饋和不斷發展的需求持續完善這些流程。

### 實作步驟
<a name="implementation-steps"></a>

 下圖說明 [AWS Systems Manager Incident Manager](https://aws.amazon.com/systems-manager/features/incident-manager/) 中的事件管理工作流程。它的設計目的是透過自動建立事件來回應 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 或 [Amazon EventBridge](https://aws.amazon.com/eventbridge/) 中的特定事件，迅速回應營運問題。自動或手動建立事件時，Incident Manager 會集中管理事件，組織相關的 AWS 資源資訊，並啟動預先定義的回應計劃。這包括執行 Systems Manager Automation 執行手冊以立即採取行動，以及在 OpsCenter 中建立父作業工作項目以追蹤相關任務和分析。此簡化的流程可加速並協調整個 AWS 環境中的事件回應。

![\[描述 Incident Manager 如何運作的流程圖 - 聊天應用程式中的 Amazon Q Developer、呈報計畫和聯絡人，並且執行手冊會流入回應計畫，回應計畫會流入事件和分析。Amazon CloudWatch 也會流入回應計劃。\]](http://docs.aws.amazon.com/zh_tw/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


 

1.  **使用複合警示：**在 CloudWatch 中建立[複合警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html)，將相關警示分組，從而降低噪音並允許更有意義的回應。

1.  **利用 [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 隨時掌握新知：**AWS Health 是 AWS 雲端 資源運作狀態的權威資訊來源。使用 AWS Health 視覺化並接收有關任何目前服務事件和近期變更的通知 (例如規劃的生命週期事件)，如此您就能採取行動來緩解衝擊。

   1.  透過 [AWS 使用者通知](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) [建立符合用途的 AWS Health 事件通知](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html)，以利用電子郵件和聊天管道傳送，並[透過 Amazon EventBridge 或 [AWS Health API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) 以程式設計方式與您的監控和警示工具整合](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html)。

   1.  透過 Amazon EventBridge 或 AWS Health API 整合變更管理或您可能已在使用的 ITSM 工具 (如 [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) 或 [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html))，以規劃並追蹤需要採取行動的運作狀態事件進度。

   1.  如果您使用 AWS Organizations，請啟用 [AWS Health 的組織檢視](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html)，以彙總帳戶之間的 AWS Health 事件。

1.  **整合 Amazon CloudWatch 警示與 Incident Manager** 設定 CloudWatch 警示，以便在 [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) 中自動建立事件。

1.  **整合 Amazon EventBridge 與 Incident Manager：**建立 [EventBridge 規則](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html)以回應事件並使用定義的回應計劃建立事件。

1.  **為 Incident Manager 中的事件做好準備：**
   +  在 Incident Manager 中針對每種提醒類型建立詳細的[回應計劃](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html)。
   +  透過與 Incident Manager 中回應計劃相連的[聊天應用程式中的 Amazon Q Developer](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) 來建立聊天頻道，以便在 Slack、Microsoft Teams 和 Amazon Chime 等平台的事件期間進行即時通訊。
   +  將 [Systems Manager Automation 執行手冊](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html)納入 Incident Manager 中，以推動對事件的自動回應。

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS04-BP01 識別關鍵績效指標](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 建立可執行的提醒](ops_workload_observability_create_alerts.md) 

 **相關文件：**
+ [AWS Cloud Adoption Framework：營運角度 - 事件與問題管理](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [使用 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [設定 AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [為 Incident Manager 中的事件做好準備](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **相關影片：**
+ [來自 AWS 的重要事件回應秘訣](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 使用 AWS Health 大規模管理資源生命週期事件](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **相關範例：**
+ [AWS 研討會 - AWS Systems Manager Incident Manager - 自動化對安全事件的事件回應](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 根據業務影響確定營運事件的優先順序
<a name="ops_event_response_prioritize_events"></a>

 及時回應操作事件至關重要，但並非所有事件都是平等的。當您根據業務影響排定優先順序時，也可以優先處理可能產生重大後果的事件，例如安全、財務損失、違反法規或聲譽損害。

 **預期成果：**根據對業務營運和目標的潛在影響，對營運事件的回應進行優先級排序。這使得回應高效且有效。

 **常見的反模式：**
+  每個事件都按相同的緊急程度處理，會導致解決關鍵問題時出現混亂和延遲。
+  您無法區分高影響和低影響事件，導致資源分配錯誤。
+  您的組織缺乏明確的優先順序排定架構，導致對營運事件的回應不一致。
+  事件的優先級基於其報告的順序，而不是其對業務成果的影響。

 **建立此最佳實務的優勢：**
+  確保關鍵業務功能首先獲得關注，將潛在損害降至最低。
+  改善多個並行事件期間的資源配置。
+  增強組織維持信任並遵守法規要求的能力。

 **未建立此最佳實務時的曝險等級：**高 

## 實作指引
<a name="implementation-guidance"></a>

 當面對多個營運事件時，根據影響和緊迫性來確定優先順序的結構化方法至關重要。這種方法可幫助您做出明智的決策，直接在最需要的地方做出努力，並降低業務持續性的風險。

### 實作步驟
<a name="implementation-steps"></a>

1.  **評估影響：**制定分類系統，根據事件對業務營運和目標的潛在影響來評估事件的嚴重性。下列範例顯示了影響類別：    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **評估緊迫性：**定義事件需要回應的速度之緊急程度，考慮安全、財務影響和服務水準協議 (SLA) 等因素。下列範例示範緊急類別：    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **建立一個優先級矩陣：**
   +  使用矩陣來交叉參考影響和緊迫性，將優先級別分配給不同的組合。
   +  讓負責營運事件回應的所有團隊成員都能存取和理解矩陣。
   +  下列範例矩陣會根據緊急性和影響來顯示事件嚴重性：    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **培訓與溝通：**對回應團隊進行優先級矩陣的培訓，並強調在事件期間遵循該矩陣的重要性。向所有利益相關者傳達優先級排序過程，以設定明確的期望。

1.  **與事件回應整合：**
   +  將優先級矩陣整合到您的事件回應計畫和工具中。
   +  盡可能自動化事件的分類和優先順序，以加快回應時間。
   +  企業支援客戶可利用 [AWS 事件偵測與回應](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)功能，為生產工作負載提供全年無休的主動監控和事件管理。

1.  **審查和調整：**定期審查優先順序排定程序的有效性，並根據業務環境中的意見回饋和變化進行調整。

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [鼓勵 OPS03-BP03 升級](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 建立可執行的提醒](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 使用指標衡量營運目標與 KPI](ops_operations_health_measure_ops_goals_kpis.md) 

 **相關文件：**
+ [Atlassian - 了解事件嚴重性層級](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [IT 流程圖 - 檢查清單事件優先順序](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 定義呈報路徑
<a name="ops_event_response_define_escalation_paths"></a>

在您的事件回應協定中建立明確的呈報路徑，以促進及時且有效的活動。這包括指定呈報提示、詳細說明呈報流程，以及預先核准動作，以加速決策並縮短平均解決時間 (MTTR)。

 **預期成果：**結構化且有效率的流程，可將事件呈報給適當的人員，將回應時間和影響降到最低。

 **常見的反模式：**
+ 復原程序不明確會導致在關鍵事件期間採取臨時應對措施。
+ 當需要緊急行動時，缺少已定義的權限和擁有權會導致延遲。
+  利益相關者和客戶沒有按照預期得到通知。
+  重要決策被推遲。

 **建立此最佳實務的優勢：**
+  透過預先定義的呈報程序來簡化事件回應。
+  透過預先核准的動作和明確的擁有權，減少停機時間。
+  根據事件嚴重性來改善資源配置和支援層級調整。
+  改善與利益相關者和客戶的溝通。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 正確定義的呈報路徑對於快速事件回應至關重要。AWS Systems Manager Incident Manager 支援設定結構化呈報計畫和隨時待命的排程，它們會提醒合適人員，以便他們在事件發生時做好行動準備。

### 實作步驟
<a name="implementation-steps"></a>

1.  **設定呈報提示：**設定 [CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions)以在 [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html) 中建立事件。

1.  **設定隨時待命的排程：**在 Incident Manager 中建立與您的呈報路徑保持一致的[隨時待命的排程](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html)。為隨時待命的人員提供必要的權限和工具，以迅速採取行動。

1.  **詳細說明呈報程序：**
   +  確定應在哪些特定條件下呈報事件。
   +  在 Incident Manager 中建立[呈報計劃](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)。
   +  呈報渠道應包括聯絡人或隨時待命的時間表。
   +  定義團隊在每個呈報級別的角色和職責。

1.  **預先核准的緩解措施：**與決策者協同合作，針對預期情況預先核准動作。使用與 Incident Manager 整合的 [Systems Manager Automation 執行手冊](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html)，加快事件解決速度。

1.  **指定擁有權：**針對呈報路徑的每個步驟，清楚識別內部擁有者。

1.  **詳細說明第三方呈報：**
   +  記錄第三方服務水準協議 (SLA)，並使其與內部目標保持一致。
   +  為事件期間的供應商溝通制定明確的協定。
   +  將供應商聯絡資訊整合至事件管理工具，以便直接存取。
   +  定期進行演練，包括第三方回應方案。
   +  保持供應商呈報資訊有據可查且易於存取。

1.  **培訓和演練呈報計劃：**對您的團隊進行呈報流程培訓，並定期進行事件回應演習或練習。企業支援客戶可申請[事件管理研討會](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/)。

1.  **持續改善：**定期審核呈報路徑的有效性。根據事件發生後的經驗教訓和持續回饋來更新您的流程。

 **實作計劃的工作量：**中 

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS08-BP04 建立可執行的提醒](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 每個提醒建立一個程序](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 執行事後分析](ops_evolve_ops_perform_rca_process.md) 

 **相關文件：**
+ [AWS Systems Manager Incident Manager 呈報計劃](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [在 Incident Manager 中使用隨時待命的時間表](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [建立和管理執行手冊](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [使用 AWS IAM Identity Center 進行臨時提升的存取管理](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [Atlassian - 有效事件管理的呈報政策](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 為影響服務的事件定義客戶溝通計劃
<a name="ops_event_response_push_notify"></a>

 在影響服務的事件中，有效的溝通對於維護與客戶的信任和透明度至關重要。明確定義的溝通計劃可協助您的組織在事件發生期間快速且清楚地分享資訊，包括內部和外部。

 **預期成果：**
+  強大的溝通計劃可在影響服務的事件中有效地通知客戶和利益相關者。
+  溝通中的透明度可建立信任並減少客戶焦慮。
+  盡量減少服務影響事件對客戶體驗和業務運營的影響。

 **常見的反模式：**
+  溝通不充分或延遲會導致客戶困惑和不滿。
+  過於技術化或模糊的消息傳遞無法傳達對使用者的實際影響。
+  沒有預先定義的溝通策略，導致不一致且被動的消息傳遞。

 **建立此最佳實務的優勢：**
+  透過主動和清晰的溝通，增強客戶的信任和滿意度。
+  透過搶先解決客戶問題，減輕支援團隊的負擔。
+  改善有效管理事件並從中復原的能力。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 為影響服務的事件制定全面的溝通計劃涉及多個方面，從選擇正確的渠道到精心製作消息和基調。該計劃應具有適應性、可擴展性，並適應不同的停機情況。

### 實作步驟
<a name="implementation-steps"></a>

1.  **定義角色和責任：**
   +  指派一名主要事件管理者來監督事件回應活動。
   +  指定一名溝通管理者，其負責協調所有外部與內部溝通。
   +  包括支援管理者，以透過支援票證提供一致的溝通。

1.  **確定溝通渠道：**選取諸如工作場所聊天、電子郵件、簡訊、社交媒體、應用程式內通知和狀態頁面等渠道。這些渠道應具有彈性，並且能夠在影響服務的事件期間獨立運作。

1.  **快速、清晰、定期地與客戶溝通：**
   +  為各種服務損害場景開發模板，強調簡單性和基本細節。包括有關服務損害、預期解決時間和影響等資訊。
   +  透過推播通知、應用程式內通知、電子郵件、文字訊息、語音訊息和自訂渠道上的訊息，使用 Amazon Pinpoint 來提醒客戶。
   +  使用 Amazon Simple Notification Service (Amazon SNS) 以程式設計方式或透過電子郵件、行動推送通知和文字訊息來提醒訂閱用戶。
   +  透過公開共用 Amazon CloudWatch 儀表板，使用儀表板溝通狀態。
   +  鼓勵社交媒體參與：
     +  積極監控社交媒體以了解客戶情緒。
     +  在社交媒體平台上發布公共更新和社區參與情況。
     +  準備範本以進行一致且清晰的社交媒體溝通。

1.  **協調內部溝通：**使用如聊天應用程式中的 Amazon Q Developer 等工具實作內部通訊協定，以進行團隊協調和溝通。使用 CloudWatch 儀表板來溝通狀態。

1.  **使用專用工具和服務協調溝通：**
   +  搭配使用 AWS Systems Manager Incident Manager 和聊天應用程式中的 Amazon Q Developer 即可設定專屬的聊天頻道，以便在事件發生時進行即時內部溝通和協調。
   +  在事件發生期間，透過 Amazon Pinpoint、Amazon SNS 或第三方工具 (例如社交媒體平台)，使用 AWS Systems Manager Incident Manager 執行手冊將客戶通知自動化。
   +  在執行手冊中合併核准工作流程，以便在傳送前選擇性地審核和授權所有外部通訊。

1.  **實踐和改善：**
   +  針對溝通工具和策略的使用進行培訓。讓團隊能夠在事件發生時及時做出決策。
   +  透過定期演習或演練日測試溝通計劃。使用這些測試來精簡消息傳遞並評估渠道的有效性。
   +  實作意見回餽機制，以評估事件期間的溝通效率。根據意見回饋和不斷變化的需求不斷發展溝通計劃。

 **實作計劃的工作量：**高 

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS07-BP03 使用執行手冊執行程序](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 透過儀表板傳達狀態](ops_event_response_dashboards.md) 
+  [OPS11-BP02 執行事後分析](ops_evolve_ops_perform_rca_process.md) 

 **相關文件：**
+ [Atlassian - 事件溝通最佳實務](https://www.atlassian.com/incident-management/incident-communication)
+ [Atlassian - 如何編寫良好的狀態更新](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [PagerDuty - 事件溝通指南](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **相關影片：**
+ [Atlassian - 建立您自己的事件溝通計劃：事件範本](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **相關範例：**
+  [AWS Health 儀表板](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 透過儀表板傳達狀態
<a name="ops_event_response_dashboards"></a>

 使用儀表板作為戰略工具，將即時營運狀態和關鍵指標傳達給不同的受眾，包括內部技術團隊、領導層和客戶。這些儀表板提供系統運作狀態和業務績效的集中式視覺化呈現，從而提高透明度和決策效率。

 **預期成果：**
+  儀表板提供與不同利益相關者相關的系統和業務指標的全面檢視。
+  利益相關者可以主動存取營運資訊，減少頻繁的狀態請求。
+  在正常操作和事件期間增強實時決策。

 **常見的反模式：**
+ 加入事件管理通話的工程師要求更新狀態以加快速度。
+ 依靠手動報告進行管理，這會導致延遲和潛在的不准確性。
+  事件發生期間，營運團隊經常因為狀態更新而受到干擾。

 **建立此最佳實務的優勢：**
+  使利益相關者能夠立即存取關鍵資訊，有助於制定明智決策。
+  透過最大限度地減少手動報告和頻繁狀態查詢，減少操作效率低下問題。
+  透過即時掌握系統效能和業務指標，提高透明度和信任度。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 儀表板可有效地傳達系統和業務指標的狀態，並可根據不同受眾群體的需求進行量身打造。Amazon CloudWatch 儀表板和 Amazon Quick 等工具可協助您建立用於系統監控和商業智慧的互動式即時儀表板。

### 實作步驟
<a name="implementation-steps"></a>

1.  **確定利益相關者的需求：**確定不同受眾群體的特定資訊需求，例如技術團隊、領導層和客戶。

1.  **選擇正確的工具：**選取適當的工具，例如，使用 [Amazon CloudWatch 儀表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)進行系統監控，以及使用 [Amazon Quick](https://aws.amazon.com/quicksight/) 獲得互動式商業情報。[AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 在 [AWS Health 儀板表](https://health.aws.amazon.com/health/home) 中提供了立即可用的體驗，您也可以使用 Amazon EventBridge 中的運作狀態事件或透過 AWS Health API 來擴增您的儀表板。

1.  **設計高效儀表板：**
   +  設計儀表板以清楚呈現相關指標和 KPI，確保其易於理解和操作。
   +  視需要整合系統層級與企業層級檢視。
   +  包括高階 (用於廣泛概述) 和低階 (用於詳細分析) 儀表板。
   +  在儀表板中整合自動警示，以突顯重大問題。
   +  使用重要指標閾值和目標為儀表板加上註釋，以實現即時可見性。

1.  **整合資料來源：**
   +  使用 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 彙總和顯示來自各種 AWS 服務的指標，並[查詢其他資料來源的指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)，建立系統運作狀態和商業指標的統一檢視。
   +  使用 [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 等功能，查詢並視覺化來自不同應用程式和服務的日誌資料。
   +  使用 AWS Health 事件透過 [AWS Health API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) 或 [Amazon EventBridge 上的 AWS Health 事件](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html)，隨時掌握 AWS 服務的操作狀態和已確認的操作問題。

1.  **提供自助服務存取：**
   +  與相關利益相關者共用 CloudWatch 儀表板，以使用[儀表板共用功能](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)進行自助式資訊存取。
   +  確保儀表板易於存取，並提供即時、最新的資訊。

1.  **定期更新和完善：**
   +  持續更新和完善儀表板，以滿足不斷變化的業務需求和利益相關者的意見回饋。
   +  定期審核儀表板，使其保持相關性並可有效傳達必要資訊。

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS08-BP05 建立儀表板](ops_workload_observability_create_dashboards.md) 

 **相關文件：**
+ [建置用於檢視營運狀況的儀表板](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [使用 Amazon CloudWatch 儀表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [使用儀表板變數建立彈性儀表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [共享 CloudWatch 儀表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [從其他資料來源中查詢指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [將自訂小工具新增至 CloudWatch 儀表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **相關範例：**
+ [一個可觀測性研討會 - 儀表板](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 自動化對事件的回應
<a name="ops_event_response_auto_event_response"></a>

 自動化事件回應是快速、一致且無誤操作處理的關鍵。建立簡化的流程，並使用工具自動管理和回應事件，將手動干預降至最低，並提高營運效率。

 **預期成果：**
+  透過自動化減少人為錯誤並縮短解決時間。
+  一致且可靠的操作事件處理。
+  提高運營效率和系統可靠性。

 **常見的反模式：**
+ 手動事件處理會導致延遲和錯誤。
+ 在重複的關鍵任務中，自動化被忽略。
+  重複的手動任務會導致警示疲勞，並遺漏重大問題。

 **建立此最佳實務的優勢：**
+  加速事件回應，減少系統停機時間。
+  可靠的操作，自動化且一致的事件處理。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 整合自動化以建立有效的操作工作流程，並將手動干預降至最低。

### 實作步驟
<a name="implementation-steps"></a>

1.  **識別自動化機會：**確定自動化的重複性任務，例如問題修復、工單擴充、容量管理、擴展、部署和測試。

1.  **識別自動化提示：**
   +  使用 [Amazon CloudWatch 警示動作 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions)來評估和定義啟動自動回應的特定條件或指標。
   +  使用 [Amazon EventBridge](https://aws.amazon.com/eventbridge/) 來回應 AWS 服務、自訂工作負載和 SaaS 應用程式中的事件。
   +  考慮啟動事件，例如[特定日誌項目 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html)、[效能指標閾值 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)或 AWS 資源[的狀態變更](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html)。

1.  **實作事件驅動型自動化：**
   +  使用 AWS Systems Manager Automation Runbook 簡化維護、部署和修復任務。
   +  在 [Incident Manager 中建立事件](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html)會自動收集有關事件所涉及 AWS 資源的詳細資訊，並將其新增至事件。
   +  使用 [Quota Monitor for AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/) 主動監控配額。
   +  使用 [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 自動調整容量，以維持可用性和效能。
   +  使用 [Amazon CodeCatalyst](https://codecatalyst.aws/explore)將開發管道自動化。
   +  煙霧測試或持續監控端點，APIs[並使用合成監控 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)。

1.  **透過自動化執行風險緩解：**
   +  實作[自動化安全回應](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/)，迅速解決風險。
   +  使用 [AWS Systems Manager狀態管理器](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html)來減少組態偏差。
   +  [使用 修復不合規資源 AWS Config 規則](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html)。

 **實作計劃的工作量：**高 

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS08-BP04 建立可執行的提醒](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 每個提醒建立一個程序](ops_event_response_process_per_alert.md) 

 **相關文件：**
+  [搭配 Incident Manager 使用 Systems Manager Automation 執行手冊](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [在 Incident Manager 中建立事件](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [AWS 服務配額](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [監控資源使用情況並在接近配額時傳送通知](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [什麼是 Amazon CodeCatalyst？](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [使用 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [使用 Amazon CloudWatch 警示動作](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [使用 修復不合規資源 AWS Config 規則](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [使用篩選條件從日誌事件建立指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **相關影片：**
+ [ 使用 建立 Automation Runbook AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [ 如何在 上自動化 IT 操作 AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM 自動化規則 ](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [ 使用 Amazon CodeCatalyst 藍圖快速啟動軟體專案 ](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **相關範例：**
+ [ Amazon CodeCatalyst 教學課程：使用現代三層式 Web 應用程式藍圖建立專案 ](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [一個可觀測性研討會](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [使用 Incident Manager 回應事件](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)