

# PERF05-BP05 使用自動化主動修復效能相關問題
<a name="perf_process_culture_automation_remediate_issues"></a>

 使用關鍵績效指標 (KPI) 搭配監控和提醒系統，主動處理效能相關的問題。

 **常見的反模式：**
+  您只讓操作人員有能力對工作負載進行操作變更。
+  您讓所有警示篩選到操作團隊，無須主動修復。

 **建立此最佳實務的優勢：**主動修復警示動作能夠讓支援人員專注在無法自動採取行動的項目上。這有助於操作人員無須疲於處理所有警示，而僅專注於關鍵警示。

 **未建立此最佳實務時的曝險等級：**低 

## 實作指引
<a name="implementation-guidance"></a>

 使用警示觸發自動化動作，盡可能修復問題。如果無法自動回應，則將警示上報給能夠回應的人員。例如，您可能有一個可以預測關鍵績效指標 (KPI) 預期值並在超過特定閾值時發出警示的系統，或者在 KPI 超出預期值時可以自動停止或回復部署的工具。

 實作可在工作負載執行時提供效能可見度的程序。建置監控儀表板並建立效能預期的基準規範，以確定工作負載是否以最佳狀態執行。

### 實作步驟
<a name="implementation-steps"></a>
+ **識別修復工作流程：**識別並了解可自動修復的效能問題。使用 AWS 監控解決方案 (例如 [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 或 AWS X-Ray)，協助您更好地了解問題的根本原因。
+ **定義自動化程序：**制定可用來自動修正問題的逐步修復程序。
+ **設定啟動事件：**將事件設定為自動啟動修復程序。例如，您可以定義觸發程式，在執行個體達到特定 CPU 使用率閾值時自動重新啟動執行個體。
+ **自動化修復：**使用 AWS 服務和技術，自動化修復程序。例如，[AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 提供安全且可擴展的方式，來自動化修復程序。如果變更無法成功解決問題，則請務必使用自我修復邏輯來還原變更。
+ **測試工作流程：**在生產前環境中測試自動修復程序。
+ **實作工作流程：**在生產環境中實作自動修復。
+ **制定說明手冊：**制定並記錄說明手冊，其中概述了補救計劃的步驟，包括啟動事件、補救邏輯和採取的動作。確保培訓利益相關者，以協助他們有效地應對自動補救事件。
+ **審查和完善：**定期評估自動補救工作流程的有效性。如有必要，請調整啟動事件和補救邏輯。

## 資源
<a name="resources"></a>

 **相關文件：**
+  [CloudWatch 文件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [監控、日誌記錄和效能 AWS Partner Network 合作夥伴](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+  [X-Ray 文件](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [使用 CloudWatch 中的警示和警示動作](https://docs.aws.amazon.com/sdk-for-go/v1/developer-guide/cw-example-using-alarm-actions.html) 
+ [建立雲端自動化實務以實現卓越營運：AWS Managed Services 的最佳實務](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/)
+ [使用自動表格優化來自動調整您的 Amazon Redshift 效能](https://aws.amazon.com/blogs/big-data/automate-your-amazon-redshift-performance-tuning-with-automatic-table-optimization/)

 **相關影片：**
+ [AWS re:Invent 2023 - 自動擴展、補救和智慧自我修復的策略](https://www.youtube.com/watch?v=nlGyIa3UQYU)
+ [AWS re:Invent 2023 – [發佈] 針對現代工作負載的應用程式監控](https://www.youtube.com/watch?v=T2TovTLje8w)
+ [AWS re:Invent 2023 – 實作應用程式可觀測性](https://www.youtube.com/watch?v=IcTcwUSwIs4)
+  [AWS re:Invent 2021 - 智慧自動化雲端作業](https://www.youtube.com/watch?v=m0S8eAF0l54) 
+  [AWS re:Invent 2022 - 在 AWS 環境中大規模設定控制項](https://www.youtube.com/watch?v=NkE9_okfPG8) 
+  [AWS re:Invent 2022 - 使用 AWS 自動化修補程式管理和合規性](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [AWS re:Invent 2022 - Amazon 如何使用更好的指標來提高網站效能](https://www.youtube.com/watch?v=_uaaCiyJCFA&ab_channel=AWSEvents) 
+ [AWS re:Invent 2023 - 減輕負擔：使用 Amazon RDS 診斷和解決效能問題](https://www.youtube.com/watch?v=Ulj88e5Aqzg)
+ [AWS re:Invent 2021 -\$1最新發佈\$1 使用 Amazon DevOps Guru 自動偵測並解決問題](https://www.youtube.com/watch?v=iwQNQHwoXfk)
+ [AWS re:Invent 2023 - 將操作集中化](https://www.youtube.com/watch?v=9-RBjmhDdaM)

 **相關範例：**
+  [CloudWatch Logs 自訂警示](https://github.com/awslabs/cloudwatch-logs-customize-alarms) 