

# OPS 8. 如何在組織中利用工作負載可觀測性？
<a name="ops-08"></a>

利用可觀測性確保最佳的工作負載運作狀況。利用相關指標、日誌和追蹤，全面掌握工作負載效能並有效解決問題。

**Topics**
+ [

# OPS08-BP01 分析工作負載指標
](ops_workload_observability_analyze_workload_metrics.md)
+ [

# OPS08-BP02 分析工作負載日誌
](ops_workload_observability_analyze_workload_logs.md)
+ [

# OPS08-BP03 分析工作負載追蹤
](ops_workload_observability_analyze_workload_traces.md)
+ [

# OPS08-BP04 建立可執行的提醒
](ops_workload_observability_create_alerts.md)
+ [

# OPS08-BP05 建立儀表板
](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 分析工作負載指標
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 實作應用程式遙測之後，請定期分析收集到的指標。雖然延遲、請求、錯誤和容量 (或配額) 可提供深入了解系統效能的洞見，但務必將檢閱業務成果指標視為優先事項。這樣做可確保您所做的資料驅動決策符合您的業務目標。

 **預期成果：**獲得深入工作負載效能的精確洞見，有助於做出資料驅動的決策，確保與業務目標保持一致。

 **常見的反模式：**
+  單獨分析指標，未能考慮到其對業務目標的影響。
+  過度依賴技術指標，而輕忽業務指標。
+  未能時常檢閱指標，而錯失即時決策的機會。

 **建立此最佳實務的優勢：**
+  增進對於技術表現與業務成果之間相互關聯的了解。
+  透過即時資料改善了決策過程。
+  主動識別並緩解問題，不讓問題影響業務成果。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 利用 Amazon 等工具 CloudWatch 執行指標分析。 CloudWatch 異常偵測和 Amazon DevOpsGuru 等 AWS 服務可用來偵測異常，特別是靜態閾值未知或行為模式更適合異常偵測時。

### 實作步驟
<a name="implementation-steps"></a>

1.  **分析與檢閱：**定期檢閱和解讀您的工作負載指標。

   1.  將業務成果指標視為優先於純粹技術指標的事項。

   1.  了解資料中峰值、下降或模式的重要性。

1.  **使用 Amazon CloudWatch：**使用 Amazon CloudWatch 進行集中式檢視和深入分析。

   1.  設定 CloudWatch 儀表板以視覺化您的指標，並隨時間進行比較。

   1.  使用 [中的百分位數 CloudWatch](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)來取得指標分佈的清晰檢視，這有助於定義SLAs和了解異常值。

   1.  設定[CloudWatch 異常偵測](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)以識別異常模式，而不必依賴靜態閾值。

   1.  實作[CloudWatch 跨帳戶可觀測性](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)，以監控和疑難排解跨區域內多個帳戶的應用程式。

   1.  使用 [CloudWatch Metric Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) 查詢和分析帳戶和區域的指標資料，識別趨勢和異常。

   1.  套用[CloudWatch 指標數學](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html)來轉換、彙總或執行指標的計算，以取得更深入的洞見。

1.  **使用 Amazon DevOpsGuru：**將 [Amazon DevOpsGuru](https://aws.amazon.com/devops-guru/) 納入其機器學習增強型異常偵測，以識別無伺服器應用程式的早期操作問題跡象，並在影響客戶之前對其進行修復。

1.  **根據洞見最佳化：**根據您的指標分析做出明智的決策，以調整和改善您的工作負載。

 **實作計劃的工作量：**中 

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS04-BP01 識別關鍵績效指標](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 實作應用程式遙測](ops_observability_application_telemetry.md) 

 **相關文件：**
+ [The Wheel 部落格 - 強調持續檢閱指標的重要性](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [百分位數很重要](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [ 使用 AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ CloudWatch 跨帳戶可觀測性 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [ 使用 CloudWatch Metrics Insights 查詢您的指標 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **相關影片：**
+ [ 在 Amazon 中啟用跨帳戶可觀測性 CloudWatch ](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [ Amazon DevOpsGuru 簡介 ](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [ 使用 持續分析指標 AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **相關範例：**
+ [一個可觀測性研討會](https://catalog.workshops.aws/observability/en-US/intro)
+ [ AIOps使用 Amazon DevOpsGuru 取得操作洞見 ](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 分析工作負載日誌
<a name="ops_workload_observability_analyze_workload_logs"></a>

 定期分析工作負載日誌對於深入了解應用程式的操作層面至關重要。藉由有效率地篩選、視覺化和解讀日誌資料，可持續最佳化應用程式效能和安全。

 **預期成果：**從徹底的日誌分析中獲得深入應用程式行為和操作的豐富洞見，以確保主動偵測和緩解問題。

 **常見的反模式：**
+  忽略日誌分析，直到出現嚴重問題。
+  沒有使用可用於日誌分析的完整工具套件，錯過了關鍵洞見。
+  只倚賴手動檢閱日誌，而未利用自動化和查詢功能。

 **建立此最佳實務的優勢：**
+  主動找出操作瓶頸、安全威脅及其他潛在問題。
+  有效利用日誌資料，以實現持續的應用程式最佳化。
+  加強對應用程式行為的理解，幫助偵錯和疑難排解。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) 是日誌分析的強大工具。 CloudWatch Logs Insights 和 Contributor Insights 等整合功能，讓從日誌中擷取有意義的資訊的過程變得直覺且有效。

### 實作步驟
<a name="implementation-steps"></a>

1.  **設定 CloudWatch 日誌 **：設定應用程式和服務將日誌傳送至 CloudWatch 日誌。

1.  **使用日誌異常偵測：**利用 [Amazon CloudWatch Logs 異常偵測](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html)自動識別並提醒異常日誌模式。此工具可協助您主動管理日誌中的異常，並儘早偵測潛在問題。

1.  **設定 CloudWatch Logs Insights **：使用 [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 以互動方式搜尋和分析您的日誌資料。

   1.  製作查詢以找出模式、視覺化日誌資料，並產生可付諸行動的洞見。

   1.  使用 [CloudWatch Logs Insights 模式分析](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html)來分析和視覺化常用日誌模式。此功能可協助您了解日誌資料中常見的操作趨勢和潛在的異常值。

   1.  使用 [CloudWatch Logs compare （diff）](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html) 在不同時段或不同日誌群組之間執行差異分析。使用此功能可精確找出變更，並評估其對系統效能或行為的影響。

1.  **使用 Live Tail 即時監控日誌：**使用 [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) 即時檢視日誌資料。您可以在應用程式的操作活動發生時進行主動監控，以便立即掌握系統效能和潛在問題。

1.  **利用 Contributor Insights **：使用 [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 來識別 IP 地址或使用者代理等高基度維度的熱門發言者。

1.  **實作 CloudWatch 日誌指標篩選條件 **：設定[CloudWatch 日誌指標篩選條件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html)，將日誌資料轉換為可操作的指標。如此您就能設定警報或進一步分析模式。

1.  **實作[CloudWatch跨帳戶可觀測性 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)：**監控和疑難排解跨區域內多個帳戶的應用程式。

1.  **定期檢閱和改進**：定期檢閱您的日誌分析策略，以擷取所有相關資訊並持續最佳化應用程式效能。

 **實作計劃的工作量：**中 

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS04-BP01 識別關鍵績效指標](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 實作應用程式遙測](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 分析工作負載指標](ops_workload_observability_analyze_workload_metrics.md) 

 **相關文件：**
+  [使用 Logs Insights 分析 CloudWatch 日誌資料](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [使用 CloudWatch 貢獻者洞察](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [建立和管理 CloudWatch 日誌指標篩選條件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **相關影片：**
+  [使用 Logs Insights 分析 CloudWatch 日誌資料](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [使用 CloudWatch 貢獻者洞察分析高基數資料](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **相關範例：**
+  [CloudWatch 記錄範例查詢](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [一個可觀測性研討會](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 分析工作負載追蹤
<a name="ops_workload_observability_analyze_workload_traces"></a>

 分析追蹤資料對於實現應用程式營運歷程的全面檢視至關重要。透過視覺化和了解各種不同元件之間的互動，就能微調效能、找出瓶頸，並且增強使用者體驗。

 **預期成果：**清楚掌握應用程式的分散式操作，就能更快解決問題並增強使用者體驗。

 **常見的反模式：**
+  忽略追蹤資料，只依賴日誌和指標。
+  不會將追蹤資料與相關日誌建立關聯。
+  忽略從追蹤產生的指標，如延遲和故障率。

 **建立此最佳實務的優勢：**
+  改善故障診斷並減少解決的平均時間 （MTTR）。
+  深入了解依賴性及其影響。
+  快速識別和糾正效能問題。
+  利用追蹤衍生的指標制定明智的決策。
+  透過最佳化元件互動改善使用者體驗。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) 提供了全方位的追蹤資料分析套件，能讓您深入了解服務互動的各個層面、監控使用者活動，以及偵測效能問題。 ServiceLens、X-Ray Insights、X-Ray Analytics 和 Amazon DevOpsGuru 等功能可增強從追蹤資料衍生的可操作洞察深度。

### 實作步驟
<a name="implementation-steps"></a>

 下列步驟提供結構化方法，可有效使用 AWS 服務實作追蹤資料分析：

1.  **整合 AWS X-Ray**：確保 X-Ray 與您的應用程式整合，以擷取追蹤資料。

1.  **分析 X-Ray 指標**：深入研究 X-Ray 追蹤衍生的指標，例如延遲、請求率、錯誤率和回應時間分佈，使用[服務地圖](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view)來監控應用程式運作狀態。

1.  **使用 ServiceLens**：利用[ServiceLens地圖](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html)增強服務和應用程式的可觀測性。如此就能將追蹤、指標、日誌、警報和其他運作狀況資訊整合在一起檢視。

1.  **啟用 X-Ray Insights**：

   1.  開啟 [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html)，以自動偵測追蹤中的異常。

   1.  檢查洞見以找出明確的模式並確定根本原因，例如故障率或延遲增加。

   1.  請參考 Insights 時間軸，依時間順序查看所偵測到問題的分析。

1.  **使用 X-Ray Analytics**：[X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 可讓您徹底探索追蹤資料、精確定位模式並擷取洞見。

1.  **使用 X-Ray 中的群組**：在 X-Ray 中建立群組，即可根據如高延遲等條件篩選追蹤，以進行更針對性的分析。

1.  **合併 Amazon DevOpsGuru **：讓 [Amazon DevOpsGuru](https://aws.amazon.com/devops-guru/) 受益於機器學習模型，以找出追蹤中的操作異常。

1.  **使用 CloudWatch Synthetics **：使用 [CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) 建立 Canary，以持續監控您的端點和工作流程。這些 Canary 可與 X-Ray 整合，以提供追蹤資料，用來對要測試的應用程式進行深入分析。

1.  **使用實際使用者監控 （RUM）**：使用 [AWS X-Ray 和 CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html)，您可以從應用程式的最終使用者開始透過下游 AWS 受管服務分析和偵錯請求路徑。這樣做有助於找出影響最終使用者的延遲趨勢和錯誤。

1.  **與日誌建立關聯**：將[追蹤資料與 X-Ray 追蹤檢視中的相關日誌](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs)建立關聯，以深入了解應用程式行為。如此可讓您檢視與追蹤的交易直接相關的日誌事件。

1.  **實作[CloudWatch跨帳戶可觀測性 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)：**監控和疑難排解跨區域內多個帳戶的應用程式。

 **實作計劃的工作量：**中 

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS08-BP01 分析工作負載指標](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 分析工作負載日誌](ops_workload_observability_analyze_workload_logs.md) 

 **相關文件：**
+  [使用 ServiceLens 監控應用程式運作狀態](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [使用 X-Ray Analytics 探索追蹤資料](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [使用 X-Ray Insights 偵測追蹤中的異常狀況](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [使用 CloudWatch Synthetics 持續監控](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **相關影片：**
+  [使用 Amazon CloudWatch Synthetics & 分析和偵錯應用程式 AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [使用 AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **相關範例：**
+  [一個可觀測性研討會](https://catalog.workshops.aws/observability/en-US/intro) 
+  [使用 實作 X-Ray AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [CloudWatch Synthetics Canary 範本](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 建立可執行的提醒
<a name="ops_workload_observability_create_alerts"></a>

 及時偵測並回應您的應用程式行為中的偏差至關重要。尤其重要的是要了解基於關鍵績效指標 (KPI) 的結果何時處於危險之中，或者何時出現意外異常。以 KPI 為基礎的提醒可確保您收到的訊號直接與業務或營運影響產生關係。這種可採取動作的提醒方法可促進主動回應，並有助於維持系統效能與可靠性。

 **預期成果：**接收及時、相關且可行的提醒，以便快速識別和緩解潛在問題，尤其是在 KPI 結果面臨風險時。

 **常見的反模式：**
+  設定太多非嚴重性提醒會導致提醒疲勞。
+  不會根據 KPI 來排定提醒的優先順序，因此難以了解問題的業務影響。
+  忽視解決根本原因導致同一問題的重複提醒。

 **建立此最佳實務的優勢：**
+  透過專注於可操作且相關的提醒來減少提醒疲勞。
+  透過主動偵測和緩解問題，改善系統運作時間和可靠性。
+  透過與熱門的提醒和通訊工具整合，強化團隊協同作業並加快解決問題的速度。

 **未建立此最佳實務時的曝險等級：**高 

## 實作指引
<a name="implementation-guidance"></a>

 若要建立有效的提醒機制，使用指標、日誌和追蹤資料至關重要，其會在基於 KPI 的結果出現風險或偵測到異常時進行標記。

### 實作步驟
<a name="implementation-steps"></a>

1.  **確定關鍵績效指標 (KPI)**：確定應用程式的 KPI。提醒應與這些關鍵績效指標相關聯，以準確反映業務影響。

1.  **實作異常偵測**：
   +  **使用 Amazon CloudWatch 異常偵測**：設定 [Amazon CloudWatch 異常偵測](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)以自動偵測異常模式，這可協助您僅針對真正的異常產生提醒。
   +  **使用 AWS X-Ray Insights**：

     1.  設定 [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) 以偵測追蹤資料中的異常。

     1.  設定 [X-Ray Insights 的通知](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications)，以便在偵測到問題時收到提醒。
   +  **與 Amazon DevOps Guru 整合**：

     1.  利用 [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) 的機器學習功能，偵測現有資料的操作異常情況。

     1.  導覽至 DevOps Guru 中的[通知設定](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings)，以設定異常提醒。

1.  **實作可執行的提醒**：設計提醒，為立即採取行動提供足夠資訊。

   1.  [使用 Amazon EventBridge 規則監控 AWS Health 事件](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html)，或以程式設計方式與 AWS Health API 整合，以便在您收到 AWS Health 事件時自動執行動作。這些動作可以是一般動作 (例如將所有規劃的生命週期事件訊息傳送至聊天介面) 或是特定動作 (例如在 IT 服務管理工具中啟動工作流程)。

1.  **減少提醒疲勞**：將非嚴重性提醒降至最低。當團隊對眾多微不足道的提醒感到不知所措時，他們可能會失去對重大問題的監督，從而降低提醒機制的整體有效性。

1.  **設定複合警示**：使用 [Amazon CloudWatch 複合警示](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/)來合併多個警示。

1.  **與提醒工具整合**：整合諸如 [Ops Genie](https://www.atlassian.com/software/opsgenie) 和 [PagerDuty](https://www.pagerduty.com/) 等工具。

1.  **採用聊天應用程式中的 Amazon Q Developer**：整合[聊天應用程式中的 Amazon Q Developer](https://aws.amazon.com/chatbot/)，以便將警示轉送至 Amazon Chime、Microsoft Teams 和 Slack。

1.  **基於日誌的提醒**：使用 CloudWatch 中的[日誌指標篩選器](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html)，根據特定的日誌事件建立警示。

1.  **審查並反覆**：定期重新檢視並調整提醒組態。

 **實作計劃的工作量：**中 

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS04-BP01 識別關鍵績效指標](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 實作應用程式遙測](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 實作使用者體驗遙測](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 實作相依性遙測](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 實作分散式追蹤](ops_observability_dist_trace.md) 
+  [OPS08-BP01 分析工作負載指標](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 分析工作負載日誌](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 分析工作負載追蹤](ops_workload_observability_analyze_workload_traces.md) 

 **相關文件：**
+  [使用 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [建立複合警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [根據異常偵測建立 CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [DevOps Guru 通知](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [X-ray Insights 通知](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [透過互動式 ChatOps 監控和操作您的 AWS 資源並進行疑難排解](https://aws.amazon.com/chatbot/) 
+  [Amazon CloudWatch 整合指南 \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [整合 Opsgenie 與 Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **相關影片：**
+  [在 Amazon CloudWatch 中建立複合警示](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [聊天應用程式中的 Amazon Q Developer 概觀](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [聊天應用程式中的 Amazon Q Developer 中的 AWS On Air ft. 可變命令](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **相關範例：**
+  [使用 Amazon CloudWatch 在雲端進行警示、事件管理和修復](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [教學課程：建立將通知傳送至聊天應用程式中的 Amazon Q Developer 的 Amazon EventBridge 規則](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [一個可觀測性研討會](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 建立儀表板
<a name="ops_workload_observability_create_dashboards"></a>

 儀表板是以人為本的工作負載遙測資料檢視。雖然它們提供了重要的視覺介面，但它們不應該取代警報機制，而是補充它們。經過精心打造的儀表板不僅能提供快速了解系統運作狀況和效能的洞見，還能對利益相關者呈現有關業務成果和問題影響層面的即時資訊。

 **預期成果：**

 使用視覺呈現的方式，提供清楚、深入系統與業務運作狀況且可付諸行動的洞見。

 **常見的反模式：**
+  包含太多指標、過於複雜的儀表板。
+  仰賴沒有異常偵測提醒的儀表板。
+  儀表板未隨著工作負載發展而更新。

 **建立此最佳實務的優勢：**
+  立即掌握關鍵系統指標和 KPI。
+  增強利益相關者的溝通和理解。
+  快速深入洞察操作問題的影響層面。

 **未建立此最佳實務時的風險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 **以業務為中心的儀表板** 

 專為業務 KPI 量身打造的儀表板，可與更廣泛的利益相關者進行互動。儘管這些人可能對系統指標不感興趣，但他們熱衷於了解這些數字的業務含義。以業務為中心的儀表板可確保所有受監控和分析的技術和營運指標都與總體業務目標保持同步。這種一致性提供了清晰度，確保每個人在什麼重要以及什麼不重要的問題上意見一致。此外，突出顯示業務 KPI 的儀表板往往更具可操作性。利益相關者可以快速了解營運的運作狀態、需要注意的領域以及對業務成果的潛在影響。

 考慮到這一點，在建立儀表板時，請確保技術指標和業務 KPI 之間保持平衡。兩者都至關重要，但兩者迎合不同的受眾。在理想情況下，您應有能夠提供全方位視角儀表板，以便深入掌握系統運作狀況與效能，同時也要強調關鍵業務成果及其影響。

 Amazon CloudWatch 儀表板是 CloudWatch 主控台中可自訂的首頁，可讓您在單一檢視中監控資源，甚至是分散在不同的 AWS 區域 和帳戶中的那些資源。

### 實作步驟
<a name="implementation-steps"></a>

1.  **建立基本儀表板：**[在 CloudWatch 中建立新儀表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html)，並為其提供描述性名稱。

1.  **使用 Markdown 小工具:**在深入研究指標之前，請[使用 Markdown 小工具](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html)在儀表板頂端新增文字內容。此內容應說明儀表板涵蓋的內容、所呈現指標的重要性，還可以包含其他儀表板和疑難排解工具的連結。

1.  **建立儀表板變數：**在適當位置[合併儀表板變數](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)，以允許動態且靈活的儀表板檢視。

1.  **建立儀表板小工具：**[新增儀表板小工具](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html)以便將應用程式產生的各種不同指標視覺化，並調整這些小工具以便有效呈現系統運作狀況和業務成果。

1.  **Log Insights 查詢：**利用 [CloudWatch Log Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) 從日誌中導出可操作的指標，並在儀表板上顯示這些洞見。

1.  **設定警示：**將 [CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html)整合到儀表板中，以便快速查看違反其閾值的任何指標。

1.  **使用 Contributor Insights：**整合 [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) 以分析高基數欄位，並更清楚地了解資源的主要貢獻者。

1.  **設計自訂小工具：**對於標準小工具未滿足的特定需求，請考慮建立[自訂小工具](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)。這些小工具可從各種資料來源中提取資料，或以獨特的方式呈現資料。

1.  **使用 AWS Health：** AWS Health 是 AWS 雲端 資源運作狀態的權威資訊來源。使用現成的 [AWS Health 儀板表](https://health.aws.amazon.com/health/status)，或使用您自己的儀表板和工具中的 AWS Health 資料，以便擁有正確的資訊來做出明智的決策。

1.  **反覆執行並改進：**隨著應用程式發展，請定期重新檢視您的儀表板，以確保其相關性。

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS04-BP01 識別關鍵績效指標](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 分析工作負載指標](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 分析工作負載日誌](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 分析工作負載追蹤](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 建立可執行的提醒](ops_workload_observability_create_alerts.md) 

 **相關文件：**
+  [建置用於檢視營運狀況的儀表板](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [使用 Amazon CloudWatch 儀表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **相關影片：**
+  [建立跨帳戶和跨區域 CloudWatch 儀表板](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 - 透過 AWS 雲端 了解企業 (營運儀表板)](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **相關範例：**
+  [一個可觀測性研討會](https://catalog.workshops.aws/observability/en-US/intro) 
+  [使用 Amazon CloudWatch 監控應用程式](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [AWS Health 事件智慧儀表板和洞見](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [使用 Amazon Managed Grafana 視覺化 AWS Health 事件](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 