

# OPS 8  您如何了解工作負載的運作狀態？
<a name="w2aac19b5b9b5"></a>

 定義、擷取和分析工作負載指標，掌握工作負載事件，以便採取適當行動。 

**Topics**
+ [OPS08-BP01 識別關鍵績效指標](ops_workload_health_define_workload_kpis.md)
+ [OPS08-BP02 定義工作負載指標](ops_workload_health_design_workload_metrics.md)
+ [OPS08-BP03 收集和分析工作負載指標](ops_workload_health_collect_analyze_workload_metrics.md)
+ [OPS08-BP04 建立工作負載指標基準](ops_workload_health_workload_metric_baselines.md)
+ [OPS08-BP05 了解工作負載的預期活動模式](ops_workload_health_learn_workload_usage_patterns.md)
+ [OPS08-BP06 在工作負載結果有風險時發出提醒](ops_workload_health_workload_outcome_alerts.md)
+ [OPS08-BP07 在偵測到工作負載異常時發出提醒](ops_workload_health_workload_anomaly_alerts.md)
+ [OPS08-BP08 驗證結果的實現以及 KPI 和指標的有效性](ops_workload_health_biz_level_view_workload.md)

# OPS08-BP01 識別關鍵績效指標
<a name="ops_workload_health_define_workload_kpis"></a>

 根據所需的業務成果 (例如，訂單率、客戶保留率以及獲利與營運支出的對比) 與客戶成果 (例如，客戶滿意度)，識別關鍵績效指標 (KPI)。評估 KPI 以確定工作負載是否成功。 

 **常用的反模式：** 
+  企業領導階層會詢問您工作負載如何成功滿足業務需求，但您卻沒有可判斷成功與否的參考框架。 
+  您無法判斷為組織營運的商用現成應用程式是否具成本效益。 

 **建立此最佳實務的優勢：** 藉由識別關鍵績效指標，您可以實現業務成果，做為對工作負載運作狀態和成功的測試。 

 **若未建立此最佳實務，暴露的風險等級為：** 高 

## 實作指引
<a name="implementation-guidance"></a>
+  識別關鍵績效指標：根據所需的業務和客戶成果識別關鍵績效指標 (KPI)。評估 KPI 以確定工作負載是否成功。 

# OPS08-BP02 定義工作負載指標
<a name="ops_workload_health_design_workload_metrics"></a>

 定義工作負載指標以衡量 KPI 的實現情況 (例如，捨棄的購物車、下單的訂單、成本、價格和分配的工作負載支出)。定義工作負載指標以衡量工作負載的運作狀態 (例如，界面回應時間、錯誤率、提出的請求、完成的請求和使用率)。評估指標以判斷工作負載是否取得了預期的成果，並了解工作負載的運作狀態。 

 您應該將日誌資料傳送到 CloudWatch Logs 這類服務，並從必要日誌內容的觀察中產生指標。 

 CloudWatch 擁有專業功能，例如 [適用於 .NET 和 SQL Server 的 Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/appinsights-what-is.html) 和 [Container Insights，](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) 這些功能可協助您在各個特定支援應用程式資源和技術堆疊之間識別並設定關鍵指標、日誌和警示。 

 **常用的反模式：** 
+  您已定義與任何 KPI 無關或針對任何工作負載量身打造的標準指標。 
+  您的指標計算中有錯誤，這會產生無效的結果。 
+  您尚未為工作負載定義任何指標。 
+  您只衡量了可用性。 

 **建立此最佳實務的優勢：** 透過定義和評估工作負載指標，您可以判斷工作負載的運作狀態，並衡量業務成果的實現情況。 

 **若未建立此最佳實務，暴露的風險等級：** 高 

## 實作指引
<a name="implementation-guidance"></a>
+  定義工作負載指標：定義工作負載指標以衡量 KPI 的實現情況。定義工作負載指標，以衡量工作負載及其各個元件的運作狀態。評估指標以確定工作負載是否取得了預期的成果，並了解工作負載的運作狀態。 
  +  [發佈自訂指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [搜尋和篩選日誌資料](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Amazon CloudWatch 指標和維度參考](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## 資源
<a name="resources"></a>

 **相關文件：** 
+  [Amazon CloudWatch 指標和維度參考](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [發佈自訂指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [搜尋和篩選日誌資料](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

# OPS08-BP03 收集和分析工作負載指標
<a name="ops_workload_health_collect_analyze_workload_metrics"></a>

 定期對指標進行主動審查，以確定趨勢並確定需要在哪些地方採取適當回應。 

 您應該將應用程式、工作負載元件、服務和 API 呼叫的日誌資料彙總至像是 CloudWatch Logs 等服務中。從必要日誌內容的觀察中產生指標，以深入了解營運活動的效能。 

 在 AWS 上，您可以分析工作負載指標並識別操作問題，方法為使用 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)機器學習功能。AWS DevOps Guru 會提供操作問題的通知，隨附 [針對性和主動](https://docs.aws.amazon.com/devops-guru/latest/userguide/view-insights.html) 建議，以解決問題並維護應用程式運作狀態。 

 在 AWS 共同責任模式中，監控部分可透過下列項目提供給您： [AWS Health 儀板表](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/)。此儀表板會在 AWS 發生可能影響您的事件時，提供提醒與修補指導。商業和企業支援訂閱客戶還可存取 [AWS Health API](https://docs.aws.amazon.com/health/latest/ug/getting-started-api.html)，進而可以整合至其事件管理系統。 

 在 AWS 上，您可以 [將日誌資料匯出至 Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) 或者 [直接傳送日誌](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) 至 [Amazon S3](https://aws.amazon.com/s3/) 以進行長期儲存。您可以使用 [AWS Glue](https://aws.amazon.com/glue/)，在 Amazon S3 中探索和準備日誌資料，以進行分析並將關聯的中繼資料儲存在 [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)。 [Amazon Athena](https://aws.amazon.com/athena/)Amazon Athena，透過與 AWS Glue 的原生整合，可用來分析日誌資料，並使用標準 SQL 進行查詢。使用 [Quick](https://aws.amazon.com/quicksight/) 這類商業智慧工具來視覺化、探索和分析您的資料。 

 另一個 [解決方案](https://aws.amazon.com/solutions/centralized-logging/?did=sl_card&trk=sl_card) 是使用 [Amazon OpenSearch Service](https://aws.amazon.com/elasticsearch-service/) 和 [OpenSearch 儀表板](https://aws.amazon.com/elasticsearch-service/the-elk-stack/kibana/) 跨多個帳戶和 AWS 區域 收集、分析和顯示 AWS 上的日誌。 

 **常用的反模式：** 
+  網路設計團隊會詢問您目前的網路頻寬使用率。您提供目前的指標，網路使用率為 35%。由於時間點測量並未反映使用率趨勢，因此它們降低電路容量，以作為節省成本的措施，這導致廣泛的連線問題。 
+  您的路由器失敗。它一直在記錄非關鍵的記憶體錯誤，隨著頻率越來越大，直到完全失敗。您未偵測到此趨勢，因此在路由器造成服務中斷之前，並未取代出錯的記憶體。 

 **建立此最佳實務的優勢：** 透過收集和分析工作負載指標，您可以了解工作負載的運作狀態，並深入了解可能影響工作負載或達成業務成果的趨勢。 

 **若未建立此最佳實務，暴露的風險等級：** 高 

## 實作指引
<a name="implementation-guidance"></a>
+  收集和分析工作負載指標：定期對指標進行主動審查，以確定趨勢並確定需要在哪些地方採取適當回應。 
  +  [使用 Amazon CloudWatch 指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Amazon CloudWatch 指標和維度參考](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [使用 CloudWatch Agent 從 Amazon EC2 執行個體和內部部署伺服器收集指標和日誌](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## 資源
<a name="resources"></a>

 **相關文件：** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Amazon CloudWatch 指標和維度參考](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Amazon OpenSearch Service](https://aws.amazon.com/elasticsearch-service/) 
+  [AWS Health 儀板表](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [使用 CloudWatch Agent 從 Amazon EC2 執行個體和內部部署伺服器收集指標和日誌](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [使用 Amazon CloudWatch 指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS08-BP04 建立工作負載指標基準
<a name="ops_workload_health_workload_metric_baselines"></a>

 為指標建立基準，以提供期望值，做為比較和識別效能欠佳和過剩的元件的基礎。識別用於改善、調查和介入的閾值。 

 **常用的反模式：** 
+  伺服器在 95% 的 CPU 使用率下執行，系統會詢問您情況是好或壞。該伺服器的 CPU 使用率尚未進行基準比較，因此您不知道這是好或壞。 

 **建立此最佳實務的優勢：** 透過定義基準指標值，您可以評估目前的指標值和指標趨勢，以判斷是否需要採取動作。 

 **若未建立此最佳實務，暴露的風險等級：** 中 

## 實作指引
<a name="implementation-guidance"></a>
+  為工作負載指標建立基準：為工作負載指標建立基準，以提供期望值做為比較的基礎。 
  +  [建立 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 

## 資源
<a name="resources"></a>

 **相關文件：** 
+  [建立 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 

# OPS08-BP05 了解工作負載的預期活動模式
<a name="ops_workload_health_learn_workload_usage_patterns"></a>

 建立工作負載活動模式以識別異常行為，以便您可以在需要時做出適當回應。 

 CloudWatch 透過 [CloudWatch 異常偵測](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 功能套用統計和機器學習演算法，以產生代表一般指標行的預期值範圍。 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 可以用來透過事件關聯性、日誌分析和套用機器學習分析您的工作負載遙測來識別異常行為。當偵測到非預期行為時，它會提供 [相關的指標和事件，](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) 隨附處理行為的建議。 

 **常用的反模式：** 
+  您正在檢閱網路使用率日誌，並看到網路使用率在上午 11:30 到下午 1:30 之間增加，然後在下午 4:30 到下午 6:00 之間再次增加。您不知道這是否應該視為正常。 
+  您的 Web 伺服器每天凌晨 3:00 重新開機。您不知道這是否是預期的行為。 

 **建立此最佳實務的優勢：** 透過學習行為模式，您可以識別意外行為，並在必要時採取動作。 

 **若未建立此最佳實務，暴露的風險等級為：** 中 

## 實作指引
<a name="implementation-guidance"></a>
+  了解工作負載的預期活動模式：建立工作負載活動模式，以確定行為何時超出預期值，以便您在需要時做出適當的回應。 

## 資源
<a name="resources"></a>

 **相關文件：** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [CloudWatch 異常偵測](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 

# OPS08-BP06 在工作負載結果有風險時發出提醒
<a name="ops_workload_health_workload_outcome_alerts"></a>

 當工作負載結果有風險時發出提醒，以便您可以在必要時做出適當的回應。 

 理想情況下，您先前已識別可對其發出警示的指標閾值，或已識別可用來觸發自動回應的事件。 

 在 AWS 上，您可以使用 [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 建立 Canary 指令碼，來監控您的端點和 API，方法為執行與客戶相同的動作。產生的遙測和 [取得的洞見](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_Details.html) 可讓您在客戶受到影響之前識別問題。 

 您也可以使用 [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) ，透過專門打造的查詢語言，以互動的方式搜尋並分析日誌資料。CloudWatch Logs Insights 會自動 [探索 AWS 服務日誌中的欄位，](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData-discoverable-fields.html) 以及 JSON 中的自訂日誌事件。它可以隨日誌量和查詢複雜性進行擴展，並在幾秒鐘內提供答案，以協助您搜尋事件的影響因素。 

 **常用的反模式：** 
+  您沒有網路連線能力。沒有人注意到。沒有人嘗試找出原因，或採取動作來恢復連線。 
+  套用修補程式之後，您的持久性執行個體不可用，從而中斷使用者。您的使用者已開啟支援案例。沒有人收到通知。沒有人採取動作。 

 **建立此最佳實務的優勢：** 透過識別業務成果已產生風險，並提醒採取動作，您就有機會防止或緩解事件的影響。 

 **若未建立此最佳實務，暴露的風險等級為：** 中 

## 實作指引
<a name="implementation-guidance"></a>
+  在工作負載結果有風險時發出提醒：當工作負載結果有風險時發出提醒，以便您在需要時做出適當的回應。 
  +  [什麼是 Amazon CloudWatch Events？](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [建立 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [使用 Amazon SNS 通知呼叫 Lambda 函數](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## 資源
<a name="resources"></a>

 **相關文件：** 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [建立 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [使用 Amazon SNS 通知呼叫 Lambda 函數](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [什麼是 Amazon CloudWatch Events？](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP07 在偵測到工作負載異常時發出提醒
<a name="ops_workload_health_workload_anomaly_alerts"></a>

 當偵測到工作負載異常時發出提醒，以便您可以在必要時做出適當的回應。 

 透過長時間分析工作負載指標能夠建立可充分量化的行為模式，以定義事件或發出警示來回應。 

 經過訓練後， [CloudWatch 異常偵測](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 功能可用於對偵測到的異常發出 [警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) ，或提供重疊的預期值至指標資料 [圖形](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) 上，以便進行持續比較。 

 **常用的反模式：** 
+  您的零售網站銷售額突然大幅增加。沒有人注意到。沒有人試圖找出導致此激增的原因。沒有人採取動作，以確保額外負載下的優質客戶體驗。 
+  應用程式套用修補程式之後，您的持久性伺服器會經常重新啟動，從而中斷使用者。您的伺服器通常重新開機最多三次，但不會更多次。沒有人注意到。沒有人試圖找出發生此問題的原因。 

 **建立此最佳實務的優勢：** 透過了解工作負載行為的模式，您可以識別意外行為，並在必要時採取動作。 

 **若未建立此最佳實務，暴露的風險等級為：** 低 

## 實作指引
<a name="implementation-guidance"></a>
+  在偵測到工作負載異常時發出提醒：當偵測到工作負載異常時發出提醒，以便您在需要時做出適當的回應。 
  +  [什麼是 Amazon CloudWatch Events？](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [建立 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [使用 Amazon SNS 通知呼叫 Lambda 函數](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## 資源
<a name="resources"></a>

 **相關文件：** 
+  [建立 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [CloudWatch 異常偵測](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [使用 Amazon SNS 通知呼叫 Lambda 函數](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [什麼是 Amazon CloudWatch Events？](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP08 驗證結果的實現以及 KPI 和指標的有效性
<a name="ops_workload_health_biz_level_view_workload"></a>

 建立工作負載營運的業務層級檢視，以幫助您確定需求是否得到滿足，並確定需要改進以實現業務目標的領域。驗證 KPI 和指標的有效性，並在必要時進行修訂。 

 AWS 還可透過 AWS 服務 API 和 SDK (例如 Grafana、Kibana 和 Logstash) 支援第三方日誌分析系統和商業智慧工具。 

 **常用的反模式：** 
+  頁面回應時間從來未被視為有助於提高客戶滿意度的因素。您從未建立頁面回應時間的指標或閾值。您的客戶對於緩慢問題抱怨不已。 
+  您尚未達到最低回應時間目標。為改善回應時間，您已擴展應用程式伺服器。您現在已大幅超出回應時間目標，而且已付費容量中還有大量未使用。 

 **建立此最佳實務的優勢：** 透過審查和修訂 KPI 和指標，您可以了解工作負載如何支援業務成果的達成，並找出達成業務目標需要改善的地方。 

 **若未建立此最佳實務，暴露的風險等級：** 低 

## 實作指引
<a name="implementation-guidance"></a>
+  驗證結果的實現以及 KPI 和指標的有效性：建立工作負載營運的業務層級檢視，以幫助您確定需求是否得到滿足，並確定需要改進以實現業務目標的領域。驗證 KPI 和指標的有效性，並在必要時進行修訂。 
  +  [使用 Amazon CloudWatch 儀表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [什麼是日誌分析？](https://aws.amazon.com/log-analytics/) 

## 資源
<a name="resources"></a>

 **相關文件：** 
+  [使用 Amazon CloudWatch 儀表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [什麼是日誌分析？](https://aws.amazon.com/log-analytics/) 