

# OPS 8. 如何在组织中利用工作负载可观测性？
<a name="ops-08"></a>

利用可观测性确保最佳工作负载运行状况。利用相关的指标、日志和跟踪数据，全面了解工作负载的性能并有效地解决问题。

**Topics**
+ [OPS08-BP01 分析工作负载指标](ops_workload_observability_analyze_workload_metrics.md)
+ [OPS08-BP02 分析工作负载日志](ops_workload_observability_analyze_workload_logs.md)
+ [OPS08-BP03 分析工作负载跟踪数据](ops_workload_observability_analyze_workload_traces.md)
+ [OPS08-BP04 创建可操作的警报](ops_workload_observability_create_alerts.md)
+ [OPS08-BP05 创建控制面板](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 分析工作负载指标
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 实施应用程序遥测后，定期分析收集的指标。虽然延迟、请求、错误和容量（或配额）有助于深入了解系统性能，但优先审查业务成果指标至关重要。这样可以确保作出与业务目标相一致的数据驱动型决策。

 **期望结果：**准确洞察工作负载性能，推动作出以数据为依据的决策，确保与业务目标相一致。

 **常见反模式：**
+  孤立地分析指标，而不考虑其对业务成果的影响。
+  过度依赖技术指标，而不重视业务指标。
+  很少审查指标，错过了实时决策机会。

 **建立此最佳实践的好处：**
+  进一步了解技术性能与业务成果之间的相互关系。
+  以实时数据为依据改善决策流程。
+  在问题影响业务成果之前主动发现和缓解问题。

 **在未建立这种最佳实践的情况下暴露的风险等级：**中 

## 实施指导
<a name="implementation-guidance"></a>

 利用 Amazon CloudWatch 之类的工具执行指标分析。Amazon CloudWatch 异常检测和 Amazon DevOps Guru 之类的 AWS 服务可用于检测异常，尤其是在静态阈值未知，或行为模式更适合进行异常检测时。

### 实施步骤
<a name="implementation-steps"></a>

1.  **分析和审查：**定期审查和解读工作负载指标。

   1.  优先考虑业务成果指标，而不是只考虑纯粹的技术指标。

   1.  了解数据中高峰、低谷或模式的重要性。

1.  **利用 Amazon CloudWatch：**使用 Amazon CloudWatch 获取集中视图和进行深入分析。

   1.  配置 CloudWatch 控制面板，以可视化形式呈现指标，并对一段时间内的指标进行比较。

   1.  使用 [CloudWatch 中的百分位数](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)来清楚地了解指标分布，这有助于定义 SLA 和理解异常值。

   1.  设置 [CloudWatch 异常检测](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)，在不依赖静态阈值的情况下识别异常模式。

   1.  实施 [CloudWatch 跨账户可观测性](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)，以监控跨越一个区域内多个账户的应用程序并对其进行故障排除。

   1.  使用 [CloudWatch Metric Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) 来查询和分析跨账户和区域的指标数据，从而识别趋势和异常情况。

   1.  应用 [CloudWatch 指标数学](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html)，对指标进行转换、汇总或执行计算，从而获得更深入的洞察。

1.  **采用 Amazon DevOps Guru：**加入 [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/)，以便利用其机器学习增强的异常检测功能，识别无服务器应用程序操作问题的早期迹象，并在对客户造成影响之前将其修复。

1.  **根据洞察进行优化**：根据指标分析作出明智的决策，以便调整和改进工作负载。

 **实施计划的工作量级别：**中 

## 资源
<a name="resources"></a>

 **相关最佳实践：**
+  [OPS04-BP01 确定关键绩效指标](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 实施应用程序遥测](ops_observability_application_telemetry.md) 

 **相关文档：**
+ [The Wheel b博客 – 强调持续审查指标的重要性](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [Percentile are important](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [使用 AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [CloudWatch 跨账户可观测性](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [使用 CloudWatch Metrics Insights 查询您的指标](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **相关视频：**
+ [Enable Cross-Account Observability in Amazon CloudWatch](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [Introduction to Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [Continuously Analyze Metrics using AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **相关示例：**
+ [One Observability 讲习会](https://catalog.workshops.aws/observability/en-US/intro)
+ [Gaining operation insights with AIOps using Amazon DevOps Guru](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 分析工作负载日志
<a name="ops_workload_observability_analyze_workload_logs"></a>

 定期分析工作负载日志对于更深入地了解应用程序的运行方面至关重要。通过高效地筛选、以可视化方式呈现和解读日志数据，可以持续优化应用程序性能和安全性。

 **期望结果：**通过全面的日志分析获得对应用程序行为和运行的丰富洞察，确保主动检测和缓解问题。

 **常见反模式：**
+  在出现严重问题之前，忽视对日志的分析。
+  没有使用可进行日志分析的全套工具，导致错过关键洞察。
+  仅依靠人工查看日志，而不利用自动化和查询功能。

 **建立此最佳实践的好处：**
+  主动发现运行瓶颈、安全威胁和其他潜在问题。
+  高效利用日志数据进行持续的应用程序优化。
+  增进对应用程序行为的理解，有助于进行调试和故障排除。

 **在未建立这种最佳实践的情况下暴露的风险等级：**中 

## 实施指导
<a name="implementation-guidance"></a>

 [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) 是一款用于日志分析的强大工具。利用 CloudWatch Logs Insights 和 Contributor Insights 等集成功能，可以直观且高效地从日志中获取有意义的信息。

### 实施步骤
<a name="implementation-steps"></a>

1.  **设置 CloudWatch Logs**：配置应用程序和服务，以便将日志发送到 CloudWatch Logs。

1.  **使用日志异常检测：**利用 [Amazon CloudWatch Logs 异常检测功能](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html)来自动识别异常日志模式并发出警报。该工具有助于主动管理日志中的异常情况，及早检测到潜在问题。

1.  **设置 CloudWatch Logs Insights**：使用 [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 以交互方式进行搜索，并分析日志数据。

   1.  创建查询来提取模式、以可视化形式呈现日志数据并获得切实可行的洞察。

   1.  使用 [CloudWatch Logs Insights 模式分析](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html)来分析和可视化频繁使用的日志模式。该功能有助于了解日志数据中的常见运行趋势和潜在异常值。

   1.  使用 [CloudWatch Logs 比较（diff）](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html)对不同时间段或不同日志组之间进行差异分析。利用这一功能可查明变更，并评测其对系统性能或行为的影响。

1.  **使用 Live Tail 实时监控日志：**使用 [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) 实时查看日志数据。可以在应用程序运行活动发生时主动对其进行监控，即时了解系统性能和潜在问题。

1.  **利用 Contributor Insights**：使用 [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 来识别 IP 地址或用户代理等高基数维度的用量最高者。

1.  **实施 CloudWatch Logs 指标筛选条件**：配置 [CloudWatch Logs 指标筛选条件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html)，将日志数据转换为可操作的指标。这允许设置警报或进一步分析模式。

1.  **实施 [CloudWatch 跨账户可观测性](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)：**监控跨越一个区域内多个账户的应用程序并对其进行故障排除。

1.  **定期审查和完善**：定期审查日志分析策略，以便捕获所有相关信息并持续优化应用程序性能。

 **实施计划的工作量级别：**中 

## 资源
<a name="resources"></a>

 **相关最佳实践：**
+  [OPS04-BP01 确定关键绩效指标](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 实施应用程序遥测](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 分析工作负载指标](ops_workload_observability_analyze_workload_metrics.md) 

 **相关文档：**
+  [Analyzing Log Data with CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Using CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [Creating and Managing CloudWatch Log Metric Filters](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **相关视频：**
+  [Analyze Log Data with CloudWatch Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Use CloudWatch Contributor Insights to Analyze High-Cardinality Data](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **相关示例：**
+  [CloudWatch Logs Sample Queries](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [One Observability 讲习会](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 分析工作负载跟踪数据
<a name="ops_workload_observability_analyze_workload_traces"></a>

 分析跟踪数据对于全面了解应用程序的操作过程至关重要。通过以可视化方式呈现和理解各个组件之间的交互情况，可以微调性能，识别瓶颈并增强用户体验。

 **期望结果：**清晰地了解应用程序的分布式操作，从而更快地解决问题并增强用户体验。

 **常见反模式：**
+  忽略跟踪数据，仅依赖日志和指标。
+  不将跟踪数据与关联日志联系起来。
+  忽略从跟踪数据中得出的指标，例如延迟和故障率。

 **建立此最佳实践的好处：**
+  改善故障排除并缩短平均解决时间（MTTR）。
+  深入了解依赖项及其影响。
+  迅速发现并纠正性能问题。
+  利用从跟踪数据中得出的指标作出明智的决策。
+  通过优化的组件交互来改善用户体验。

 **在未建立这种最佳实践的情况下暴露的风险等级：**中 

## 实施指导
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) 提供了分析跟踪数据的完整套件，可提供服务交互的整体视图、监控用户活动并检测性能问题。ServiceLens、X-Ray Insights、X-Ray Analytics 和 Amazon DevOps Guru 等功能，可增强从跟踪数据中获得的可行洞察的深度。

### 实施步骤
<a name="implementation-steps"></a>

 以下步骤提供了一种结构化方法，以便使用 AWS 服务有效地实施跟踪数据分析：

1.  **集成 AWS X-Ray**：确保 X-Ray 已与应用程序集成，以便捕获跟踪数据。

1.  **分析 X-Ray 指标**：使用[服务地图](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view)深入研究从 X-Ray 跟踪数据中得出的指标，例如延迟、请求率、故障率和响应时间分布等，以便监控应用程序的运行状况。

1.  **使用 ServiceLens**：利用 [ServiceLens 地图](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html)增强服务和应用程序的可观测性。这允许以集成方式查看跟踪数据、指标、日志、警报和其他运行状况信息。

1.  **启用 X-Ray Insights**：

   1.  开启 [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html)，可自动检测跟踪数据中的异常情况。

   1.  研究洞察以查明模式并确定根本原因，例如故障率或延迟增加。

   1.  查阅洞察时间表，按时间顺序分析检测到的问题。

1.  **使用 X-Ray Analytics**：[X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 允许全面探索跟踪数据、查明模式并提取洞察。

1.  **使用 X-Ray 中的组**：在 X-Ray 中创建组，根据高延迟等标准筛选跟踪数据，从而进行更有针对性的分析。

1.  **加入 Amazon DevOps Guru**：利用 [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) 从机器学习模型中受益，查明跟踪数据中的操作异常。

1.  **使用 CloudWatch Synthetics**：使用 [CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) 创建用于持续监控端点和工作流程的金丝雀。这些金丝雀可以与 X-Ray 集成来提供跟踪数据，用于对正在测试的应用程序进行深入分析。

1.  **使用真实用户监控（RUM）**：借助 [AWS X-Ray 和 CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html)，可以分析和调试从应用程序的终端用户开始，经过下游 AWS 托管服务的请求路径。可帮助您识别影响最终用户的延迟趋势和错误。

1.  **与日志关联**：将[跟踪数据与 X-Ray 跟踪视图中的相关日志关联](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs)，从而详细了解应用程序行为。这允许查看与跟踪的事务直接关联的日志事件。

1.  **实施 [CloudWatch 跨账户可观测性](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)：**监控跨越一个区域内多个账户的应用程序并对其进行故障排除。

 **实施计划的工作量级别：**中 

## 资源
<a name="resources"></a>

 **相关最佳实践：**
+  [OPS08-BP01 分析工作负载指标](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 分析工作负载日志](ops_workload_observability_analyze_workload_logs.md) 

 **相关文档：**
+  [Using ServiceLens to Monitor Application Health](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Exploring Trace Data with X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Detecting Anomalies in Traces with X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Continuous Monitoring with CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **相关视频：**
+  [Analyze and Debug Applications Using Amazon CloudWatch Synthetics & AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [使用 AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **相关示例：**
+  [One Observability 讲习会](https://catalog.workshops.aws/observability/en-US/intro) 
+  [使用 AWS Lambda 实施 X-Ray](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [CloudWatch Synthetics Canary Templates](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 创建可操作的警报
<a name="ops_workload_observability_create_alerts"></a>

 及时检测和响应应用程序行为的偏差至关重要。尤其重要的是，认识到基于关键绩效指标（KPI）的结果何时面临风险或何时出现意外异常。基于 KPI 的警报可确保收到的信号与业务或运营影响直接相关。这种可操作警报的方法可促进主动响应，并有助于维护系统性能和可靠性。

 **期望结果：**接收及时、相关且可操作的警报，以便快速发现和缓解潜在问题，尤其是在 KPI 结果面临风险时。

 **常见反模式：**
+  设置过多非关键警报，导致警报疲劳。
+  不根据 KPI 对警报进行优先级排序，因此很难了解问题对业务的影响。
+  忽视解决根本原因，导致针对同一问题出现重复警报。

 **建立此最佳实践的好处：**
+  关注可操作的相关警报，减少警报疲劳。
+  主动检测和缓解问题，增加系统的正常运行时间并提高可靠性。
+  与常用的警报和通信工具集成，增强团队协作并更快解决问题。

 **在未建立这种最佳实践的情况下暴露的风险等级：**高 

## 实施指导
<a name="implementation-guidance"></a>

 要创建有效的警报机制，必须使用指标、日志和跟踪数据来标记基于 KPI 的结果何时存在风险，或何时检测到异常情况。

### 实施步骤
<a name="implementation-steps"></a>

1.  **确定关键绩效指标（KPI）**：确定应用程序的 KPI。警报应与这些 KPI 相关联，以便准确反映业务影响。

1.  **实施异常检测**：
   +  **使用 Amazon CloudWatch 异常检测**：将 [Amazon CloudWatch 异常检测](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)设置为自动检测异常模式，这有助于仅针对真正的异常生成警报。
   +  **使用 AWS X-Ray Insights**：

     1.  设置 [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html)，检测跟踪数据中的异常。

     1.  配置 [X-Ray Insights 的通知](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications)，以便在检测到问题时收到警报。
   +  **与 Amazon DevOps Guru 集成**：

     1.  利用 [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) 的机器学习功能，结合现有数据来检测操作异常。

     1.  导航到 DevOps Guru 中的[通知设置](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings)以设置异常警报。

1.  **实施可操作的警报**：设计能够提供足够信息的警报，以便立即采取行动。

   1.  [使用 Amazon EventBridge 规则监控 AWS Health 事件](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html)，或者以编程方式与 AWS Health API 集成，以便在收到 AWS Health 事件时自动执行操作。这些可以是常规操作，例如将所有计划的生命周期事件消息发送到聊天界面，也可以是特定操作，例如在 IT 服务管理工具中启动工作流程。

1.  **减少警报疲劳**：尽量减少非关键警报。团队接收到大量无关紧要的警报时，他们可能无法监督关键问题，从而降低警报机制的整体有效性。

1.  **设置复合警报**：使用 [Amazon CloudWatch 复合警报](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/)合并多个警报。

1.  **与警报工具集成**：纳入 [Ops Genie](https://www.atlassian.com/software/opsgenie) 和 [PagerDuty](https://www.pagerduty.com/) 等工具。

1.  **加入聊天应用程序中的 Amazon Q 开发者版**：集成[聊天应用程序中的 Amazon Q 开发者版](https://aws.amazon.com/chatbot/)，以便将警报转发给 Amazon Chime、Microsoft Teams 和 Slack。

1.  **基于日志的警报**：使用 CloudWatch 中的[日志指标筛选条件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html)，根据特定的日志事件创建警报。

1.  **审查和迭代**：定期重新审视和完善警报配置。

 **实施计划的工作量级别：**中 

## 资源
<a name="resources"></a>

 **相关最佳实践：**
+  [OPS04-BP01 确定关键绩效指标](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 实施应用程序遥测](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 实施用户体验遥测](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 实施依赖项遥测](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 实施分布式跟踪](ops_observability_dist_trace.md) 
+  [OPS08-BP01 分析工作负载指标](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 分析工作负载日志](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 分析工作负载跟踪数据](ops_workload_observability_analyze_workload_traces.md) 

 **相关文档：**
+  [使用 Amazon CloudWatch 告警](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Create a composite alarm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Create a CloudWatch alarm based on anomaly detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [DevOps Guru Notifications](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [X-ray insights notifications](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [使用交互式 ChatOps 对 AWS 资源进行监控、操作和故障排除](https://aws.amazon.com/chatbot/) 
+  [Amazon CloudWatch Integration Guide \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Integrate Opsgenie with Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **相关视频：**
+  [Create Composite Alarms in Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Amazon Q Developer in chat applications Overview](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Mutative Commands in Amazon Q Developer in chat applications](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **相关示例：**
+  [Alarms, incident management, and remediation in the cloud with Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutorial: Creating an Amazon EventBridge rule that sends notifications to Amazon Q Developer in chat applications](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [One Observability 讲习会](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 创建控制面板
<a name="ops_workload_observability_create_dashboards"></a>

 控制面板是以人为本的视图，可用于查看工作负载的遥测数据。虽然控制面板提供了重要的可视化界面，但不应取代警报机制，而是作为警报机制的补充。经过精心设计的控制面板不仅能迅速洞察系统的运行状况和性能，还能为利益相关方提供有关业务成果和问题影响的实时信息。

 **期望结果：**

 使用可视化形式，清晰地了解系统和业务运行状况，并据此采取行动。

 **常见反模式：**
+  指标过多，控制面板过于复杂。
+  依靠没有警报功能的控制面板进行异常检测。
+  不会随着工作负载的发展变化而更新控制面板。

 **此最佳实践的好处：**
+  即时了解关键系统指标和 KPI。
+  增进利益相关方的沟通和理解。
+  快速洞察运营问题的影响。

 **在未建立这种最佳实践的情况下暴露的风险等级：**中 

## 实施指导
<a name="implementation-guidance"></a>

 **以业务为中心的控制面板** 

 为业务 KPI 量身定制的控制面板可吸引更广泛的利益相关方。尽管这些人可能对系统指标不感兴趣，但他们热衷于了解这些数字对业务的影响。以业务为中心的控制面板可确保所监控和分析的所有技术和运营指标与总体业务目标同步。这种一致性可让每个人清楚了解什么是至关重要的，什么不太重要，并就此达成共识。此外，突出业务 KPI 的控制面板往往更具操作性。利益相关方可以快速了解运营状况、需要关注的领域以及对业务成果的潜在影响。

 考虑到这一点，在创建控制面板时，请确保技术指标和业务 KPI 之间保持平衡。两者都至关重要，但它们面向不同的受众。理想情况下，控制面板应该有助于全面了解系统的运行状况和性能，同时还要强调关键业务成果及其影响。

 Amazon CloudWatch 控制面板是 CloudWatch 控制台中的可自定义主页，可用于在单一视图中监控资源，即便是分布在不同 AWS 区域 和账户的资源，也能对其进行监控。

### 实施步骤
<a name="implementation-steps"></a>

1.  **创建基本控制面板：**[在 CloudWatch 中创建一个新的控制面板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html)，并给它起一个描述性名称。

1.  **使用 Markdown 小组件：**在深入研究指标之前，[请使用 Markdown 小组件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html)在控制面板顶部添加文本上下文。文本上下文应该说明控制面板涵盖的内容、所呈现指标的重要性，还可以包含指向其他控制面板和故障排除工具的链接。

1.  **创建控制面板变量：**在适当的地方[加入控制面板变量](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)，从而实现动态和灵活的控制面板视图。

1.  **创建指标小组件：**[添加指标小组件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html)，以可视化形式呈现应用程序发出的各种指标，定制这些小组件，以便有效呈现系统运行状况和业务成果。

1.  **日志洞察查询：**利用 [CloudWatch Log Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) 从日志中获取可操作的指标，并在控制面板上显示这些洞察。

1.  **设置警报：**将 [CloudWatch Alarms](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) 集成到控制面板中，以便快速查看任何超出阈值的指标。

1.  **使用 Contributor Insights：**加入 [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) 来分析高基数字段，更清楚地了解资源的主要贡献者。

1.  **设计自定义小组件：**对于标准小组件无法满足的特定需求，可以考虑创建[自定义小组件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)。自定义小部件可以从各种数据来源中提取数据，也可以以独特方式呈现数据。

1.  **使用 AWS Health：**AWS Health 是有关 AWS 云资源运行状况的权威信息来源。开箱即用 [AWS Health Dashboard](https://health.aws.amazon.com/health/status)，或者在您自己的控制面板和工具中使用 AWS Health 数据，这样您就可以获得正确的信息来做出明智的决策。

1.  **迭代和完善：**随着应用程序的发展，请定期重新审视控制面板，确保其仍然适用。

## 资源
<a name="resources"></a>

 **相关最佳实践：**
+  [OPS04-BP01 确定关键绩效指标](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 分析工作负载指标](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 分析工作负载日志](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 分析工作负载跟踪数据](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 创建可操作的警报](ops_workload_observability_create_alerts.md) 

 **相关文档：**
+  [构建控制面板以获取操作可见性](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Using Amazon CloudWatch Dashboards](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **相关视频：**
+  [Create Cross Account & Cross Region CloudWatch Dashboards](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 - Gain enterprise visibility with AWS 云 operation dashboards)](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **相关示例：**
+  [One Observability 讲习会](https://catalog.workshops.aws/observability/en-US/intro) 
+  [使用 Amazon CloudWatch 进行应用程序监控](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [AWS Health Events Intelligence Dashboards and Insights](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualize AWS Health events using Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 