

# OPS 8. Como utilizar a observabilidade da workload em sua organização?


Garanta a integridade ideal da workload usando a observabilidade. Utilize métricas, logs e rastreamentos relevantes para obter uma visão abrangente da performance da sua workload e resolver problemas com eficiência.

**Topics**
+ [

# OPS08-BP01 Analisar métricas da workload
](ops_workload_observability_analyze_workload_metrics.md)
+ [

# OPS08-BP02 Analisar logs de workloads
](ops_workload_observability_analyze_workload_logs.md)
+ [

# OPS08-BP03 Analisar rastreamentos de workload
](ops_workload_observability_analyze_workload_traces.md)
+ [

# OPS08-BP04 Criar alertas acionáveis
](ops_workload_observability_create_alerts.md)
+ [

# OPS08-BP05 Criar painéis
](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Analisar métricas da workload
OPS08-BP01 Analisar métricas da workload

 Depois de implementar a telemetria de aplicações, analise regularmente as métricas coletadas. Embora a latência, as solicitações, os erros e a capacidade (ou cotas) forneçam informações sobre a performance do sistema, é fundamental priorizar a análise das métricas de resultados comerciais. Isso garante que você esteja tomando decisões orientadas por dados alinhadas aos seus objetivos de negócios. 

 **Resultado desejado:** insights precisos sobre a performance da workload que impulsionam decisões baseadas em dados, garantindo o alinhamento com os objetivos de negócios. 

 **Práticas comuns que devem ser evitadas:** 
+  Análise das métricas isoladamente, sem considerar seu impacto nos resultados comerciais. 
+  Confiança excessiva em métricas técnicas e, ao mesmo tempo, marginalização das métricas de negócios. 
+  Revisão pouco frequente das métricas, perdendo oportunidades de tomada de decisão em tempo real. 

 **Benefícios de implementar esta prática recomendada:** 
+  Compreensão aprimorada da correlação entre performance técnica e resultados comerciais. 
+  Processo de tomada de decisão aprimorado baseado em dados em tempo real. 
+  Identificação proativa e mitigação de problemas antes que eles afetem os resultados comerciais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
Orientação para implementação

 Utilize ferramentas como o Amazon CloudWatch para realizar análises métricas. Serviços da AWS como a deteção de anomalias do CloudWatch e o Amazon DevOps Guru podem ser usados para detectar anomalias, especialmente quando os limites estáticos são desconhecidos ou quando os padrões de comportamento são mais adequados para a detecção de anomalias. 

### Etapas de implementação
Etapas de implementação

1.  **Analise e revise:** revise e interprete regularmente suas métricas de workload. 

   1.  Priorize as métricas de resultados comerciais em vez das métricas puramente técnicas. 

   1.  Entenda a importância de picos, quedas ou padrões em seus dados. 

1.  **Utilize o Amazon CloudWatch**: use o Amazon CloudWatch para uma visão centralizada e uma análise aprofundada. 

   1.  Configure painéis do CloudWatch para visualizar suas métricas e compará-las ao longo do tempo. 

   1.  Use [percentis no CloudWatch](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) para obter uma visão clara da distribuição métrica, o que pode ajudar na definição de SLAs e na compreensão de valores discrepantes. 

   1.  Configure a [detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para identificar padrões incomuns sem depender de limites estáticos. 

   1.  Implemente a [observabilidade entre contas do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) para monitorar e solucionar problemas de aplicações que abrangem várias contas em uma região. 

   1.  Use o [CloudWatch Metric Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) para consultar e analisar dados métricos em contas e regiões, identificando tendências e anomalias. 

   1.  Aplique o [CloudWatch Metric Math](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) para transformar, agregar ou realizar cálculos em suas métricas para obter insights mais profundos. 

1.  **Use o Amazon DevOps Guru:** incorpore o [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) por sua detecção de anomalias aprimorada por machine learning para identificar sinais precoces de problemas operacionais em suas aplicações sem servidor e corrigi-los antes que afetem seus clientes. 

1.  **Otimize com base em insights:** tome decisões informadas baseadas na análise das métricas para ajustar e melhorar as workloads. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
Recursos

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 

 **Documentos relacionados:** 
+ [The Wheel Blog: como enfatizar a importância de revisar continuamente as métricas](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [O percentil é importante](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [Usar o AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [Observabilidade entre contas do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [Consultar métricas com o CloudWatch Metrics Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Vídeos relacionados:** 
+ [Habilitar a observabilidade entre contas no Amazon CloudWatch](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [Introdução ao Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [Analisar continuamente as métricas usando o AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Exemplos relacionados:** 
+ [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro)
+ [Obter insights operacionais com AIOps usando o Amazon DevOps Guru](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Analisar logs de workloads
OPS08-BP02 Analisar logs de workloads

 Analisar regularmente os logs da workload é essencial para obter uma compreensão mais profunda dos aspectos operacionais da sua aplicação. Ao filtrar, visualizar e interpretar com eficiência os dados de log, é possível otimizar continuamente a performance e a segurança das aplicações. 

 **Resultado desejado:** informações ricas sobre o comportamento e as operações da aplicação derivadas de uma análise completa de log, garantindo a detecção e mitigação proativas de problemas. 

 **Práticas comuns que devem ser evitadas:** 
+  Negligenciar a análise dos logs até um problema crítico surgir. 
+  Não usar o conjunto completo de ferramentas disponíveis para análise de logs, deixando para trás insights essenciais. 
+  Confiar exclusivamente na revisão manual dos logs, sem utilizar os recursos de automação e consulta. 

 **Benefícios de implementar esta prática recomendada:** 
+  Identificação proativa de gargalos operacionais, ameaças à segurança e outros possíveis problemas. 
+  Utilização eficiente dos dados de log para otimização contínua da aplicação. 
+  Compreensão aprimorada do comportamento da aplicação, auxiliando na depuração e solução de problemas. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
Orientação para implementação

 O [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) é uma ferramenta poderosa para análise de logs. Recursos integrados, como o CloudWatch Logs Insights e o Contributor Insights, tornam intuitivo e eficiente o processo de derivação de informações significativas dos logs. 

### Etapas de implementação
Etapas de implementação

1.  **Configure o CloudWatch Logs:** configure aplicações e serviços para enviar logs ao CloudWatch Logs. 

1.  **Use a detecção de anomalias de log:** utilize a [detecção de anomalias do Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) para identificar e alertar automaticamente sobre padrões de log incomuns. Essa ferramenta ajuda você a gerenciar proativamente anomalias nos logs e detectar possíveis problemas com antecedência. 

1.  **Configure o CloudWatch Logs Insights:** use o [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para pesquisar e analisar dados de log de forma interativo. 

   1.  Crie consultas para extrair padrões, visualizar dados de log e obter insights acionáveis. 

   1.  Use a análise de padrões do [CloudWatch Logs Insights para analisar e visualizar padrões](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html) de log frequentes. Esse recurso ajuda você a entender tendências operacionais comuns e possíveis discrepâncias em seus dados de logs. 

   1.  Use a [comparação (diff) do CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html) para realizar análises diferenciais entre diferentes períodos de tempo ou grupos de logs. Use esse recurso para identificar mudanças e avaliar seus impactos na performance ou no comportamento do sistema. 

1.  **Monitore registros em tempo real com o Live Tail:** use o [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) para visualizar dados de log em tempo real. Você pode monitorar ativamente as atividades operacionais da aplicação à medida que elas ocorrem, o que oferece visibilidade imediata da performance do sistema e dos possíveis problemas. 

1.  **Aproveite o Contributor Insights**: use o [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) para identificar os principais oradores em dimensões de alta cardinalidade, como endereços IP ou agentes de usuário. 

1.  **Implemente filtros métricos do CloudWatch Logs**: configure os [filtros métricos do CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) para converter dados de log em métricas acionáveis. Isso permite que você defina alarmes ou analise melhor os padrões. 

1.  **Implemente a [observabilidade entre contas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** monitore e solucione problemas de aplicações que abrangem várias contas em uma região. 

1.  **Revisão e aprimoramento periódicos**: revise periodicamente suas estratégias de análise de log para capturar todas as informações relevantes e otimizar continuamente a performance da aplicação. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
Recursos

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 

 **Documentos relacionados:** 
+  [Analisar logs de dados com o CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Usar o CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [Criar e gerenciar de filtros de métrica do CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Vídeos relacionados:** 
+  [Analisar logs de dados com o CloudWatch Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Usar o CloudWatch Contributor Insights para analisar dados de alta cardinalidade](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Exemplos relacionados:** 
+  [Exemplos de consultas do CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Analisar rastreamentos de workload
OPS08-BP03 Analisar rastreamentos de workload

 Analisar dados de rastreamento é crucial para obter uma visão abrangente da jornada operacional de uma aplicação. Ao visualizar e compreender as interações entre vários componentes, a performance pode ser ajustada, os gargalos identificados e as experiências do usuário aprimoradas. 

 **Resultado desejado:** obtenha uma visibilidade clara das operações distribuídas da sua aplicação, permitindo uma resolução mais rápida de problemas e uma experiência de usuário aprimorada. 

 **Práticas comuns que devem ser evitadas:** 
+  Ignorar dados de rastreamento, confiando apenas em logs e métricas. 
+  Não correlacionar dados de rastreamento com logs associados. 
+  Ignorar as métricas derivadas de rastreamentos, como latência e taxas de falhas. 

 **Benefícios de implementar esta prática recomendada:** 
+  Aprimoramento da solução de problemas e redução do tempo médio de resolução (MTTR). 
+  Obtenção de insights sobre dependências e seu impacto. 
+  Identificação e correção rápidas de problemas de performance. 
+  Uso de métricas derivadas de rastreamento para uma tomada de decisão informada. 
+  Experiências de usuário aprimoradas por meio de interações otimizadas de componentes. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
Orientação para implementação

 O [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) oferece um pacote abrangente para análise de dados de rastreamento, fornecendo uma visão holística das interações de serviços, monitorando as atividades do usuário e detectando problemas de performance. Recursos como ServiceLens, X-Ray Insights, X-Ray Analytics Analytics e Amazon DevOps Guru aprimoram o detalhamento dos insights acionáveis derivados de dados de rastreamento. 

### Etapas de implementação
Etapas de implementação

 As seguintes etapas oferecem uma abordagem estruturada para implementar com eficácia a análise de dados de rastreamento usando serviços da AWS: 

1.  **Integre o AWS X-Ray**: certifique-se de que o X-Ray esteja integrado às suas aplicações para capturar dados de rastreamento. 

1.  **Analise as métricas do X-Ray**: mergulhe nas métricas derivadas dos rastreamentos do X-Ray, como latência, taxas de solicitação, taxas de falhas e distribuições de tempo de resposta, usando o [mapa de serviços](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view) para monitorar a integridade da aplicação. 

1.  **Use o ServiceLens**: aproveite o [mapa do ServiceLens](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html) para melhorar a observabilidade de seus serviços e aplicações. Isso permite a visualização integrada de rastreamentos, métricas, logs, alarmes e outras informações de integridade. 

1.  **Habilite o X-Ray Insights**: 

   1.  Ative o [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) para detecção automática de anomalias em rastreamentos. 

   1.  Examine os insights para identificar padrões e determinar as causas-raiz, como maiores taxas de falhas ou latências. 

   1.  Consulte o cronograma de insights para realizar uma análise cronológica dos problemas detectados. 

1.  **Use o X-Ray Analytics**: o [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) permite que você explore minuciosamente os dados de rastreamento, identifique padrões e extraia insights. 

1.  **Use grupos no X-Ray**: crie grupos no X-Ray para filtrar rastreamentos com base em critérios como alta latência, permitindo uma análise mais direcionada. 

1.  **Incorpore o Amazon DevOps Guru**: envolva o [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) para se beneficiar dos modelos de machine learning que identificam anomalias operacionais nos rastreamentos. 

1.  **Use o CloudWatch Synthetics**: use o [CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) para criar canários para monitorar continuamente seus endpoints e fluxos de trabalho. Esses canários podem se integrar ao X-Ray para fornecer dados de rastreamento para uma análise detalhada das aplicações que estão sendo testadas. 

1.  **Use o monitoramento de usuários reais (RUM)**: Com o [AWS X-Ray e o CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html), é possível analisar e depurar o caminho da solicitação a partir dos usuários finais da aplicação até os serviços subsequentes gerenciados pela AWS. Isso ajuda a identificar tendências e erros de latência que afetam os usuários finais. 

1.  **Correlacione com logs**: correlacione [dados de rastreamento com registros relacionados](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) na visualização de rastreamento do X-Ray para obter uma perspectiva granular do comportamento da aplicação. Isso permite que você visualize eventos de log diretamente associados às transações rastreadas. 

1.  **Implemente a [observabilidade entre contas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** monitore e solucione problemas de aplicações que abrangem várias contas em uma região. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
Recursos

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analisar logs de workloads](ops_workload_observability_analyze_workload_logs.md) 

 **Documentos relacionados:** 
+  [Usar o ServiceLens para monitorar a integridade da aplicação](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Explorar dados de rastreamento com o X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Detectar anomalias em rastreamentos com o X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Monitorar continuamente com o CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **Vídeos relacionados:** 
+  [Analisar e depurar aplicações usando Amazon CloudWatch Synthetics e o AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Usar o AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Exemplos relacionados:** 
+  [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Implementar o X-Ray com AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [Modelos canário do CloudWatch Synthetics](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Criar alertas acionáveis
OPS08-BP04 Criar alertas acionáveis

 Detectar e responder prontamente aos desvios no comportamento da sua aplicação é crucial. É essencial reconhecer quando os resultados baseados em indicadores-chave de performance (KPIs) estão em risco ou quando surgem anomalias inesperadas. Basear alertas em KPIs garante que os sinais que você recebe estejam diretamente vinculados ao impacto comercial ou operacional. Essa abordagem de alertas acionáveis promove respostas proativas e ajuda a manter a performance e a confiabilidade do sistema. 

 **Resultado desejado:** receba alertas imediatos, relevantes e acionáveis para rápida identificação e mitigação de possíveis problemas, especialmente quando os resultados dos KPI estão em risco. 

 **Práticas comuns que devem ser evitadas:** 
+  A configuração de muitos alertas não críticos gera fadiga de alertas. 
+  A não priorização de alertas com base em KPIs dificulta a compreensão do impacto comercial dos problemas. 
+  A não abordagem das causas-raiz ocasiona alertas repetitivos para o mesmo problema. 

 **Benefícios de implementar esta prática recomendada:** 
+  Redução da fadiga de alertas ao se concentrar em alertas acionáveis e relevantes. 
+  Maior disponibilidade e confiabilidade do sistema por meio da detecção e mitigação proativas de problemas. 
+  Colaboração em equipe aprimorada e resolução mais rápida de problemas por meio da integração com ferramentas conhecidas de alerta e comunicação. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
Orientação para implementação

 Para criar um mecanismo de alerta eficaz, é fundamental usar métricas, logs e dados de rastreamento que sinalizem quando os resultados com base nos KPIs estão em risco ou quando anomalias são detectadas. 

### Etapas de implementação
Etapas de implementação

1.  **Determine indicadores-chave de performance (KPIs)**: identifique KPIs da sua aplicação. Os alertas devem estar vinculados a esses KPIs para refletir com precisão o impacto nos negócios. 

1.  **Implemente a detecção de anomalias**: 
   +  **Use a detecção de anomalias do Amazon CloudWatch**: configure a [detecção de anomalias do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para detectar automaticamente padrões incomuns, o que ajuda você a gerar alertas somente para anomalias genuínas. 
   +  **Use o AWS X-Ray Insights**: 

     1.  Configure o [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) para detectar anomalias nos dados de rastreamento. 

     1.  Configure [notificações para que o X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) seja alertado sobre problemas detectados. 
   +  **Integre-se ao Amazon DevOps Guru**: 

     1.  Utilize o [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) devido a seus recursos de machine learning na detecção de anomalias operacionais com dados existentes. 

     1.  Navegue até as [configurações de notificação](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) no DevOps Guru para configurar alertas de anomalias. 

1.  **Implemente alertas acionáveis**: crie alertas que forneçam informações adequadas para ação imediata. 

   1.  Monitore [eventos do AWS Health com as regras do Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou integre-se programaticamente à AWS Health API para automatizar ações ao receber eventos do AWS Health. Podem ser ações gerais, como enviar todas as mensagens planejadas de eventos do ciclo de vida para uma interface de chat, ou ações específicas, como o início de um fluxo de trabalho em uma ferramenta de gerenciamento de serviços de TI. 

1.  **Reduza a fadiga dos alertas**: minimize os alertas não críticos. Quando as equipes se tornam sobrecarregadas com vários alertas insignificantes, elas podem não perceber problemas críticos, o que diminui a eficácia geral do mecanismo de alerta. 

1.  **Configure alarmes compostos**: use os [alarmes compostos do Amazon CloudWatch](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) para consolidar vários alarmes. 

1.  **Integre com ferramentas de alerta**: incorpore ferramentas como [Ops Genie](https://www.atlassian.com/software/opsgenie) e [PagerDuty](https://www.pagerduty.com/). 

1.  **Utilize o Amazon Q Developer em aplicações de chat**: integre o [Amazon Q Developer em aplicações de chat](https://aws.amazon.com/chatbot/) para retransmitir alertas ao Amazon Chime, Microsoft Teams e Slack. 

1.  **Alerta com base em logs**: use [filtros de métrica de log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) no CloudWatch para criar alarmes com base em eventos de log específicos. 

1.  **Revise e repita**: revisite e refine regularmente as configurações de alerta. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
Recursos

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementar telemetria da experiência do usuário](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementar a telemetria de dependências](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementar rastreamento distribuído](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analisar logs de workloads](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analisar rastreamentos de workload](ops_workload_observability_analyze_workload_traces.md) 

 **Documentos relacionados:** 
+  [Usar alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Criar um alarme composto](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Criar um alarme do CloudWatch baseado na detecção de anomalias](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [Notificações do DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [Notificações de insights do X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Monitorar, operar e solucionar problemas de seus recursos da AWS com ChatOps interativos](https://aws.amazon.com/chatbot/) 
+  [Guia de integração do Amazon CloudWatch \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Integrar o Opsgenie com o Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Vídeos relacionados:** 
+  [Criar alarmes compostos no Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Amazon Q Developer in chat applications Overview](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Mutative Commands in Amazon Q Developer in chat applications](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Exemplos relacionados:** 
+  [Alarmes, gerenciamento de incidentes e remediação na nuvem com o Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutorial: Creating an Amazon EventBridge rule that sends notifications to Amazon Q Developer in chat applications](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Criar painéis
OPS08-BP05 Criar painéis

 Os painéis são a visão voltada para o ser humano dos dados de telemetria das workloads. Embora forneçam uma interface visual vital, eles não devem substituir os mecanismos de alerta, mas sim complementá-los. Quando elaborados com cuidado, eles não apenas oferecem insights rápidos sobre a integridade e a performance do sistema, como também podem apresentar às partes interessadas informações em tempo real sobre os resultados empresariais e o impacto dos problemas. 

 **Resultado desejado:** 

 Insights claros e acionáveis sobre a integridade do sistema e dos negócios usando representações visuais. 

 **Práticas comuns que devem ser evitadas:** 
+  Painéis complicados demais e com muitas métricas. 
+  Confiar em painéis sem alertas para detecção de anomalias. 
+  Não atualizar os painéis à medida que as workloads evoluem. 

 **Benefícios de implementar esta prática recomendada:** 
+  Visibilidade imediata de métricas e KPIs críticos do sistema. 
+  Comunicação e compreensão aprimoradas com as partes interessadas. 
+  Visão rápida do impacto dos problemas operacionais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
Orientação para implementação

 **Painéis centrados nos negócios** 

 Os painéis personalizados para os KPIs de negócios envolvem uma gama maior de partes interessadas. Embora essas pessoas possam não estar interessadas nas métricas do sistema, elas estão interessadas em entender as implicações comerciais desses números. Um painel centrado nos negócios garante que todas as métricas técnicas e operacionais monitoradas e analisadas estejam sincronizadas com as metas empresariais abrangentes. Esse alinhamento fornece clareza, garantindo que todos estejam em sintonia sobre o que é essencial e o que não é. Além disso, painéis que destacam os KPIs de negócios tendem a ser mais acionáveis. As partes interessadas podem entender rapidamente a integridade das operações, as áreas que precisam de atenção e o impacto potencial nos resultados empresariais. 

 Com isso em mente, ao criar seus painéis, garanta que haja um equilíbrio entre métricas técnicas e KPIs comerciais. Ambos são vitais, mas atendem a públicos diferentes. O ideal é que você tenha painéis que forneçam uma visão holística da integridade e da performance do sistema e, ao mesmo tempo, enfatizem os principais resultados comerciais e suas implicações. 

 Os painéis do Amazon CloudWatch são páginas iniciais personalizáveis no console do CloudWatch que você pode usar para monitorar seus recursos em uma única visualização, até mesmo os recursos distribuídos em diferentes contas e Regiões da AWS. 

### Etapas de implementação
Etapas de implementação

1.  **Crie um painel básico:** [crie um novo painel no CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html) e dê a ele um nome descritivo. 

1.  **Use widgets do Markdown:** antes de mergulhar nas métricas, [use os widgets do Markdown](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html) para adicionar contexto textual na parte superior do seu painel. Isso deve explicar o que o painel abrange, a importância das métricas representadas e também pode conter links para outros painéis e ferramentas de solução de problemas. 

1.  **Crie variáveis do painel:** [incorpore variáveis do painel](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html) onde apropriado para permitir visualizações dinâmicas e flexíveis do painel. 

1.  **Crie widgets de métricas**: [adicione widgets de métricas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html) para visualizar várias métricas que sua aplicação emite, adaptando esses widgets para representar com eficácia a integridade do sistema e os resultados empresariais. 

1.  **Consultas do Log Insights:** use o [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) para obter métricas acionáveis de seus logs e exibir esses insights no painel. 

1.  **Configure alarmes:** integre os [alarmes do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) ao seu painel para ter uma visão rápida de qualquer métrica que esteja ultrapassando seus limites. 

1.  **Use o Contributor Insights:** incorpore o [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) para analisar campos de alta cardinalidade e obter uma compreensão mais clara dos principais colaboradores do seu recurso. 

1.  **Crie widgets personalizados:** para necessidades específicas não atendidas pelos widgets padrão, considere criar [widgets personalizados](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html). Eles podem ser extraídos de várias fontes de dados ou representar dados de maneiras exclusivas. 

1.  **Use o AWS Health:** o AWS Health é a fonte de informações confiável sobre a integridade dos recursos da Nuvem AWS. Use o [AWS Health Dashboard](https://health.aws.amazon.com/health/status) diretamente ou use os dados do AWS Health em seus próprios painéis e ferramentas para ter as informações certas disponíveis e tomar decisões respaldadas. 

1.  **Itere e refine:** à medida que sua aplicação evolui, revise regularmente o painel para garantir sua relevância. 

## Recursos
Recursos

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analisar logs de workloads](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analisar rastreamentos de workload](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md) 

 **Documentos relacionados:** 
+  [Como criar painéis para visibilidade operacional](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Usar painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **Vídeos relacionados:** 
+  [Criar painéis do CloudWatch entre contas e entre regiões](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021: como obter visibilidade corporativa com painéis de operação do Nuvem AWS](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Exemplos relacionados:** 
+  [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Monitoramento de aplicações com o Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [Painéis e insights de inteligência de eventos do AWS Health](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualizar eventos do AWS Health usando o Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 