# OPS 9  Como você compreende a integridade de suas operações?
<a name="w2aac19b5b9b7"></a>

 Defina, capture e analise as métricas de operações para obter visibilidade dos eventos de operações, para que você possa tomar as ações apropriadas. 

**Topics**
+ [OPS09-BP01 Identificar os indicadores-chave de performance](ops_operations_health_define_ops_kpis.md)
+ [OPS09-BP02 Definir as métricas das operações](ops_operations_health_design_ops_metrics.md)
+ [OPS09-BP03 Coletar e analisar as métricas de operações](ops_operations_health_collect_analyze_ops_metrics.md)
+ [OPS09-BP04 Estabelecer linhas de base das métricas de operações](ops_operations_health_ops_metric_baselines.md)
+ [OPS09-BP05 Aprender os padrões esperados de atividades das operações](ops_operations_health_learn_ops_usage_patterns.md)
+ [OPS09-BP06 Alertar quando os resultados das operações estão em risco](ops_operations_health_ops_outcome_alerts.md)
+ [OPS09-BP07 Alertar quando são detectadas anomalias nas operações](ops_operations_health_ops_anomaly_alerts.md)
+ [OPS09-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas](ops_operations_health_biz_level_view_ops.md)

# OPS09-BP01 Identificar os indicadores-chave de performance
<a name="ops_operations_health_define_ops_kpis"></a>

 Identifique os indicadores-chave de performance (KPIs) com base nos resultados dos negócios desejados (por exemplo, novos recursos entregues) e nos resultados do cliente (por exemplo, casos de suporte ao cliente). Avalie KPIs para determinar o sucesso das operações. 

 **Antipadrões comuns:** 
+  A liderança de negócios pergunta se as operações são bem-sucedidas na realização de metas empresariais, mas não tem um quadro de referência para determinar o sucesso. 
+  Não é possível determinar se as janelas de manutenção têm impacto nos resultados de negócios. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao identificar os indicadores-chave de performance, você permite alcançar resultados de negócios, assim como o teste da integridade e do sucesso das suas operações. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Identificar os indicadores-chave de performance: identifique os indicadores-chave de performance (KPIs) com base nos resultados desejados dos negócios e dos clientes. Avalie KPIs para determinar o sucesso das operações. 

# OPS09-BP02 Definir as métricas das operações
<a name="ops_operations_health_design_ops_metrics"></a>

 Defina métricas de operações para medir a realização de KPIs (por exemplo, implantações com êxito e implantações com falha). Defina métricas de operações para medir a integridade das atividades de operações (por exemplo, tempo médio para detectar um incidente (MTTD) e tempo médio para recuperação (MTTR) de um incidente). Avalie as métricas para determinar se as operações estão alcançando os resultados desejados e para entender a integridade das atividades operacionais. 

 **Antipadrões comuns:** 
+  As métricas de operações são baseadas no que a equipe considera razoável. 
+  Os cálculos de métricas apresentam erros que produzirão resultados incorretos. 
+  Não há nenhuma métrica definida para suas atividades operacionais. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao definir e avaliar métricas de operações, você pode determinar a integridade de suas atividades de operações e medir a obtenção de resultados de negócios. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Definir as métricas das operações: defina as métricas das operações para medir a realização dos KPIs. Defina as métricas de operações para medir a integridade das operações e de suas atividades. Avalie as métricas para determinar se as operações estão alcançando os resultados desejados e para entender a integridade das operações. 
  +  [Publique métricas personalizadas.](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Pesquisa e filtragem de dados de log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [AWS Answers: Centralized Logging (Resposta da AWS: registro em log centralizado)](https://aws.amazon.com/answers/logging/centralized-logging/) 
+  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Identificar e responder a alterações no estado do pipeline com o Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Publicar métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Pesquisa e filtragem de dados de log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Vídeos relacionados:** 
+  Build a monitoring plan 

# OPS09-BP03 Coletar e analisar as métricas de operações
<a name="ops_operations_health_collect_analyze_ops_metrics"></a>

 Faça revisões proativas regulares das métricas para identificar tendências e determine onde as respostas apropriadas são necessárias. 

 Agregue os dados de log da execução de suas atividades de operações e chamadas de API de operações em um serviço como o CloudWatch Logs. Gere métricas a partir de observações do conteúdo de log necessário para obter insights sobre a performance das atividades de operações. 

 Na AWS, você pode [exportar seus dados de log para o Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) ou [enviar logs diretamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) to [Amazon S3](https://aws.amazon.com/s3/) para armazenamento de longo prazo. Com o uso do [AWS Glue](https://aws.amazon.com/glue/), você pode descobrir e preparar seus dados de log no Amazon S3 para análises, armazenando metadados associados no [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), por meio da integração nativa com o AWS Glue, pode ser usado para analisar dados de log, consultando-os com o SQL padrão. Usando uma ferramenta de business intelligence, como o [Quick](https://aws.amazon.com/quicksight/) você pode visualizar, explorar e analisar seus dados. 

 **Antipadrões comuns:** 
+  A entrega consistente de novos recursos é considerada um indicador-chave de performance. Não há um método para medir a frequência com que as implantações ocorrem. 
+  Você registra implantações, implantações revertidas, patches e patches revertidos para rastrear suas atividades operacionais, mas ninguém analisa as métricas. 
+  Você tem um objetivo de tempo de recuperação para restaurar um banco de dados perdido em 15 minutos, que foi definido quando o sistema foi implantado e não tinha usuários. Agora, você tem milhares de usuários e está em operação há dois anos. Uma restauração recente levou mais de duas horas. Isso não foi registrado e ninguém está ciente. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao coletar e analisar as métricas de operações, você entende a integridade das operações e pode obter insights sobre as tendências que podem afetar as operações ou a obtenção dos resultados de negócios. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Coletar e analisar as métricas de operações: execute análises regulares e proativas das métricas para identificar tendências e determinar quando respostas apropriadas são necessárias. 
  +  [Uso de métricas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Coletar métricas e logs das instâncias do Amazon EC2 e de servidores on-premises com o agente do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Coletar métricas e logs das instâncias do Amazon EC2 e de servidores on-premises com o agente do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Uso de métricas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS09-BP04 Estabelecer linhas de base das métricas de operações
<a name="ops_operations_health_ops_metric_baselines"></a>

 Estabeleça as linhas de base das métricas para fornecer valores esperados como base para comparação e identificação de atividades operacionais com performance inferior e superior. 

 **Antipadrões comuns:** 
+  Foi perguntado a você qual é o tempo esperado para implantar. Você não mediu o tempo necessário para a implantação e não consegue determinar o tempo esperado. 
+  Foi perguntado a você quanto tempo leva para se recuperar de um problema com os servidores de aplicativos. Você não tem informações sobre o tempo de recuperação a partir do primeiro contato com o cliente. Você não tem informações sobre o tempo de recuperação a partir da primeira identificação de um problema por meio do monitoramento. 
+  Foi perguntado a você quantos funcionários de suporte são necessários durante o fim de semana. Você não tem ideia de quantos casos de suporte são realizados normalmente durante um fim de semana e não pode fornecer uma estimativa. 
+  Você tem um objetivo de tempo de recuperação para restaurar bancos de dados perdidos em 15 minutos, que foi definido quando o sistema foi implantado e não tinha usuários. Agora, você tem milhares de usuários e está em operação há dois anos. Você não tem informações sobre como o tempo de restauração foi alterado para seu banco de dados. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao definir valores de métrica de linha de base, você pode avaliar valores de métrica atuais e tendências de métrica para determinar se a ação é necessária. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Aprender os padrões esperados das atividades da workload: estabeleça os padrões das atividades da workload para determinar quando o comportamento está fora dos valores esperados, para que seja possível responder adequadamente, se necessário. 

# OPS09-BP05 Aprender os padrões esperados de atividades das operações
<a name="ops_operations_health_learn_ops_usage_patterns"></a>

 Estabeleça padrões de atividades de operações para identificar atividades anômalas para poder responder adequadamente, se necessário. 

 **Antipadrões comuns:** 
+  A taxa de falhas de implantação aumentou substancialmente recentemente. Você aborda cada uma das falhas de forma independente. Você não percebe que as falhas correspondem a implantações de um novo funcionário que não está familiarizado com o sistema de gerenciamento de implantação. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao aprender os padrões de comportamento, você pode reconhecer comportamentos inesperados e tomar medidas, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Aprender os padrões esperados das atividades da workload: estabeleça os padrões das atividades da workload para determinar quando o comportamento está fora dos valores esperados, para que seja possível responder adequadamente, se necessário. 

# OPS09-BP06 Alertar quando os resultados das operações estão em risco
<a name="ops_operations_health_ops_outcome_alerts"></a>

 Sempre que os resultados da operação estiverem em risco, um alerta deve ser gerado e acionado. Os resultados das operações são qualquer atividade compatível com uma workload em produção. Isso inclui tudo, desde a implantação de novas versões de aplicações até a recuperação de uma interrupção. Os resultados das operações devem ser tratados com a mesma importância dos resultados empresariais. 

As equipes de software devem identificar as principais métricas e atividades da operação e criar alertas para elas. Os alertas devem ser enviados em tempo hábil e levar a ações concretas. Se um alerta for criado, deverá ser incluída uma referência para um runbook ou manual correspondente. Os alertas sem uma ação correspondente podem levar a um excesso de alertas.

 **Resultado desejado:** quando as atividades das operações estão em risco, são enviados alertas para promover uma ação. Os alertas contêm contexto sobre por que o alerta está sendo criado e indicam um manual para investigação ou um runbook para mitigação. Quando possível, os runbooks são automatizados e as notificações são enviadas. 

 **Antipadrões comuns:** 
+ Você está investigando um incidente e os casos de suporte estão sendo arquivados. Os casos de suporte estão infringindo o Acordo de Serviço (SLA), mas nenhum alerta está sendo criado. 
+ Uma implantação na produção agendada para a meia-noite está atrasada devido a modificações de última hora no código. Nenhum alerta foi criado e a implantação é adiada.
+ Uma interrupção da produção ocorre, mas não é enviado nenhum alerta.
+  O tempo da implantação constantemente não cumpre o tempo estimado. Nenhuma ação é realizada para investigar. 

 **Benefícios de estabelecer esta prática recomendada:** 
+  Alertar quando os resultados das operações estiverem em risco aumenta sua capacidade de comportar sua workload, ao se antecipar aos problemas. 
+  Os resultados empresariais são melhorados devido a resultados operacionais íntegros. 
+  A detecção e correção dos problemas das operações são melhorados. 
+  A integridade operacional geral é melhorada. 

 **Nível de risco exposto se essa prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Os resultados das operações devem ser definidos antes de você poder alertar sobre eles. Comece definindo quais atividades das operações são mais importantes para sua organização. É implantar na produção em menos de duas horas ou responder a um caso de suporte em determinado tempo? Sua organização deve definir as principais atividades de operações e como elas devem ser medidas, para que possam ser monitoradas, aprimoradas e alertadas. Você precisa de um local central em que a telemetria de operações e workload seja armazenada e analisada. O mesmo mecanismo deverá poder criar um alerta quando o resultado de uma operação estiver em risco. 

 **Exemplo de cliente** 

 Um alarme do CloudWatch foi acionado durante uma implantação de rotina na Loja UmaEmpresa. O tempo útil para a implantação foi violado. O Amazon EventBridge criou um OpsItem no AWS Systems Manager OpsCenter. A equipe de operações da nuvem usou um manual para investigar o problema e identificou que uma mudança no esquema estava levando mais tempo do que o esperado. Ela alertou o desenvolvedor de plantão e continuou a monitorar a implantação. Depois que a implantação foi concluída, a equipe de operações da nuvem resolveu o OpsItem. A equipe fará uma análise após a conclusão do incidente. 

## Etapas da implementação
<a name="implementation-steps"></a>

1. Se você não identificou os KPIs, as métricas e as atividades da operação, trabalhe na implementação das práticas recomendadas anteriores a essa questão (de OPS09-BP01 a OPS09-BP05). 
   +  Clientes do Suporte com [Enterprise Support](https://aws.amazon.com/premiumsupport/plans/enterprise/) podem solicitar o [workshop de KPI de operações](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) com seu gerente de conta técnico. Esse workshop colaborativo ajuda a definir os KPIs e as métricas das operações de forma alinhada às metas empresariais, fornecidos sem custo adicional. Entre em contato com seu gerente de conta técnico para saber mais. 

1.  Depois de estabelecer as atividades, os KPIs e as métricas das operações, configure alertas em sua plataforma de observabilidade. Os alertas devem ter uma ação associada a eles, como um manual ou um runbook. Os alertas sem uma ação devem ser evitados. 

1.  Ao longo do tempo, você deve avaliar as métricas, KPIs e atividades das operações a fim de identificar áreas para melhoria. Colete feedback em runbooks e manuais dos operadores visando identificar áreas para melhoria ao responder a alertas. 

1.  Os alertas devem incluir um mecanismo para sinalizá-los como falso positivo. Isso deve levar a uma análise dos limites das métricas. 

 **Nível de esforço do plano de implementação:** médio. Há várias práticas recomendadas que devem ser aplicadas antes de implementar essa prática recomendada. Depois de identificar as atividades e definir os KPIs das operações, estabeleça alertas. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP03 Atividades de operações com proprietários identificados responsáveis pela performance](ops_ops_model_def_activity_owners.md): todas as atividades e os resultados da operação devem ter um proprietário identificado como responsável. Essa é a pessoa que deverá ser alertada quando os resultados estiverem em risco. 
+  [OPS03-BP02 Os membros da equipe estão capacitados para executar ações quando os resultados estão em risco.](ops_org_culture_team_emp_take_action.md): quando os alertas forem criados, sua equipe deverá ter autoridade para atuar a fim de corrigir o problema. 
+  [OPS09-BP01 Identificar os indicadores-chave de performance](ops_operations_health_define_ops_kpis.md): os alertas com relação aos resultados das operações começam com a identificação dos KPIs das operações. 
+  [OPS09-BP02 Definir as métricas das operações](ops_operations_health_design_ops_metrics.md): estabeleça essa prática recomendada antes de começar a gerar alertas. 
+  [OPS09-BP03 Coletar e analisar as métricas de operações](ops_operations_health_collect_analyze_ops_metrics.md): é necessário coletar centralmente as métricas das operações para criar alertas. 
+  [OPS09-BP04 Estabelecer linhas de base das métricas de operações](ops_operations_health_ops_metric_baselines.md): as referências de base das métricas de operações permitem ajustar os alertas e evitar o excesso de alertas. 
+  [OPS09-BP05 Aprender os padrões esperados de atividades das operações](ops_operations_health_learn_ops_usage_patterns.md): é possível melhorar a precisão de seus alertas compreendendo os padrões de atividades dos eventos de operações. 
+  [OPS09-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas](ops_operations_health_biz_level_view_ops.md): avalie o cumprimento dos resultados das operações para garantir a validade dos KPIs e das métricas. 
+  [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md): todos os alertas devem ter um runbook ou manual associado e fornecer contexto para a pessoa que recebe o alerta. 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md): realize uma análise pós-incidente depois do alerta para identificar áreas para melhoria. 

 **Documentos relacionados:** 
+  [AWS Deployment Pipelines Reference Architecture: Application Pipeline Architecture (Arquitetura de referência de pipelines de implantação da AWS: arquitetura de pipeline de aplicação)](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Getting Started with Agile / DevOps Metrics (GitLab conceitos básicos do Agile/métricas de DevOps)](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Vídeos relacionados:** 
+  [Aggregate and Resolve Operational Issues Using AWS Systems Manager OpsCenter (Agregue e resolva problemas operacionais usando o AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrate AWS Systems Manager OpsCenter with Amazon CloudWatch Alarms (Integre o AWS Systems Manager OpsCenter com alarmes do Amazon CloudWatch)](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrate Your Data Sources into AWS Systems Manager OpsCenter Using Amazon EventBridge (Integre suas fontes de dados ao AWS Systems Manager OpsCenter usando o Amazon EventBridge)](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Exemplos relacionados:** 
+  [Automate remediation actions for Amazon EC2 notifications and beyond using Amazon EC2 Systems Manager Automation and AWS Health (Automatize ações de correção para notificações do Amazon EC2 e além usando o Amazon EC2 Systems Manager Automation e o AWS Health)](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS Management and Governance Tools Workshop - Operations 2022 (Workshop de ferramentas de gerenciamento e governança da AWS: Operações de 2022)](https://mng.workshop.aws/operations-2022.html) 
+  [Ingesting, analyzing, and visualizing metrics with DevOps Monitoring Dashboard on AWS (Ingerir, analisar e visualizar métricas com o painel de monitoramento de DevOps na AWS)](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Serviços relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Suporte Proactive Services - Operations KPI Workshop (Serviços proativos do Suporte: workshop de KPI de operações)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [Eventos do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP07 Alertar quando são detectadas anomalias nas operações
<a name="ops_operations_health_ops_anomaly_alerts"></a>

 Emita um alerta quando forem detectadas anomalias de operações para que você possa responder adequadamente, se necessário. 

 Sua análise das métricas de operações ao longo do tempo pode estabelecer padrões de comportamento que você pode quantificar suficientemente para definir um evento ou gerar um alarme em resposta. 

 Uma vez treinado, o recurso [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pode ser usado para [gerar alarmes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) sobre anomalias detectadas ou pode fornecer valores esperados sobrepostos em um [gráfico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) de dados de métricas para comparação contínua. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) pode ser usado para identificar comportamento anômalo por meio da correlação de eventos, da análise do log e da aplicação de machine learning para analisar a telemetria da workload. O [insights](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) obtidos são apresentados com os dados e as recomendações relevantes. 

 **Antipadrões comuns:** 
+  Você está aplicando um patch à sua frota de instâncias. Você testou o patch com êxito no ambiente de teste. O patch está falhando para uma grande porcentagem de instâncias em sua frota. Você não faz nada. 
+  Você percebe que há implantações a partir da sexta-feira no fim do dia. Sua organização tem janelas de manutenção predefinidas às terças e quintas-feiras. Você não faz nada. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao compreender os padrões de comportamento das operações, é possível identificar comportamentos inesperados e tomar medidas, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Alertar quando são detectadas anomalias nas operações: emita um alerta quando forem detectadas anomalias nas operações para poder responder adequadamente, se necessário. 
  +  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Identificar e responder a alterações no estado do pipeline com o Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas
<a name="ops_operations_health_biz_level_view_ops"></a>

 Crie uma visualização em nível de negócios de suas atividades operacionais para ajudá-lo a determinar se você está satisfazendo estas necessidades e para identificar áreas que precisam de melhorias para atingir as metas de negócios. Valide a eficácia dos KPIs e métricas e revise-os, se necessário. 

 A AWS também é compatível com sistemas de análise de log de terceiros e com ferramentas de inteligência de negócios por meio das APIs e SDKs de serviços da AWS (por exemplo, Grafana, Kibana e Logstash). 

 **Antipadrões comuns:** 
+  A frequência das suas implantações aumentou com o crescimento do número de equipes de desenvolvimento. O número esperado definido de implantações é uma vez por semana. Você tem realizado implantações de forma regular e diariamente. Quando há um problema com o sistema de implantação e não é possível realizar as implantações, leva dias para que isso seja detectado. 
+  Antes, quando sua empresa oferecia suporte apenas durante o horário comercial, de segunda a sexta-feira. Você estabeleceu o próximo dia útil como a meta de tempo de resposta para incidentes. Recentemente, você iniciou a oferta de cobertura de suporte 24 horas por dia, 7 dias por semana, com uma meta de tempo de resposta de duas horas. Sua equipe noturna está sobrecarregada e os clientes estão insatisfeitos. Não há indicação de que haja problemas com os tempos de resposta a incidentes porque você está trabalhando com uma meta de próximo dia útil. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao analisar e revisar os KPIs e as métricas, você entende como sua workload oferece suporte à obtenção dos resultados dos negócios e pode identificar onde é necessário melhorar para atingir suas metas de negócios. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Validar a obtenção de resultados e a eficácia dos KPIs e das métricas: crie uma visão de nível empresarial das atividades de operações para ajudá-lo a determinar se você está atendendo às necessidades e a identificar áreas que precisam ser aprimoradas para atingir metas empresariais. Valide a eficácia dos KPIs e métricas e revise-os, se necessário. 
  +  [Uso de painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [O que é análise de log?](https://aws.amazon.com/log-analytics/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Uso de painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [O que é análise de log?](https://aws.amazon.com/log-analytics/)