

# OPS09-BP06 Alertar quando os resultados das operações estão em risco
<a name="ops_operations_health_ops_outcome_alerts"></a>

 Sempre que os resultados da operação estiverem em risco, um alerta deve ser gerado e acionado. Os resultados das operações são qualquer atividade compatível com uma workload em produção. Isso inclui tudo, desde a implantação de novas versões de aplicações até a recuperação de uma interrupção. Os resultados das operações devem ser tratados com a mesma importância dos resultados empresariais. 

As equipes de software devem identificar as principais métricas e atividades da operação e criar alertas para elas. Os alertas devem ser enviados em tempo hábil e levar a ações concretas. Se um alerta for criado, deverá ser incluída uma referência para um runbook ou manual correspondente. Os alertas sem uma ação correspondente podem levar a um excesso de alertas.

 **Resultado desejado:** quando as atividades das operações estão em risco, são enviados alertas para promover uma ação. Os alertas contêm contexto sobre por que o alerta está sendo criado e indicam um manual para investigação ou um runbook para mitigação. Quando possível, os runbooks são automatizados e as notificações são enviadas. 

 **Antipadrões comuns:** 
+ Você está investigando um incidente e os casos de suporte estão sendo arquivados. Os casos de suporte estão infringindo o Acordo de Serviço (SLA), mas nenhum alerta está sendo criado. 
+ Uma implantação na produção agendada para a meia-noite está atrasada devido a modificações de última hora no código. Nenhum alerta foi criado e a implantação é adiada.
+ Uma interrupção da produção ocorre, mas não é enviado nenhum alerta.
+  O tempo da implantação constantemente não cumpre o tempo estimado. Nenhuma ação é realizada para investigar. 

 **Benefícios de estabelecer esta prática recomendada:** 
+  Alertar quando os resultados das operações estiverem em risco aumenta sua capacidade de comportar sua workload, ao se antecipar aos problemas. 
+  Os resultados empresariais são melhorados devido a resultados operacionais íntegros. 
+  A detecção e correção dos problemas das operações são melhorados. 
+  A integridade operacional geral é melhorada. 

 **Nível de risco exposto se essa prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Os resultados das operações devem ser definidos antes de você poder alertar sobre eles. Comece definindo quais atividades das operações são mais importantes para sua organização. É implantar na produção em menos de duas horas ou responder a um caso de suporte em determinado tempo? Sua organização deve definir as principais atividades de operações e como elas devem ser medidas, para que possam ser monitoradas, aprimoradas e alertadas. Você precisa de um local central em que a telemetria de operações e workload seja armazenada e analisada. O mesmo mecanismo deverá poder criar um alerta quando o resultado de uma operação estiver em risco. 

 **Exemplo de cliente** 

 Um alarme do CloudWatch foi acionado durante uma implantação de rotina na Loja UmaEmpresa. O tempo útil para a implantação foi violado. O Amazon EventBridge criou um OpsItem no AWS Systems Manager OpsCenter. A equipe de operações da nuvem usou um manual para investigar o problema e identificou que uma mudança no esquema estava levando mais tempo do que o esperado. Ela alertou o desenvolvedor de plantão e continuou a monitorar a implantação. Depois que a implantação foi concluída, a equipe de operações da nuvem resolveu o OpsItem. A equipe fará uma análise após a conclusão do incidente. 

## Etapas da implementação
<a name="implementation-steps"></a>

1. Se você não identificou os KPIs, as métricas e as atividades da operação, trabalhe na implementação das práticas recomendadas anteriores a essa questão (de OPS09-BP01 a OPS09-BP05). 
   +  Clientes do Suporte com [Enterprise Support](https://aws.amazon.com/premiumsupport/plans/enterprise/) podem solicitar o [workshop de KPI de operações](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) com seu gerente de conta técnico. Esse workshop colaborativo ajuda a definir os KPIs e as métricas das operações de forma alinhada às metas empresariais, fornecidos sem custo adicional. Entre em contato com seu gerente de conta técnico para saber mais. 

1.  Depois de estabelecer as atividades, os KPIs e as métricas das operações, configure alertas em sua plataforma de observabilidade. Os alertas devem ter uma ação associada a eles, como um manual ou um runbook. Os alertas sem uma ação devem ser evitados. 

1.  Ao longo do tempo, você deve avaliar as métricas, KPIs e atividades das operações a fim de identificar áreas para melhoria. Colete feedback em runbooks e manuais dos operadores visando identificar áreas para melhoria ao responder a alertas. 

1.  Os alertas devem incluir um mecanismo para sinalizá-los como falso positivo. Isso deve levar a uma análise dos limites das métricas. 

 **Nível de esforço do plano de implementação:** médio. Há várias práticas recomendadas que devem ser aplicadas antes de implementar essa prática recomendada. Depois de identificar as atividades e definir os KPIs das operações, estabeleça alertas. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP03 Atividades de operações com proprietários identificados responsáveis pela performance](ops_ops_model_def_activity_owners.md): todas as atividades e os resultados da operação devem ter um proprietário identificado como responsável. Essa é a pessoa que deverá ser alertada quando os resultados estiverem em risco. 
+  [OPS03-BP02 Os membros da equipe estão capacitados para executar ações quando os resultados estão em risco.](ops_org_culture_team_emp_take_action.md): quando os alertas forem criados, sua equipe deverá ter autoridade para atuar a fim de corrigir o problema. 
+  [OPS09-BP01 Identificar os indicadores-chave de performance](ops_operations_health_define_ops_kpis.md): os alertas com relação aos resultados das operações começam com a identificação dos KPIs das operações. 
+  [OPS09-BP02 Definir as métricas das operações](ops_operations_health_design_ops_metrics.md): estabeleça essa prática recomendada antes de começar a gerar alertas. 
+  [OPS09-BP03 Coletar e analisar as métricas de operações](ops_operations_health_collect_analyze_ops_metrics.md): é necessário coletar centralmente as métricas das operações para criar alertas. 
+  [OPS09-BP04 Estabelecer linhas de base das métricas de operações](ops_operations_health_ops_metric_baselines.md): as referências de base das métricas de operações permitem ajustar os alertas e evitar o excesso de alertas. 
+  [OPS09-BP05 Aprender os padrões esperados de atividades das operações](ops_operations_health_learn_ops_usage_patterns.md): é possível melhorar a precisão de seus alertas compreendendo os padrões de atividades dos eventos de operações. 
+  [OPS09-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas](ops_operations_health_biz_level_view_ops.md): avalie o cumprimento dos resultados das operações para garantir a validade dos KPIs e das métricas. 
+  [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md): todos os alertas devem ter um runbook ou manual associado e fornecer contexto para a pessoa que recebe o alerta. 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md): realize uma análise pós-incidente depois do alerta para identificar áreas para melhoria. 

 **Documentos relacionados:** 
+  [AWS Deployment Pipelines Reference Architecture: Application Pipeline Architecture (Arquitetura de referência de pipelines de implantação da AWS: arquitetura de pipeline de aplicação)](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Getting Started with Agile / DevOps Metrics (GitLab conceitos básicos do Agile/métricas de DevOps)](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Vídeos relacionados:** 
+  [Aggregate and Resolve Operational Issues Using AWS Systems Manager OpsCenter (Agregue e resolva problemas operacionais usando o AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrate AWS Systems Manager OpsCenter with Amazon CloudWatch Alarms (Integre o AWS Systems Manager OpsCenter com alarmes do Amazon CloudWatch)](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrate Your Data Sources into AWS Systems Manager OpsCenter Using Amazon EventBridge (Integre suas fontes de dados ao AWS Systems Manager OpsCenter usando o Amazon EventBridge)](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Exemplos relacionados:** 
+  [Automate remediation actions for Amazon EC2 notifications and beyond using Amazon EC2 Systems Manager Automation and AWS Health (Automatize ações de correção para notificações do Amazon EC2 e além usando o Amazon EC2 Systems Manager Automation e o AWS Health)](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS Management and Governance Tools Workshop - Operations 2022 (Workshop de ferramentas de gerenciamento e governança da AWS: Operações de 2022)](https://mng.workshop.aws/operations-2022.html) 
+  [Ingesting, analyzing, and visualizing metrics with DevOps Monitoring Dashboard on AWS (Ingerir, analisar e visualizar métricas com o painel de monitoramento de DevOps na AWS)](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Serviços relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Suporte Proactive Services - Operations KPI Workshop (Serviços proativos do Suporte: workshop de KPI de operações)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [Eventos do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 