# Operar
<a name="a-operate"></a>

**Topics**
+ [OPS 8  Como você compreende a integridade da sua carga de trabalho?](w2aac19b5b9b5.md)
+ [OPS 9  Como você compreende a integridade de suas operações?](w2aac19b5b9b7.md)
+ [OPS 10  Como você gerencia os eventos de carga de trabalho e operações?](w2aac19b5b9b9.md)

# OPS 8  Como você compreende a integridade da sua carga de trabalho?
<a name="w2aac19b5b9b5"></a>

 Defina, capture e analise as métricas da carga de trabalho para obter visibilidade destes eventos, para que você possa tomar as ações apropriadas. 

**Topics**
+ [OPS08-BP01 Identificar os indicadores-chave de performance](ops_workload_health_define_workload_kpis.md)
+ [OPS08-BP02 Definir as métricas da workload](ops_workload_health_design_workload_metrics.md)
+ [OPS08-BP03 Coletar e analisar as métricas da workload](ops_workload_health_collect_analyze_workload_metrics.md)
+ [OPS08-BP04 Estabelecer as linhas de base das métricas da workload](ops_workload_health_workload_metric_baselines.md)
+ [OPS08-BP05 Aprender os padrões esperados das atividades da workload](ops_workload_health_learn_workload_usage_patterns.md)
+ [OPS08-BP06 Alertar quando os resultados da workload estiverem em risco](ops_workload_health_workload_outcome_alerts.md)
+ [OPS08-BP07 Alertar quando forem detectadas anomalias na workload](ops_workload_health_workload_anomaly_alerts.md)
+ [OPS08-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas](ops_workload_health_biz_level_view_workload.md)

# OPS08-BP01 Identificar os indicadores-chave de performance
<a name="ops_workload_health_define_workload_kpis"></a>

 Identifique os indicadores-chave de performance (KPIs) com base nos resultados de negócios desejados (por exemplo, taxa de pedidos, taxa de retenção do cliente e lucro versus despesa operacional) e resultados do cliente (por exemplo, satisfação do cliente). Avalie os KPIs para determinar o sucesso da carga de trabalho. 

 **Antipadrões comuns:** 
+  A liderança de negócios pergunta a você sobre o sucesso de uma carga de trabalho atendendo às necessidades empresariais, mas não tem um quadro de referência para determinar o sucesso. 
+  Você não consegue determinar se a aplicação comercial pronta para uso que você opera para a organização é econômica. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao identificar os indicadores-chave de performance, você permite alcançar resultados empresariais como teste da integridade e do sucesso da sua carga de trabalho. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Identificar os indicadores-chave de performance: identifique os indicadores-chave de performance (KPIs) com base nos resultados desejados dos negócios e dos clientes. Avalie os KPIs para determinar o sucesso da carga de trabalho. 

# OPS08-BP02 Definir as métricas da workload
<a name="ops_workload_health_design_workload_metrics"></a>

 Defina métricas de carga de trabalho para medir a realização de KPIs (por exemplo, carrinhos de compras abandonados, pedidos feitos, custo, preço e despesas de carga de trabalho alocadas). Defina métricas de carga de trabalho para medir a integridade da carga de trabalho (por exemplo, tempo de resposta da interface, taxa de erros, solicitações feitas, solicitações concluídas e utilização). Avalie as métricas para determinar se a carga de trabalho está alcançando os resultados desejados e para entender a sua integridade. 

 Você deve enviar os dados de log para um serviço como o CloudWatch Logs e gerar métricas a partir das observações do conteúdo do log necessário. 

 O CloudWatch tem recursos especializados, como [Amazon CloudWatch Insights para .NET e SQL Server](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/appinsights-what-is.html) e [Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) , que podem ajudar você ao identificar e configurar as principais métricas, logs e alarmes em seus recursos de aplicativos e pilha de tecnologia especificamente com suporte. 

 **Antipadrões comuns:** 
+  Você definiu métricas padrão, não associadas a nenhum KPI nem adaptadas a nenhuma workload. 
+  Os cálculos de métricas apresentam erros que produzirão resultados inválidos. 
+  Não há nenhuma métrica definida para sua carga de trabalho. 
+  Você só mede a disponibilidade. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao definir e avaliar métricas de carga de trabalho, você pode determinar a integridade da sua carga de trabalho e medir a obtenção dos resultados de negócios. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Definir as métricas da workload: defina as métricas da workload para medir o alcance dos KPIs. Defina métricas de carga de trabalho para medir a sua integridade e a de seus componentes individuais. Avalie as métricas para determinar se a carga de trabalho está alcançando os resultados desejados e para entender a sua integridade. 
  +  [Publique métricas personalizadas.](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Pesquisa e filtragem de dados de log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Publicar métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Pesquisa e filtragem de dados de log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

# OPS08-BP03 Coletar e analisar as métricas da workload
<a name="ops_workload_health_collect_analyze_workload_metrics"></a>

 Faça revisões proativas regulares das métricas para identificar tendências e determine onde as respostas apropriadas são necessárias. 

 Agregue os dados de log da aplicação, dos componentes da workload, dos serviços e das chamadas de API para um serviço como o CloudWatch Logs. Gere métricas a partir de observações do conteúdo de log necessário para permitir insights sobre a performance de atividades de operações. 

 Na AWS, é possível analisar as métricas da workload e identificar problemas operacionais usando os recursos de machine learning do [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)O AWS DevOps Guru fornece notificação de problemas operacionais com [recomendações direcionadas e proativas](https://docs.aws.amazon.com/devops-guru/latest/userguide/view-insights.html) para resolver problemas e manter a integridade da aplicação. 

 No modelo de responsabilidade compartilhada da AWS, partes do monitoramento são entregues por meio do [AWS Health Dashboard](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/). O painel fornece alertas e orientação de remediação quando a AWS apresenta eventos que podem afetar você. Os clientes com assinaturas do Business e Enterprise Support também obtêm acesso à [API do AWS Health](https://docs.aws.amazon.com/health/latest/ug/getting-started-api.html), permitindo a integração com seus sistemas de gerenciamento de eventos. 

 Na AWS, você pode [exportar seus dados de log para o Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) ou [enviar logs diretamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) to [Amazon S3](https://aws.amazon.com/s3/) para armazenamento de longo prazo. Com o uso do [AWS Glue](https://aws.amazon.com/glue/), você pode descobrir e preparar seus dados de log no Amazon S3 para análises, armazenando metadados associados no [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), por meio da integração nativa com o AWS Glue, pode ser usado para analisar dados de log, consultando-os com o SQL padrão. Usando uma ferramenta de business intelligence, como o [Quick](https://aws.amazon.com/quicksight/) você pode visualizar, explorar e analisar seus dados. 

 Uma solução [alternativa](https://aws.amazon.com/solutions/centralized-logging/?did=sl_card&trk=sl_card) seria usar o [Amazon OpenSearch Service](https://aws.amazon.com/elasticsearch-service/) e [os painéis do OpenSearch](https://aws.amazon.com/elasticsearch-service/the-elk-stack/kibana/) para coletar, analisar e exibir logs na AWS em várias contas e Regiões da AWS. 

 **Antipadrões comuns:** 
+  A equipe de design de rede solicita as taxas de utilização de largura de banda de rede atuais. Você fornece as métricas atuais, a utilização da rede é de 35%. Elas reduzem a capacidade do circuito como uma medida de economia de custos, causando problemas de conectividade generalizados, pois sua medição de ponto no tempo não reflete a tendência nas taxas de utilização. 
+  O roteador falhou. Ele está registrando erros de memória não críticos com frequência cada vez maior, até sua falha completa. Você não detectou essa tendência e, como resultado, não substituiu a memória com falha antes que o roteador causasse uma interrupção no serviço. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao coletar e analisar as métricas de carga de trabalho, você compreende a integridade da sua carga de trabalho e pode obter informações sobre tendências que podem afetar sua carga de trabalho ou a obtenção de seus resultados de negócios. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Coletar e analisar métricas da workload: execute revisões proativas regulares de métricas para identificar tendências e determinar quando as respostas apropriadas são necessárias. 
  +  [Uso de métricas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent (Coletar métricas e logs das instâncias do Amazon EC2 e de servidores on-premises com o agente do CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Amazon OpenSearch Service](https://aws.amazon.com/elasticsearch-service/) 
+  [AWS Health Dashboard](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent (Coletar métricas e logs das instâncias do Amazon EC2 e de servidores on-premises com o agente do CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Uso de métricas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS08-BP04 Estabelecer as linhas de base das métricas da workload
<a name="ops_workload_health_workload_metric_baselines"></a>

 Estabeleça as linhas de base das métricas para fornecer os valores esperados como base para a comparação e a identificação de componentes com performance inferior e superior. Identificar limites para melhoria, investigação e intervenção. 

 **Antipadrões comuns:** 
+  Um servidor está sendo executado com 95% de utilização da CPU. Será perguntado se isso é bom ou ruim. A utilização da CPU nesse servidor não foi usada como base, portanto, você não tem ideia se isso é bom ou ruim. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao definir valores de métrica de linha de base, você pode avaliar valores de métrica atuais e tendências de métrica para determinar se a ação é necessária. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Estabelecer as linhas de base para as métricas da workload: estabeleça as linhas de base das métricas da workload para fornecer os valores esperados como uma base de comparação. 
  +  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 

# OPS08-BP05 Aprender os padrões esperados das atividades da workload
<a name="ops_workload_health_learn_workload_usage_patterns"></a>

 Estabeleça padrões de atividade de carga de trabalho para identificar comportamentos anômalos para que você possa responder adequadamente, se necessário. 

 O CloudWatch por meio da [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) aplica algoritmos estatísticos e de machine learning para gerar uma variedade de valores esperados que representam o comportamento normal da métrica. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) pode ser usado para identificar comportamento anômalo por meio da correlação de eventos, da análise do log e da aplicação de machine learning para analisar a telemetria da workload. Quando são detectados comportamentos inesperados, ele fornece as [métricas e os eventos relacionados](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) com recomendações para resolver o comportamento. 

 **Antipadrões comuns:** 
+  Você está revisando os logs de utilização da rede e verá que a utilização da rede aumentou entre 11h30 e 13h30 e novamente das 16h30 às 18h. Você não sabe se isso deve ser considerado normal ou não. 
+  Seus servidores web reinicializam todas as noites às 3h. Você não sabe se esse é um comportamento esperado. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao aprender padrões de comportamento, você pode reconhecer comportamentos inesperados e tomar medidas, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Estabelecer os padrões esperados das atividades da workload: estabeleça os padrões das atividades da workload para determinar quando o comportamento está fora dos valores esperados, para que seja possível responder adequadamente, se necessário. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 

# OPS08-BP06 Alertar quando os resultados da workload estiverem em risco
<a name="ops_workload_health_workload_outcome_alerts"></a>

 Emita um alerta quando os resultados da carga de trabalho estiverem em risco, para que você possa responder adequadamente, se necessário. 

 em condições ideais, você identificou anteriormente um limite de métrica sobre o qual é capaz de emitir alarmes ou um evento que você pode usar para acionar uma resposta automatizada. 

 No AWS, você pode usar o [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) para criar scripts canário para monitorar os seus endpoints e APIs executando as mesmas ações que seus clientes. A telemetria gerada e o [insight obtido](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_Details.html) podem permitir que você identifique problemas antes que causem impacto nos clientes. 

 Você também pode usar o [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para pesquisar e analisar interativamente seus dados de log usando uma linguagem de consulta específica. O CloudWatch Logs Insights descobre [campos em logs automaticamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData-discoverable-fields.html) dos serviços da AWS e dos eventos de log personalizados em JSON. Ele faz o dimensionamento de acordo com o volume de logs e a complexidade das consultas e oferece respostas em segundos, ajudando você a procurar os fatores que contribuem para um incidente. 

 **Antipadrões comuns:** 
+  Você não tem conectividade de rede. Ninguém está ciente. Ninguém está tentando identificar o motivo ou tomando medidas para restaurar a conectividade. 
+  Após a aplicação de um patch, as instâncias persistentes se tornaram indisponíveis, prejudicando os usuários. Seus usuários abriram casos de suporte. Ninguém foi notificado. Ninguém está realizando ações. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao identificar que os resultados de negócios estão em risco e alertar sobre ações a serem tomadas, você tem a oportunidade de evitar ou reduzir o impacto de um incidente. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Alertar quando os resultados da workload estão em risco: emita um alerta quando os resultados da workload estiverem em risco para que você possa responder adequadamente, se necessário. 
  +  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP07 Alertar quando forem detectadas anomalias na workload
<a name="ops_workload_health_workload_anomaly_alerts"></a>

 Emita um alerta quando forem detectadas anomalias na carga de trabalho, para que você possa responder adequadamente, se necessário. 

 sua análise das métricas da carga de trabalho ao longo do tempo pode estabelecer padrões de comportamento que você pode quantificar suficientemente para definir um evento ou gerar um alarme em resposta. 

 Uma vez treinado, o recurso [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pode ser usado para [gerar alarmes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) sobre anomalias detectadas ou pode fornecer valores esperados sobrepostos em um [gráfico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) de dados de métricas para comparação contínua. 

 **Antipadrões comuns:** 
+  As vendas do site de varejo aumentaram drasticamente de forma repentina; Ninguém está ciente. Ninguém está tentando identificar o que levou a esse pico. Ninguém está realizando ações para garantir experiências de qualidade para o cliente sob a carga adicional. 
+  Após a aplicação de um patch, seus servidores persistentes estão reinicializando com frequência, prejudicando os usuários. Normalmente, os servidores reinicializam até três vezes, mas não mais. Ninguém está ciente. Ninguém está tentando identificar por que isso está acontecendo. 

 **Benefícios do estabelecimento desta prática recomendada:** Com a compreensão dos padrões de comportamento da workload, é possível identificar comportamentos inesperados e tomar medidas, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Alertar quando são detectadas anomalias da workload: emita um alerta quando anomalias da workload forem detectadas para que seja possível responder adequadamente, se necessário. 
  +  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas
<a name="ops_workload_health_biz_level_view_workload"></a>

 Crie uma visualização em nível de negócios de suas operações de carga de trabalho para ajudá-lo a determinar se você está satisfazendo estas necessidades e para identificar áreas que precisam de melhorias para atingir as metas de negócios. Valide a eficácia dos KPIs e métricas e revise-os, se necessário. 

 A AWS também é compatível com sistemas de análise de log de terceiros e com ferramentas de inteligência de negócios por meio das APIs e SDKs de serviços da AWS (por exemplo, Grafana, Kibana e Logstash). 

 **Antipadrões comuns:** 
+  O tempo de resposta da página nunca foi considerado um colaborador para a satisfação do cliente. Você nunca estabeleceu uma métrica ou um limite para o tempo de resposta da página. Seus clientes estão reclamando sobre lentidão. 
+  Você não está atingindo seus objetivos mínimos de tempo de resposta. Como um esforço para melhorar o tempo de resposta, você aumentou a escala vertical dos servidores de aplicações. Agora você está excedendo as metas de tempo de resposta por uma margem significativa e também tem uma capacidade significativa não utilizada pela qual está pagando. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao analisar e revisar os KPIs e as métricas, você entende como sua workload oferece suporte à obtenção dos resultados dos negócios e pode identificar onde é necessário melhorar para atingir suas metas de negócios. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Validar a obtenção dos resultados e a eficácia dos KPIs e das métricas: crie uma visão de nível empresarial das operações da workload para ajudá-lo a determinar se você está atendendo às necessidades e a identificar áreas que precisam ser aprimoradas para atingir metas empresariais. Valide a eficácia dos KPIs e métricas e revise-os, se necessário. 
  +  [Uso de painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [O que é análise de log?](https://aws.amazon.com/log-analytics/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Uso de painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [O que é análise de log?](https://aws.amazon.com/log-analytics/) 

# OPS 9  Como você compreende a integridade de suas operações?
<a name="w2aac19b5b9b7"></a>

 Defina, capture e analise as métricas de operações para obter visibilidade dos eventos de operações, para que você possa tomar as ações apropriadas. 

**Topics**
+ [OPS09-BP01 Identificar os indicadores-chave de performance](ops_operations_health_define_ops_kpis.md)
+ [OPS09-BP02 Definir as métricas das operações](ops_operations_health_design_ops_metrics.md)
+ [OPS09-BP03 Coletar e analisar as métricas de operações](ops_operations_health_collect_analyze_ops_metrics.md)
+ [OPS09-BP04 Estabelecer linhas de base das métricas de operações](ops_operations_health_ops_metric_baselines.md)
+ [OPS09-BP05 Aprender os padrões esperados de atividades das operações](ops_operations_health_learn_ops_usage_patterns.md)
+ [OPS09-BP06 Alertar quando os resultados das operações estão em risco](ops_operations_health_ops_outcome_alerts.md)
+ [OPS09-BP07 Alertar quando são detectadas anomalias nas operações](ops_operations_health_ops_anomaly_alerts.md)
+ [OPS09-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas](ops_operations_health_biz_level_view_ops.md)

# OPS09-BP01 Identificar os indicadores-chave de performance
<a name="ops_operations_health_define_ops_kpis"></a>

 Identifique os indicadores-chave de performance (KPIs) com base nos resultados dos negócios desejados (por exemplo, novos recursos entregues) e nos resultados do cliente (por exemplo, casos de suporte ao cliente). Avalie KPIs para determinar o sucesso das operações. 

 **Antipadrões comuns:** 
+  A liderança de negócios pergunta se as operações são bem-sucedidas na realização de metas empresariais, mas não tem um quadro de referência para determinar o sucesso. 
+  Não é possível determinar se as janelas de manutenção têm impacto nos resultados de negócios. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao identificar os indicadores-chave de performance, você permite alcançar resultados de negócios, assim como o teste da integridade e do sucesso das suas operações. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Identificar os indicadores-chave de performance: identifique os indicadores-chave de performance (KPIs) com base nos resultados desejados dos negócios e dos clientes. Avalie KPIs para determinar o sucesso das operações. 

# OPS09-BP02 Definir as métricas das operações
<a name="ops_operations_health_design_ops_metrics"></a>

 Defina métricas de operações para medir a realização de KPIs (por exemplo, implantações com êxito e implantações com falha). Defina métricas de operações para medir a integridade das atividades de operações (por exemplo, tempo médio para detectar um incidente (MTTD) e tempo médio para recuperação (MTTR) de um incidente). Avalie as métricas para determinar se as operações estão alcançando os resultados desejados e para entender a integridade das atividades operacionais. 

 **Antipadrões comuns:** 
+  As métricas de operações são baseadas no que a equipe considera razoável. 
+  Os cálculos de métricas apresentam erros que produzirão resultados incorretos. 
+  Não há nenhuma métrica definida para suas atividades operacionais. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao definir e avaliar métricas de operações, você pode determinar a integridade de suas atividades de operações e medir a obtenção de resultados de negócios. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Definir as métricas das operações: defina as métricas das operações para medir a realização dos KPIs. Defina as métricas de operações para medir a integridade das operações e de suas atividades. Avalie as métricas para determinar se as operações estão alcançando os resultados desejados e para entender a integridade das operações. 
  +  [Publique métricas personalizadas.](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Pesquisa e filtragem de dados de log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [AWS Answers: Centralized Logging (Resposta da AWS: registro em log centralizado)](https://aws.amazon.com/answers/logging/centralized-logging/) 
+  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Identificar e responder a alterações no estado do pipeline com o Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Publicar métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Pesquisa e filtragem de dados de log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Vídeos relacionados:** 
+  Build a monitoring plan 

# OPS09-BP03 Coletar e analisar as métricas de operações
<a name="ops_operations_health_collect_analyze_ops_metrics"></a>

 Faça revisões proativas regulares das métricas para identificar tendências e determine onde as respostas apropriadas são necessárias. 

 Agregue os dados de log da execução de suas atividades de operações e chamadas de API de operações em um serviço como o CloudWatch Logs. Gere métricas a partir de observações do conteúdo de log necessário para obter insights sobre a performance das atividades de operações. 

 Na AWS, você pode [exportar seus dados de log para o Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) ou [enviar logs diretamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) to [Amazon S3](https://aws.amazon.com/s3/) para armazenamento de longo prazo. Com o uso do [AWS Glue](https://aws.amazon.com/glue/), você pode descobrir e preparar seus dados de log no Amazon S3 para análises, armazenando metadados associados no [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), por meio da integração nativa com o AWS Glue, pode ser usado para analisar dados de log, consultando-os com o SQL padrão. Usando uma ferramenta de business intelligence, como o [Quick](https://aws.amazon.com/quicksight/) você pode visualizar, explorar e analisar seus dados. 

 **Antipadrões comuns:** 
+  A entrega consistente de novos recursos é considerada um indicador-chave de performance. Não há um método para medir a frequência com que as implantações ocorrem. 
+  Você registra implantações, implantações revertidas, patches e patches revertidos para rastrear suas atividades operacionais, mas ninguém analisa as métricas. 
+  Você tem um objetivo de tempo de recuperação para restaurar um banco de dados perdido em 15 minutos, que foi definido quando o sistema foi implantado e não tinha usuários. Agora, você tem milhares de usuários e está em operação há dois anos. Uma restauração recente levou mais de duas horas. Isso não foi registrado e ninguém está ciente. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao coletar e analisar as métricas de operações, você entende a integridade das operações e pode obter insights sobre as tendências que podem afetar as operações ou a obtenção dos resultados de negócios. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Coletar e analisar as métricas de operações: execute análises regulares e proativas das métricas para identificar tendências e determinar quando respostas apropriadas são necessárias. 
  +  [Uso de métricas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Coletar métricas e logs das instâncias do Amazon EC2 e de servidores on-premises com o agente do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Referência de métricas e de dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Coletar métricas e logs das instâncias do Amazon EC2 e de servidores on-premises com o agente do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Uso de métricas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS09-BP04 Estabelecer linhas de base das métricas de operações
<a name="ops_operations_health_ops_metric_baselines"></a>

 Estabeleça as linhas de base das métricas para fornecer valores esperados como base para comparação e identificação de atividades operacionais com performance inferior e superior. 

 **Antipadrões comuns:** 
+  Foi perguntado a você qual é o tempo esperado para implantar. Você não mediu o tempo necessário para a implantação e não consegue determinar o tempo esperado. 
+  Foi perguntado a você quanto tempo leva para se recuperar de um problema com os servidores de aplicativos. Você não tem informações sobre o tempo de recuperação a partir do primeiro contato com o cliente. Você não tem informações sobre o tempo de recuperação a partir da primeira identificação de um problema por meio do monitoramento. 
+  Foi perguntado a você quantos funcionários de suporte são necessários durante o fim de semana. Você não tem ideia de quantos casos de suporte são realizados normalmente durante um fim de semana e não pode fornecer uma estimativa. 
+  Você tem um objetivo de tempo de recuperação para restaurar bancos de dados perdidos em 15 minutos, que foi definido quando o sistema foi implantado e não tinha usuários. Agora, você tem milhares de usuários e está em operação há dois anos. Você não tem informações sobre como o tempo de restauração foi alterado para seu banco de dados. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao definir valores de métrica de linha de base, você pode avaliar valores de métrica atuais e tendências de métrica para determinar se a ação é necessária. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Aprender os padrões esperados das atividades da workload: estabeleça os padrões das atividades da workload para determinar quando o comportamento está fora dos valores esperados, para que seja possível responder adequadamente, se necessário. 

# OPS09-BP05 Aprender os padrões esperados de atividades das operações
<a name="ops_operations_health_learn_ops_usage_patterns"></a>

 Estabeleça padrões de atividades de operações para identificar atividades anômalas para poder responder adequadamente, se necessário. 

 **Antipadrões comuns:** 
+  A taxa de falhas de implantação aumentou substancialmente recentemente. Você aborda cada uma das falhas de forma independente. Você não percebe que as falhas correspondem a implantações de um novo funcionário que não está familiarizado com o sistema de gerenciamento de implantação. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao aprender os padrões de comportamento, você pode reconhecer comportamentos inesperados e tomar medidas, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Aprender os padrões esperados das atividades da workload: estabeleça os padrões das atividades da workload para determinar quando o comportamento está fora dos valores esperados, para que seja possível responder adequadamente, se necessário. 

# OPS09-BP06 Alertar quando os resultados das operações estão em risco
<a name="ops_operations_health_ops_outcome_alerts"></a>

 Sempre que os resultados da operação estiverem em risco, um alerta deve ser gerado e acionado. Os resultados das operações são qualquer atividade compatível com uma workload em produção. Isso inclui tudo, desde a implantação de novas versões de aplicações até a recuperação de uma interrupção. Os resultados das operações devem ser tratados com a mesma importância dos resultados empresariais. 

As equipes de software devem identificar as principais métricas e atividades da operação e criar alertas para elas. Os alertas devem ser enviados em tempo hábil e levar a ações concretas. Se um alerta for criado, deverá ser incluída uma referência para um runbook ou manual correspondente. Os alertas sem uma ação correspondente podem levar a um excesso de alertas.

 **Resultado desejado:** quando as atividades das operações estão em risco, são enviados alertas para promover uma ação. Os alertas contêm contexto sobre por que o alerta está sendo criado e indicam um manual para investigação ou um runbook para mitigação. Quando possível, os runbooks são automatizados e as notificações são enviadas. 

 **Antipadrões comuns:** 
+ Você está investigando um incidente e os casos de suporte estão sendo arquivados. Os casos de suporte estão infringindo o Acordo de Serviço (SLA), mas nenhum alerta está sendo criado. 
+ Uma implantação na produção agendada para a meia-noite está atrasada devido a modificações de última hora no código. Nenhum alerta foi criado e a implantação é adiada.
+ Uma interrupção da produção ocorre, mas não é enviado nenhum alerta.
+  O tempo da implantação constantemente não cumpre o tempo estimado. Nenhuma ação é realizada para investigar. 

 **Benefícios de estabelecer esta prática recomendada:** 
+  Alertar quando os resultados das operações estiverem em risco aumenta sua capacidade de comportar sua workload, ao se antecipar aos problemas. 
+  Os resultados empresariais são melhorados devido a resultados operacionais íntegros. 
+  A detecção e correção dos problemas das operações são melhorados. 
+  A integridade operacional geral é melhorada. 

 **Nível de risco exposto se essa prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Os resultados das operações devem ser definidos antes de você poder alertar sobre eles. Comece definindo quais atividades das operações são mais importantes para sua organização. É implantar na produção em menos de duas horas ou responder a um caso de suporte em determinado tempo? Sua organização deve definir as principais atividades de operações e como elas devem ser medidas, para que possam ser monitoradas, aprimoradas e alertadas. Você precisa de um local central em que a telemetria de operações e workload seja armazenada e analisada. O mesmo mecanismo deverá poder criar um alerta quando o resultado de uma operação estiver em risco. 

 **Exemplo de cliente** 

 Um alarme do CloudWatch foi acionado durante uma implantação de rotina na Loja UmaEmpresa. O tempo útil para a implantação foi violado. O Amazon EventBridge criou um OpsItem no AWS Systems Manager OpsCenter. A equipe de operações da nuvem usou um manual para investigar o problema e identificou que uma mudança no esquema estava levando mais tempo do que o esperado. Ela alertou o desenvolvedor de plantão e continuou a monitorar a implantação. Depois que a implantação foi concluída, a equipe de operações da nuvem resolveu o OpsItem. A equipe fará uma análise após a conclusão do incidente. 

## Etapas da implementação
<a name="implementation-steps"></a>

1. Se você não identificou os KPIs, as métricas e as atividades da operação, trabalhe na implementação das práticas recomendadas anteriores a essa questão (de OPS09-BP01 a OPS09-BP05). 
   +  Clientes do Suporte com [Enterprise Support](https://aws.amazon.com/premiumsupport/plans/enterprise/) podem solicitar o [workshop de KPI de operações](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) com seu gerente de conta técnico. Esse workshop colaborativo ajuda a definir os KPIs e as métricas das operações de forma alinhada às metas empresariais, fornecidos sem custo adicional. Entre em contato com seu gerente de conta técnico para saber mais. 

1.  Depois de estabelecer as atividades, os KPIs e as métricas das operações, configure alertas em sua plataforma de observabilidade. Os alertas devem ter uma ação associada a eles, como um manual ou um runbook. Os alertas sem uma ação devem ser evitados. 

1.  Ao longo do tempo, você deve avaliar as métricas, KPIs e atividades das operações a fim de identificar áreas para melhoria. Colete feedback em runbooks e manuais dos operadores visando identificar áreas para melhoria ao responder a alertas. 

1.  Os alertas devem incluir um mecanismo para sinalizá-los como falso positivo. Isso deve levar a uma análise dos limites das métricas. 

 **Nível de esforço do plano de implementação:** médio. Há várias práticas recomendadas que devem ser aplicadas antes de implementar essa prática recomendada. Depois de identificar as atividades e definir os KPIs das operações, estabeleça alertas. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP03 Atividades de operações com proprietários identificados responsáveis pela performance](ops_ops_model_def_activity_owners.md): todas as atividades e os resultados da operação devem ter um proprietário identificado como responsável. Essa é a pessoa que deverá ser alertada quando os resultados estiverem em risco. 
+  [OPS03-BP02 Os membros da equipe estão capacitados para executar ações quando os resultados estão em risco.](ops_org_culture_team_emp_take_action.md): quando os alertas forem criados, sua equipe deverá ter autoridade para atuar a fim de corrigir o problema. 
+  [OPS09-BP01 Identificar os indicadores-chave de performance](ops_operations_health_define_ops_kpis.md): os alertas com relação aos resultados das operações começam com a identificação dos KPIs das operações. 
+  [OPS09-BP02 Definir as métricas das operações](ops_operations_health_design_ops_metrics.md): estabeleça essa prática recomendada antes de começar a gerar alertas. 
+  [OPS09-BP03 Coletar e analisar as métricas de operações](ops_operations_health_collect_analyze_ops_metrics.md): é necessário coletar centralmente as métricas das operações para criar alertas. 
+  [OPS09-BP04 Estabelecer linhas de base das métricas de operações](ops_operations_health_ops_metric_baselines.md): as referências de base das métricas de operações permitem ajustar os alertas e evitar o excesso de alertas. 
+  [OPS09-BP05 Aprender os padrões esperados de atividades das operações](ops_operations_health_learn_ops_usage_patterns.md): é possível melhorar a precisão de seus alertas compreendendo os padrões de atividades dos eventos de operações. 
+  [OPS09-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas](ops_operations_health_biz_level_view_ops.md): avalie o cumprimento dos resultados das operações para garantir a validade dos KPIs e das métricas. 
+  [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md): todos os alertas devem ter um runbook ou manual associado e fornecer contexto para a pessoa que recebe o alerta. 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md): realize uma análise pós-incidente depois do alerta para identificar áreas para melhoria. 

 **Documentos relacionados:** 
+  [AWS Deployment Pipelines Reference Architecture: Application Pipeline Architecture (Arquitetura de referência de pipelines de implantação da AWS: arquitetura de pipeline de aplicação)](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Getting Started with Agile / DevOps Metrics (GitLab conceitos básicos do Agile/métricas de DevOps)](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Vídeos relacionados:** 
+  [Aggregate and Resolve Operational Issues Using AWS Systems Manager OpsCenter (Agregue e resolva problemas operacionais usando o AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrate AWS Systems Manager OpsCenter with Amazon CloudWatch Alarms (Integre o AWS Systems Manager OpsCenter com alarmes do Amazon CloudWatch)](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrate Your Data Sources into AWS Systems Manager OpsCenter Using Amazon EventBridge (Integre suas fontes de dados ao AWS Systems Manager OpsCenter usando o Amazon EventBridge)](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Exemplos relacionados:** 
+  [Automate remediation actions for Amazon EC2 notifications and beyond using Amazon EC2 Systems Manager Automation and AWS Health (Automatize ações de correção para notificações do Amazon EC2 e além usando o Amazon EC2 Systems Manager Automation e o AWS Health)](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS Management and Governance Tools Workshop - Operations 2022 (Workshop de ferramentas de gerenciamento e governança da AWS: Operações de 2022)](https://mng.workshop.aws/operations-2022.html) 
+  [Ingesting, analyzing, and visualizing metrics with DevOps Monitoring Dashboard on AWS (Ingerir, analisar e visualizar métricas com o painel de monitoramento de DevOps na AWS)](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Serviços relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Suporte Proactive Services - Operations KPI Workshop (Serviços proativos do Suporte: workshop de KPI de operações)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [Eventos do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP07 Alertar quando são detectadas anomalias nas operações
<a name="ops_operations_health_ops_anomaly_alerts"></a>

 Emita um alerta quando forem detectadas anomalias de operações para que você possa responder adequadamente, se necessário. 

 Sua análise das métricas de operações ao longo do tempo pode estabelecer padrões de comportamento que você pode quantificar suficientemente para definir um evento ou gerar um alarme em resposta. 

 Uma vez treinado, o recurso [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pode ser usado para [gerar alarmes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) sobre anomalias detectadas ou pode fornecer valores esperados sobrepostos em um [gráfico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) de dados de métricas para comparação contínua. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) pode ser usado para identificar comportamento anômalo por meio da correlação de eventos, da análise do log e da aplicação de machine learning para analisar a telemetria da workload. O [insights](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) obtidos são apresentados com os dados e as recomendações relevantes. 

 **Antipadrões comuns:** 
+  Você está aplicando um patch à sua frota de instâncias. Você testou o patch com êxito no ambiente de teste. O patch está falhando para uma grande porcentagem de instâncias em sua frota. Você não faz nada. 
+  Você percebe que há implantações a partir da sexta-feira no fim do dia. Sua organização tem janelas de manutenção predefinidas às terças e quintas-feiras. Você não faz nada. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao compreender os padrões de comportamento das operações, é possível identificar comportamentos inesperados e tomar medidas, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Alertar quando são detectadas anomalias nas operações: emita um alerta quando forem detectadas anomalias nas operações para poder responder adequadamente, se necessário. 
  +  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Identificar e responder a alterações no estado do pipeline com o Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas
<a name="ops_operations_health_biz_level_view_ops"></a>

 Crie uma visualização em nível de negócios de suas atividades operacionais para ajudá-lo a determinar se você está satisfazendo estas necessidades e para identificar áreas que precisam de melhorias para atingir as metas de negócios. Valide a eficácia dos KPIs e métricas e revise-os, se necessário. 

 A AWS também é compatível com sistemas de análise de log de terceiros e com ferramentas de inteligência de negócios por meio das APIs e SDKs de serviços da AWS (por exemplo, Grafana, Kibana e Logstash). 

 **Antipadrões comuns:** 
+  A frequência das suas implantações aumentou com o crescimento do número de equipes de desenvolvimento. O número esperado definido de implantações é uma vez por semana. Você tem realizado implantações de forma regular e diariamente. Quando há um problema com o sistema de implantação e não é possível realizar as implantações, leva dias para que isso seja detectado. 
+  Antes, quando sua empresa oferecia suporte apenas durante o horário comercial, de segunda a sexta-feira. Você estabeleceu o próximo dia útil como a meta de tempo de resposta para incidentes. Recentemente, você iniciou a oferta de cobertura de suporte 24 horas por dia, 7 dias por semana, com uma meta de tempo de resposta de duas horas. Sua equipe noturna está sobrecarregada e os clientes estão insatisfeitos. Não há indicação de que haja problemas com os tempos de resposta a incidentes porque você está trabalhando com uma meta de próximo dia útil. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao analisar e revisar os KPIs e as métricas, você entende como sua workload oferece suporte à obtenção dos resultados dos negócios e pode identificar onde é necessário melhorar para atingir suas metas de negócios. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Validar a obtenção de resultados e a eficácia dos KPIs e das métricas: crie uma visão de nível empresarial das atividades de operações para ajudá-lo a determinar se você está atendendo às necessidades e a identificar áreas que precisam ser aprimoradas para atingir metas empresariais. Valide a eficácia dos KPIs e métricas e revise-os, se necessário. 
  +  [Uso de painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [O que é análise de log?](https://aws.amazon.com/log-analytics/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Uso de painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [O que é análise de log?](https://aws.amazon.com/log-analytics/) 

# OPS 10  Como você gerencia os eventos de carga de trabalho e operações?
<a name="w2aac19b5b9b9"></a>

 Prepare e valide procedimentos para responder a eventos, com o objetivo de minimizar a interrupção de sua carga de trabalho. 

**Topics**
+ [OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Priorizar eventos operacionais com base no impacto nos negócios](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Definir caminhos para escaladas](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Habilitar notificações por push](ops_event_response_push_notify.md)
+ [OPS10-BP06 Comunicar o status por meio de painéis](ops_event_response_dashboards.md)
+ [OPS10-BP07 Automatizar respostas a eventos](ops_event_response_auto_event_response.md)

# OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas
<a name="ops_event_response_event_incident_problem_process"></a>

Sua organização tem processos para lidar com eventos, incidentes e problemas. *Eventos* são coisas que ocorrem em sua workload que talvez não precisem de intervenção. *Incidentes* são eventos que requerem intervenção. *Problemas* são eventos recorrentes que exigem intervenção ou que não podem ser resolvidos. São necessários processos para reduzir o impacto desses eventos sobre os negócios e garantir respostas adequadas.

Quando incidentes e problemas acontecem em sua workload, você precisa de processos para lidar com eles. Como você vai comunicar o status do evento às partes interessadas? Quem supervisiona e lidera a resposta? Quais são as ferramentas usadas para mitigar o evento? Esses são alguns exemplos de perguntas que você precisa responder para ter um processo de resposta sólido. 

Os processos devem estar documentados em um local central e disponíveis a todos envolvidos com a workload. Se você não tiver uma wiki ou um armazenamento central de documentos, use um repositório de controle de versão. Você vai manter esses planos atualizados à medida que os processos evoluem. 

Problemas são candidatos para automação. Esses eventos consomem o tempo que você poderia usar para inovar. Comece criando um processo repetível para mitigar o problema. Com o tempo, concentre-se na automação da mitigação ou correção do problema subjacente. Isso vai liberar tempo que você poderá dedicar ao desenvolvimento de melhorias para a workload. 

**Resultado desejado:** sua organização tem processos para lidar com eventos, incidentes e problemas. Esses processos são documentados e armazenados em um local central. Eles são atualizados à medida que os processos mudam. 

**Antipadrões comuns:** 
+  Um acidente ocorre durante um final de semana e o engenheiro de plantão não sabe o que fazer. 
+  Um cliente envia um e-mail informando que a aplicação está fora do ar. Você reinicializa o servidor para corrigir. Isso acontece com frequência. 
+  Há um incidente com várias equipes trabalhando de maneira independente para resolvê-lo. 
+  As implantações acontecem na workload sem serem registradas. 

 **Benefícios do estabelecimento desta prática recomendada:** 
+  Você tem uma trilha de auditoria de eventos na workload. 
+  O tempo para se recuperar de um incidente diminui. 
+  Os membros da equipe podem resolver incidentes e problemas de maneira consistente. 
+  Há um esforço mais consolidado na hora de investigar um incidente. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação de implementação
<a name="implementation-guidance"></a>

Implementar essa prática recomendada significa que você está monitorando os eventos da workload. Você tem processos para lidar com incidentes e problemas. Os processos são documentados, compartilhados e atualizados com frequência. Problemas são identificados, priorizados e corrigidos. 

 **Exemplo de cliente** 

A AnyCompany Retail tem uma parte de sua wiki interna dedicada a processos para gerenciamento de eventos, incidentes e problemas. Todos os eventos são enviados para o [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html). Os problemas são identificados como OpsItems no [OpsCenter do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) e priorizados para correção, reduzindo a mão de obra não diferenciada. À medida que os processos mudam, eles são atualizados na wiki interna. Eles usam o [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) para gerenciar incidentes e coordenar os esforços de mitigação. 

## Etapas da implementação
<a name="implementation-steps"></a>

1.  Eventos 
   +  Monitore os eventos que acontecem na workload, mesmo que nenhuma intervenção humana seja necessária. 
   +  Trabalhe com as partes interessadas da workload para desenvolver uma lista de eventos que devem ser monitorados. Alguns exemplos são implantações concluídas ou aplicações de correções bem-sucedidas. 
   +  Você pode usar serviços como [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) ou [Amazon Simple Notification Service](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) para gerar eventos personalizados para monitoramento. 

1.  Incidentes 
   +  Comece definindo o plano de comunicação para incidentes. Quais partes interessadas devem ser informadas? Como você vai mantê-las informadas? Quem supervisiona os esforços de coordenação? Recomendamos a configuração de um canal de bate-papo interno para comunicação e coordenação. 
   +  Defina caminhos de encaminhamento para as equipes que oferecem suporte à workload, principalmente se a equipe não tiver uma rotação de plantão. Com base em seu nível de suporte, você também pode registrar um caso no Suporte. 
   +  Crie um playbook para investigar o incidente. Isso deve incluir o plano de comunicação e etapas de investigação detalhadas. Inclua a verificação do [AWS Health Dashboard](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) na investigação. 
   +  Documente seu plano de resposta a incidentes. Comunique o plano de gerenciamento de incidentes para que clientes internos e externos entendam as regras de engajamento e o que espera-se deles. Treine os membros de sua equipe sobre como usá-lo. 
   +  Os clientes podem usar o [Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) para configurar e gerenciar seu respectivo plano de resposta a incidentes. 
   +  Os clientes Enterprise Support podem solicitar o [Workshop de gerenciamento de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) de seu gerente de conta técnico. Esse workshop guiado testa seu plano de resposta a incidentes e ajuda você a identificar áreas para melhoria. 

1.  Problemas 
   +  Os problemas devem ser identificados e monitorados em seu sistema de ITSM. 
   +  Identifique todos os problemas conhecidos e priorize-os em termos de esforço para corrigir e impacto na workload.   
![\[Matriz de prioridade de ação para priorizar os problemas.\]](http://docs.aws.amazon.com/pt_br/wellarchitected/2022-03-31/framework/images/impact-effort-chart.png)
   +  Resolva problemas de alto impacto e pouco esforço primeiro. Com esses resolvidos, passe para os problemas do quadrante de baixo impacto e pouco esforço. 
   +  Você pode usar o [OpsCenter do Systems Manager](systems-manager/latest/userguide/OpsCenter.html) para identificar esses problemas, anexar runbooks a eles e monitorá-los. 

**Nível de esforço do plano de implementação:** médio. Você precisa de um processo e ferramentas para implementar essa prática recomendada. Documente seus processos e disponibilize-os para todos que estão associados à workload. Atualize-os com frequência. Você tem um processo para gerenciar problemas e mitigá-los ou corrigi-los. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS07-BP03 Usar runbooks para realizar procedimentos](ops_ready_to_support_use_runbooks.md): problemas conhecidos precisam de um runbook associado para que os esforços de mitigação sejam consistentes.
+  [OPS07-BP04 Usar manuais para investigar problemas](ops_ready_to_support_use_playbooks.md): os incidentes precisam ser investigados usando playbooks. 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md): sempre conduza uma autópsia depois de se recuperar de um incidente. 

 **Documentos relacionados:** 
+  [Atlassian: gerenciamento de incidentes na era de DevOps](https://www.atlassian.com/incident-management/devops) 
+  [Guia de resposta a incidentes de segurança da AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Gerenciamento de incidentes na era de DevOps e SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty: o que é gerenciamento de incidentes?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2020: Incident management in a distributed organization (AWS re:Invent 2020: gerenciamento de incidentes em uma organização distribuída)](https://www.youtube.com/watch?v=tyS1YDhMVos) 
+  [AWS re:Invent 2021 - Building next-gen applications with event-driven architectures (AWS re:Invent 2021 - criando aplicações de última geração com arquiteturas orientadas por eventos)](https://www.youtube.com/watch?v=U5GZNt0iMZY) 
+  [AWS Supports You \$1 Exploring the Incident Management Tabletop Exercise (AWS apoia você \$1 Conhecendo a simulação teórica de gerenciamento de incidentes](https://www.youtube.com/watch?v=0m8sGDx-pRM) 
+  [AWS Systems Manager Incident Manager - AWS Virtual Workshops (AWS Systems Manager Incident Manager - workshops virtuais da AWS)](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [AWS What's Next ft. Incident Manager \$1 AWS Events (Próximos passos na AWS com Incident Manager \$1 Eventos da AWS)](https://www.youtube.com/watch?v=uZL-z7cII3k) 

 **Exemplos relacionados:** 
+  [workshop de ferramentas de gerenciamento e governança da AWS - OpsCenter](https://mng.workshop.aws/ssm/capability_hands-on_labs/opscenter.html) 
+  [Serviços proativos da AWS: workshop de gerenciamento de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [Como desenvolver uma aplicação orientada por eventos com o Amazon EventBridge](https://aws.amazon.com/blogs/compute/building-an-event-driven-application-with-amazon-eventbridge/) 
+  [Como desenvolver arquiteturas orientadas por eventos na AWS](https://catalog.us-east-1.prod.workshops.aws/workshops/63320e83-6abc-493d-83d8-f822584fb3cb/en-US/) 

 **Serviços relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) 
+  [AWS Health Dashboard](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 
+  [OpsCenter do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS10-BP02 Ter um processo por alerta
<a name="ops_event_response_process_per_alert"></a>

 Tenha uma resposta bem-definida (runbook ou playbook), com um proprietário especificamente identificado, para qualquer evento para o qual você acione um alerta. Isso garante respostas eficazes e rápidas aos eventos de operações e evita que eventos acionáveis sejam ocultados por notificações menos valiosas. 

 **Antipadrões comuns:** 
+  Seu sistema de monitoramento apresenta um stream de conexões aprovadas junto com outras mensagens. O volume de mensagens é tão grande que você perde mensagens de erro periódicas que exigem sua intervenção. 
+  Você recebe um alerta de que o site está inoperante. Não há um processo definido para quando isso acontece. Você é forçado a adotar uma abordagem ad hoc para diagnosticar e resolver o problema. Desenvolver esse processo conforme o uso estende o tempo para recuperação. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao alertar somente quando uma ação é necessária, você impede que alertas de valor baixo ocultem alertas de valor alto. Ao ter um processo para alertas sempre acionáveis, você permite uma resposta consistente e imediata a eventos em seu ambiente. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Processo por alerta: qualquer evento para o qual você dispara um alerta deve ter uma resposta bem-definida (runbook ou manual) com um proprietário identificado especificamente (por exemplo, indivíduo, equipe ou função) responsável pela execução bem-sucedida. O desempenho da resposta pode ser automatizado ou conduzido por outra equipe, mas o proprietário é responsável por garantir que o processo ofereça os resultados esperados. Ao ter esses processos, você garante respostas eficazes e rápidas aos eventos de operações e pode impedir que eventos acionáveis sejam ocultados por notificações menos valiosas. Por exemplo, o auto scaling pode ser aplicado para dimensionar um front-end da web, mas a equipe de operações pode ser responsável por garantir que as regras e os limites de auto scaling sejam adequados para as necessidades de carga de trabalho. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Recursos do Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Vídeos relacionados:** 
+  [Build a monitoring plan](https://www.youtube.com/watch?v=OMmiGETJpfU) 

# OPS10-BP03 Priorizar eventos operacionais com base no impacto nos negócios
<a name="ops_event_response_prioritize_events"></a>

 Quando vários eventos demandarem intervenção, aborde primeiro os mais significativos para os negócios. Os impactos podem incluir perda de vida ou ferimentos, perda financeira ou danos à reputação ou confiança. 

 **Antipadrões comuns:** 
+  Você recebe uma solicitação de suporte para adicionar uma configuração de impressora para um usuário. Ao trabalhar no problema, você recebe uma solicitação de suporte informando que o site de varejo está inoperante. Depois de concluir a configuração da impressora para o usuário, você começa a trabalhar no problema do site. 
+  Você é notificado de que o site de varejo e o sistema de folha de pagamento estão inoperantes. Você não sabe para qual deve ter prioridade. 

 **Benefícios do estabelecimento desta prática recomendada:** A priorização de respostas aos incidentes com o maior impacto na empresa permite que você gerencie esse impacto. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Priorizar eventos operacionais com base no impacto empresarial: garanta que, quando vários eventos exigirem intervenção, aqueles que forem mais significativos para a empresa sejam abordados primeiro. Os impactos podem incluir perda de vida ou ferimentos, perda financeira, violações regulatórias ou danos à reputação ou à confiança. 

# OPS10-BP04 Definir caminhos para escaladas
<a name="ops_event_response_define_escalation_paths"></a>

 Defina caminhos de escalação em seus runbooks e playbooks, incluindo o que aciona a escalação e os procedimentos para escalação. Identifique especificamente os proprietários de cada ação para garantir respostas eficazes e rápidas aos eventos de operações. 

 Saiba quando é necessária uma decisão humana antes que medidas sejam tomadas. Trabalhe com os tomadores de decisão para que essa decisão seja tomada antecipadamente e a ação seja pré-aprovada, para que a MTTR não seja estendida aguardando uma resposta. 

 **Antipadrões comuns:** 
+  Seu site de varejo está inoperante. Você não compreende o runbook para recuperar o site. Você começa a chamar colegas na expectativa de que alguém possa ajudá-lo. 
+  Você recebe um caso de suporte para um aplicativo inacessível. Você não tem permissões para administrar o sistema. Você não sabe quem tem. Você tenta entrar em contato com o proprietário do sistema que abriu o caso e não há resposta. Você não tem contatos do sistema e seus colegas não estão familiarizados com ele. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao definir escalações, gatilhos para escalação e procedimentos para escalação, você permite a adição sistemática de recursos a um incidente a uma taxa apropriada para o impacto. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Definir caminhos para as escaladas: defina caminhos para as escaladas em seus runbooks e manuais, incluindo que é acionado pela escalada e os respectivos procedimentos. Por exemplo, escalação de um problema de engenheiros de suporte para engenheiros de suporte seniores quando a resolução do problema não estiver nos runbooks ou quando um período de tempo predefinido tiver decorrido. Outro exemplo de um caminho de escalação apropriado é dos engenheiros de suporte sênior à equipe de desenvolvimento para uma carga de trabalho quando os playbooks não conseguem identificar um caminho para a correção ou quando um período de tempo predefinido decorre. Identifique especificamente os proprietários de cada ação para garantir respostas eficazes e rápidas aos eventos de operações. Os escalonamentos podem incluir terceiros. Por exemplo, um provedor de conectividade de rede ou um fornecedor de software. Os escalonamentos podem incluir tomadores de decisão autorizados identificados para sistemas impactados. 

# OPS10-BP05 Habilitar notificações por push
<a name="ops_event_response_push_notify"></a>

 Comunique-se diretamente com seus usuários (e-mail ou SMS, por exemplo) quando os serviços que eles usam são afetados e novamente quando os serviços retornam às condições operacionais normais, para permitir que os usuários tomem as medidas apropriadas. 

 **Antipadrões comuns:** 
+  Sua aplicação está sendo afetada por um incidente de negação de serviço distribuído e não responde há dias. Não há mensagem de erro. Você não enviou um e-mail de notificação. Você não enviou notificações por texto. Você não compartilhou informações nas mídias sociais. Seus clientes estão frustrados e procurando outros fornecedores que possam oferecer suporte a eles. 
+  Na segunda-feira, a aplicação teve problemas após a aplicação de um patch e ficou indisponível por algumas horas. Na terça-feira, a aplicação teve problemas após uma implantação de código e ficou inconfiável por algumas horas. Na quarta-feira, a aplicação teve problemas após uma implantação de código para mitigar uma vulnerabilidade de segurança associada ao patch com falha e ficou indisponível por algumas horas. Na quinta-feira, os frustrados clientes começaram a procurar outro fornecedor que lhes ofertasse suporte. 
+  Seu aplicativo ficará indisponível para manutenção neste fim de semana. Você não informa seus clientes. Alguns de seus clientes tinham atividades programadas que envolviam o uso do seu aplicativo. Eles ficam muito frustrados ao descobrir que seu aplicativo não está disponível. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao definir notificações, gatilhos para notificações e procedimentos para notificações, você permite que o cliente seja informado e responda quando problemas com a carga de trabalho o afetarem. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Habilitar notificações por push: comunique-se diretamente com seus usuários (por e-mail ou por SMS, por exemplo) quando os serviços que eles usam forem afetados e quando os serviços retornarem às condições operacionais normais para permitir que os usuários tomem as medidas apropriadas. 
  +  [Recursos do Amazon SES](https://aws.amazon.com/ses/details/) 
  +  [O que é o Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 
  +  [Configurar as notificações do Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Recursos do Amazon SES](https://aws.amazon.com/ses/details/) 
+  [Configurar as notificações do Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 
+  [O que é o Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 

# OPS10-BP06 Comunicar o status por meio de painéis
<a name="ops_event_response_dashboards"></a>

 Forneça painéis personalizados para seus públicos-alvo (por exemplo, equipes técnicas internas, liderança e clientes) para comunicar o status operacional atual dos negócios e fornecer métricas de interesse. 

 Você pode criar painéis usando o [Painéis do Amazon CloudWatch](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) em páginas de início personalizáveis no console do CloudWatch. Ao usar serviços de inteligência de negócios, como o [Quick](https://aws.amazon.com/quicksight/) , você pode criar e publicar painéis interativos da carga de trabalho e da integridade operacional (por exemplo, taxas de pedidos, usuários conectados e tempos de transação). Crie painéis contendo visualizações em nível de sistema e de negócios de suas métricas. 

 **Antipadrões comuns:** 
+  Mediante solicitação, você executa um relatório sobre a utilização atual da aplicação para a gerência. 
+  Durante um incidente, você é contatado a cada vinte minutos por um proprietário do sistema preocupado, que deseja saber se ele já foi corrigido. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao criar painéis, você permite o acesso por autoatendimento às informações, permitindo que os clientes se informem e determinem se precisam executar ações. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Comunicar o status por meio de painéis: forneça painéis personalizados para seus públicos-alvo (por exemplo, equipes técnicas internas, liderança e clientes) para comunicar o status operacional atual dos negócios e fornecer métricas de interesse. Fornecer uma opção de autoatendimento para informações de status reduz a interrupção das solicitações de status de campo pela equipe de operações. Os exemplos incluem os painéis do Amazon CloudWatch e o AWS Health Dashboard. 
  +  [CloudWatch dashboards create and use customized metrics views (Os painéis do CloudWatch criam e usam visualizações de métricas personalizadas)](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [CloudWatch dashboards create and use customized metrics views (Os painéis do CloudWatch criam e usam visualizações de métricas personalizadas)](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

# OPS10-BP07 Automatizar respostas a eventos
<a name="ops_event_response_auto_event_response"></a>

 Automatize as respostas aos eventos para reduzir erros causados por processos manuais e garantir respostas rápidas e consistentes. 

 Existem várias maneiras de automatizar a execução de ações de runbook e manual na AWS. Para responder a um evento de alteração de estado nos seus recursos da AWS, ou de seus próprios eventos personalizados, você deve criar [regras do CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) para acionar respostas por meio de alvos do CloudWatch (por exemplo, funções do Lambda, tópicos do Amazon Simple Notification Service (Amazon SNS), tarefas do Amazon ECS e automação do AWS Systems Manager). 

 Para responder a uma métrica que ultrapassa um limite para um recurso (por exemplo, tempo de espera), você deve criar [alarmes do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) para executar uma ou mais ações usando as ações do Amazon EC2, as ações do Auto Scaling ou enviar uma notificação para um tópico do Amazon SNS. Se for necessário executar ações personalizadas em resposta a um alarme, chame o Lambda por meio de uma notificação do Amazon SNS. Use o Amazon SNS para publicar notificações de eventos e mensagens de escalação para manter as pessoas informadas. 

 A AWS também é compatível com sistemas de terceiros por meio das APIs e SDKs de serviço da AWS. Existem várias ferramentas de monitoramento fornecidas por parceiros da AWS e por terceiros que permitem monitoramento, notificações e respostas. Algumas dessas ferramentas são New Relic, Splunk, Loggly, SumoLogic e Datadog. 

 Mantenha procedimentos manuais críticos disponíveis para uso quando houver falha em procedimentos automatizados. 

 **Antipadrões comuns:** 
+  Um desenvolvedor verifica seu código. Esse evento poderia ter sido usado para iniciar uma compilação e, em seguida, executar testes, mas, em vez disso, nada acontece. 
+  Sua aplicação registra um erro específico em log antes de parar de funcionar. O procedimento para reiniciar o aplicativo é bem compreendido e pode ter um script. Você pode usar o evento de log para invocar um script e reiniciar o aplicativo. Em vez disso, quando o erro acontece às 3 da manhã de domingo, você é despertado como o recurso de plantão responsável pela correção do sistema. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao usar respostas automatizadas a eventos, você reduz o tempo de resposta e limita a introdução de erros oriundos de atividades manuais. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Automatizar respostas a eventos: automatize respostas a eventos para reduzir erros causados por processos manuais e garantir respostas rápidas e consistentes. 
  +  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Criação de uma regra do CloudWatch Events que aciona um evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
  +  [Criação de uma regra do CloudWatch Events que aciona uma chamada de API da AWS usando o AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
  +  [Exemplos de eventos do CloudWatch Events de serviços compatíveis](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Recursos do Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Exemplos de eventos do CloudWatch Events de serviços compatíveis](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 
+  [Criação de uma regra do CloudWatch Events que aciona uma chamada de API da AWS usando o AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
+  [Criação de uma regra do CloudWatch Events que aciona um evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
+  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Vídeos relacionados:** 
+  [Build a monitoring plan](https://www.youtube.com/watch?v=OMmiGETJpfU) 

 **Exemplos relacionados:**