# OPS 10. Como gerenciar os eventos de workload e operações?
<a name="ops-10"></a>

 Prepare e valide procedimentos para responder a eventos, com o objetivo de minimizar a interrupção de sua workload. 

**Topics**
+ [

# OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Ter um processo por alerta
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Priorizar eventos operacionais com base no impacto nos negócios
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Definir caminhos de escalação
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Definir um plano de comunicação com o cliente para interrupções
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Comunicar o status por meio de painéis
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Automatizar respostas a eventos
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas
<a name="ops_event_response_event_incident_problem_process"></a>

O gerenciamento eficiente de eventos, incidentes e problemas é fundamental para manter a integridade e a performance da workload. É crucial reconhecer e compreender as diferenças entre esses elementos para desenvolver uma estratégia eficaz de resposta e resolução. Estabelecer e seguir um processo bem definido para cada aspecto ajuda sua equipe a lidar de forma rápida e eficaz com qualquer desafio operacional que surgir.

 **Resultado desejado:** sua organização gerencia com eficiência eventos, incidentes e problemas operacionais por meio de processos bem documentados e armazenados de maneira centralizada. Esses processos são atualizados de forma consistente para refletir as mudanças, simplificando o manuseio e mantendo a alta confiabilidade do serviço e a performance da workload. 

 **Práticas comuns que devem ser evitadas:** 
+  Você responde de forma reativa, em vez de proativa, aos eventos. 
+  Abordagens inconsistentes são adotadas para diferentes tipos de eventos ou incidentes. 
+ Sua organização não analisa e nem aprende com os incidentes para evitar futuras ocorrências.

 **Benefícios de implementar esta prática recomendada:** 
+  Processos de resposta simplificados e padronizados. 
+  Impacto reduzido dos incidentes nos serviços e nos clientes. 
+  Resolução rápida de problemas. 
+  Melhoria contínua nos processos operacionais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Implementar essa prática recomendada significa que você está monitorando os eventos da workload. Você tem processos para lidar com incidentes e problemas. Os processos são documentados, compartilhados e atualizados com frequência. Os problemas são identificados, priorizados e corrigidos. 

 **Compreender eventos, incidentes e problemas** 
+  **Eventos:** um *evento* pode ser uma observação de uma ação, ocorrência ou alteração de estado. Os eventos podem ser planejados ou não e podem ter origens internas ou externas à workload. 
+  **Incidentes:** os *incidentes* são eventos que exigem uma resposta, como interrupções não planejadas ou degradações da qualidade do serviço. Eles representam interrupções que precisam de atenção imediata para restaurar a operação normal da workload. 
+  **Problemas:** *problemas* são as causas subjacentes de um ou mais incidentes. Identificar e resolver problemas envolve aprofundar-se nos incidentes para evitar futuras ocorrências. 

### Etapas de implementação
<a name="implementation-steps"></a>

 **Eventos do** 

1.  **Monitorar eventos:** 
   +  [Implemente a observabilidade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) e [utilize a observabilidade da workload](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  As ações de monitoramento tomadas por um usuário, função ou serviço da AWS são registradas como eventos no [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Responda às mudanças operacionais em suas aplicações em tempo real com o [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Avalie, monitore e registre constantemente as alterações na configuração de recursos com o [AWS Config](https://aws.amazon.com/config/). 

1.  **Criar processos:** 
   +  Desenvolva um processo para avaliar quais eventos são importantes e exigem monitoramento. Isso envolve definir limites e parâmetros para atividades normais e anormais. 
   +  Determine os critérios que transformam um evento em um incidente. Isso pode ser baseado na gravidade, no impacto nos usuários ou no desvio do comportamento esperado. 
   +  Analise regularmente os processos de monitoramento e resposta a eventos. Isso inclui analisar incidentes anteriores, ajustar limites e refinar os mecanismos de alerta. 

 **Incidentes** 

1.  **Responder a incidentes:** 
   +  Use insights das ferramentas de observabilidade para identificar e responder rapidamente a incidentes. 
   +  Implemente o [Ops Center do AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) para agregar, organizar e priorizar itens e incidentes operacionais. 
   +  Use serviços como o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) e o [AWS X-Ray](https://aws.amazon.com/xray/) para análises e soluções de problemas mais aprofundadas. 
   +  Considere o [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) para melhorar o gerenciamento de incidentes, aproveitando suas capacidades proativas, preventivas e de detecção. O AMS amplia o suporte operacional com serviços como monitoramento, detecção e resposta a incidentes e gerenciamento de segurança. 
   +  Os clientes Enterprise Support podem usar a [Detecção e Resposta a Incidentes da AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que fornece monitoramento proativo e gerenciamento de incidentes contínuos para workloads de produção. 

1.  **Criar um processo de gerenciamento de incidentes:** 
   +  Estabeleça um processo estruturado de gerenciamento de incidentes, incluindo funções claras, protocolos de comunicação e etapas para resolução. 
   +  Integre o gerenciamento de incidentes a determinadas ferramentas, como o [Amazon Q Developer em aplicações de chat](https://aws.amazon.com/chatbot/), para obter respostas e coordenação eficientes. 
   +  Categorize os incidentes por gravidade, com [planos de resposta a incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) predefinidos para cada categoria. 

1.  **Aprender e melhorar:** 
   +  Conduza [análises pós-incidentes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) para entender as causas-raiz e a eficácia da resolução. 
   +  Atualize e melhore constantemente os planos de resposta com base em análises e práticas em evolução. 
   +  Documente e compartilhe as lições aprendidas entre as equipes para melhorar a resiliência operacional. 
   +  Os clientes Enterprise Support podem solicitar o [workshop Gerenciamento de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) ao respectivo gerente técnico da conta. Esse workshop guiado testa seu plano de resposta a incidentes e ajuda você a identificar áreas para melhoria. 

 **Problemas** 

1.  **Identificar problemas:** 
   +  Use dados de incidentes anteriores para identificar padrões recorrentes que possam indicar problemas sistêmicos mais profundos. 
   +  Utilize ferramentas como o [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) e o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para analisar tendências e descobrir problemas subjacentes. 
   +  Envolva equipes multifuncionais, incluindo operações, desenvolvimento e unidades de negócios, para obter perspectivas diversas sobre as causas principais dos problemas. 

1.  **Criar um processo de gerenciamento de problemas:** 
   +  Desenvolva um processo estruturado para gerenciamento de problemas com foco em soluções de longo prazo em vez de soluções rápidas. 
   +  Incorpore técnicas de análise das causas-raiz (RCA) para investigar e compreender as causas subjacentes dos incidentes. 
   +  Atualize políticas, procedimentos e infraestrutura operacionais com base nas descobertas para evitar recorrência. 

1.  **Continuar melhorando:** 
   +  Promova uma cultura de aprendizado e aprimoramento constantes, incentivando as equipes a identificar e resolver possíveis problemas de forma proativa. 
   +  Analise e revise regularmente os processos e ferramentas de gerenciamento de problemas para se alinhar aos cenários de negócios e tecnologia em evolução. 
   +  Compartilhe insights e práticas recomendadas em toda a organização para criar um ambiente operacional mais resiliente e eficiente. 

1.  **Envolver o AWS Support:** 
   +  Use os recursos de suporte da AWS, como o [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), para receber orientação proativa e recomendações de otimização. 
   +  Os clientes Enterprise Support podem acessar programas especializados, como o [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/), para obter suporte durante eventos críticos. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Usar runbooks para realizar procedimentos](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Usar playbooks para investigar problemas](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+  [Guia de resposta a incidentes de segurança da AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Detecção e resposta a incidentes da AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [Framework de adoção da Nuvem AWS: perspectiva de operações: gerenciamento de incidentes e problemas](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Gerenciamento de incidentes na era de DevOps e SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty: o que é gerenciamento de incidentes?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vídeos relacionados:** 
+ [As principais dicas de resposta a incidentes da AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022: Amazon Builders' Library: 25 anos de excelência operacional da Amazon](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022: Detecção e resposta a incidentes na AWS (SUP201)](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Introdução ao AWS Systems Manager Incident Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Exemplos relacionados:** 
+  [Serviços proativos da AWS](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives): workshop de gerenciamento de incidentes 
+ [Como automatizar a resposta a incidentes com o PagerDuty e o AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Engajar os respondedores de incicentes com escalas de plantão na AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Melhorar a visibilidade e a colaboração durante o tratamento de incidentes na AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Relatórios de incidentes e solicitações de serviço no AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Serviços relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Ter um processo por alerta
<a name="ops_event_response_process_per_alert"></a>

 Estabelecer um processo claro e definido para cada alerta em seu sistema é essencial para um gerenciamento eficaz e eficiente de incidentes. Essa prática garante que cada alerta leve a uma resposta específica e acionável, melhorando a confiabilidade e a capacidade de resposta de suas operações. 

 **Resultado desejado:** cada alerta inicia um plano de resposta específico e bem definido. Sempre que possível, as respostas são automatizadas, com propriedade clara e um caminho de escalação definido. Os alertas estão vinculados a uma base de conhecimento atualizada para que qualquer operador possa responder de forma consistente e eficaz. As respostas são rápidas e uniformes em todos os setores, aumentando a eficiência e a confiabilidade operacionais. 

 **Práticas comuns que devem ser evitadas:** 
+  Os alertas não têm um processo de resposta predefinido, o que leva a resoluções improvisadas e atrasadas. 
+  A sobrecarga de alertas faz com que alertas importantes sejam ignorados. 
+  Os alertas são tratados de forma inconsistente devido à falta de propriedade e responsabilidade claras. 

 **Benefícios de implementar esta prática recomendada:** 
+  Redução da fadiga dos alertas ao gerar apenas alertas acionáveis. 
+  Diminuição do tempo médio de resolução (MTTR) para problemas operacionais. 
+  Diminuição do tempo médio de investigação (MTTI), o que ajuda a reduzir o MTTR. 
+  Capacidade aprimorada para escalar respostas operacionais. 
+  Consistência e confiabilidade aprimoradas no tratamento de eventos operacionais. 

 Por exemplo, você tem um processo definido para eventos do AWS Health para contas essenciais, incluindo alarmes de aplicação, problemas operacionais e eventos planejados do ciclo de vida (como atualização das versões do Amazon EKS antes que os clusters sejam atualizados automaticamente), e você permite que as equipem monitorem ativamente, comuniquem e responderam a esses eventos. Essas ações ajudam a evitar interrupções no serviço causadas por alterações do lado da AWS ou a mitigá-las mais rapidamente quando ocorrem problemas inesperados. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Ter um processo por alerta envolve estabelecer um plano de resposta claro para cada alerta, automatizar as respostas sempre que possível e refinar constantemente esses processos com base no feedback operacional e nos requisitos em evolução. 

### Etapas de implementação
<a name="implementation-steps"></a>

 O seguinte diagrama ilustra o fluxo de trabalho de gerenciamento de incidentes dentro do [AWS Systems Manager Incident Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Ele foi projetado para responder rapidamente a problemas operacionais, criando automaticamente incidentes em resposta a eventos específicos do [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) ou [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Quando um incidente é criado, automática ou manualmente, o Incident Manager centraliza o gerenciamento do incidente, organiza as informações relevantes dos recursos da AWS e inicia planos de resposta predefinidos. Isso inclui executar runbooks de automação do Systems Manager Automation para ação imediata, bem como criar um item de trabalho operacional principal no OpsCenter para rastrear tarefas e análises relacionadas. Esse processo simplificado acelera e coordena a resposta a incidentes em todo o seu ambiente da AWS. 

![\[Fluxograma que descreve como o Incident Manager funciona: o Amazon Q Developer em aplicações de chat, os planos e contatos de encaminhamento e os runbooks fluem para os planos de resposta, que, por sua vez, fluem para incidentes e análises. O Amazon CloudWatch também flui para planos de resposta.\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


1.  **Use alarmes compostos:** crie [alarmes compostos](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) no CloudWatch para agrupar alarmes relacionados, reduzindo o ruído e permitindo respostas mais significativas. 

1.  **Mantenha-se a par do [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html):** o AWS Health é a fonte de informações confiável sobre a integridade dos seus recursos da Nuvem AWS. Use o AWS Health para visualizar e obter notificações sobre quaisquer eventos de serviço atuais e alterações futuras, como eventos planejados de ciclo de vida, a fim de que possa tomar medidas para mitigar os impactos. 

   1.  [Crie notificações de eventos do AWS Health ajustados à finalidade](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) para canais de e-mail e chat por meio do [Notificações de Usuários da AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e integre-as programaticamente às [suas ferramentas de monitoramento e alerta por meio do Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou da [API do AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Para planejar e acompanhar o progresso de eventos de integridade que exijam ações, utilize o Amazon EventBridge ou a API do AWS Health para fazer a integração com ferramentas de gerenciamento de alterações ou de ITSM que você já esteja usando (como [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) ou [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)). 

   1.  Se você usar o AWS Organizations, habilite a [visualização da organização para o AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) a fim de agregar eventos do AWS Health em todas as contas. 

1.  **Integre os alarmes do Amazon CloudWatch ao Incident Manager:** configure os alarmes do CloudWatch para criar automaticamente incidentes no [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integre o Amazon EventBridge ao Incident Manager:** crie [regras do EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) para reagir a eventos e criar incidentes usando planos de resposta definidos. 

1.  **Prepare-se para incidentes no Incident Manager:** 
   +  Estabeleça [planos de resposta](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) detalhados no Incident Manager para cada tipo de alerta. 
   +  Estabeleça canais de chat por meio do [Amazon Q Developer em aplicações de chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) conectado a planos de resposta no Incident Manager para facilitar a comunicação em tempo real durante incidentes em plataformas como Slack, Microsoft Teams e Amazon Chime. 
   +  Incorpore os [runbooks do Systems Manager Automation](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) no Incident Manager para gerar respostas automatizadas aos incidentes. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md) 

 **Documentos relacionados:** 
+ [Framework de adoção da Nuvem AWS: perspectiva de operações: gerenciamento de incidentes e problemas](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Usar alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [Configurar o AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [Como se preparar para incidentes no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Vídeos relacionados:** 
+ [As principais dicas de resposta a incidentes da AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Exemplos relacionados:** 
+ [Workshops da AWS: AWS Systems Manager Incident Manager – Automatizar a resposta a incidentes em eventos de segurança](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Priorizar eventos operacionais com base no impacto nos negócios
<a name="ops_event_response_prioritize_events"></a>

 Responder prontamente aos eventos operacionais é fundamental, mas nem todos os eventos são iguais. Ao priorizar com base no impacto nos negócios, você também prioriza o tratamento de eventos com o potencial de graves consequências, como segurança, perdas financeiras, violações regulatórias ou danos à reputação. 

 **Resultado desejado:** as respostas aos eventos operacionais são priorizadas com base no possível impacto nas operações e nos objetivos de negócios. Isso torna as respostas eficientes e eficazes. 

 **Práticas comuns que devem ser evitadas:** 
+  Cada evento é tratado com o mesmo nível de urgência, causando confusão e atrasos na resolução de problemas críticos. 
+  Você não consegue distinguir entre eventos de alto e baixo impacto, o que leva à má alocação de recursos. 
+  Sua organização carece de uma estrutura de priorização clara, o que acarreta em respostas inconsistentes aos eventos operacionais. 
+  Os eventos são priorizados com base na ordem em que são relatados, e não em seu impacto nos resultados de negócios. 

 **Benefícios de implementar esta prática recomendada:** 
+  Garante que as funções críticas da empresa recebam atenção em primeiro lugar, minimizando possíveis danos. 
+  Melhora a alocação de recursos durante vários eventos simultâneos. 
+  Melhora a capacidade da organização de manter a confiança e atender aos requisitos regulatórios. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Em se tratando de vários eventos operacionais, uma abordagem estruturada de priorização com base no impacto e na urgência é essencial. Essa abordagem ajuda você a tomar decisões embasadas, direcionar esforços para onde eles são mais necessários e reduzir o risco à continuidade dos negócios. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Avalie o impacto:** desenvolva um sistema de classificação para avaliar a gravidade dos eventos em termos de possível impacto nas operações e nos objetivos de negócios. O seguinte exemplo mostra as categorias de impacto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Avalie a urgência:** defina os níveis de urgência da rapidez com que um evento precisa de uma resposta, considerando fatores como segurança, implicações financeiras e acordos de serviço (SLAs). O seguinte exemplo demonstra as categorias de urgência:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Crie uma matriz de priorização:** 
   +  Use uma matriz para fazer a referência cruzada das informações sobre impacto e urgência, atribuindo níveis de prioridade a diferentes combinações. 
   +  Torne a matriz acessível e capaz de ser compreendida por todos os membros da equipe responsáveis pelas respostas aos eventos operacionais. 
   +  O seguinte exemplo de matriz exibe a gravidade do incidente de acordo com a urgência e o impacto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Treine e comunique:** treine as equipes de resposta sobre a matriz de priorização e a importância de segui-la durante um evento. Comunique o processo de priorização a todas as partes interessadas para definir expectativas claras. 

1.  **Integre à resposta a incidentes:** 
   +  Incorpore a matriz de priorização em seus planos e ferramentas de resposta a incidentes. 
   +  Automatize a classificação e a priorização de eventos sempre que possível para acelerar os tempos de resposta. 
   +  Os clientes Enterprise Support podem usar a [Detecção e Resposta a Incidentes da AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que fornece monitoramento proativo e gerenciamento de incidentes contínuos para workloads de produção. 

1.  **Revise e adapte:** analise regularmente a eficácia do processo de priorização e faça ajustes com base no feedback e nas mudanças no ambiente de negócios. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS03-BP03 Incentivo à escalação](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Medir metas operacionais e KPIs com métricas](ops_operations_health_measure_ops_goals_kpis.md) 

 **Documentos relacionados:** 
+ [Atlassian: como entender os níveis de severidade dos incidentes](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [Mapa de processos de TI: prioridade de incidentes na lista de verificação](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Definir caminhos de escalação
<a name="ops_event_response_define_escalation_paths"></a>

Estabeleça caminhos claros de escalação em seus protocolos de resposta a incidentes para facilitar ações rápidas e eficazes. Isso inclui especificar solicitações de escalação, detalhar o processo de escalação e pré-aprovar ações para agilizar a tomada de decisões e reduzir o tempo médio de resolução (MTTR).

 **Resultado desejado:** um processo estruturado e eficiente que encaminha os incidentes para a equipe apropriada, minimizando os tempos de resposta e o impacto. 

 **Práticas comuns que devem ser evitadas:** 
+ A falta de clareza sobre os procedimentos de recuperação leva a respostas improvisadas durante incidentes críticos.
+ A ausência de permissões e propriedade definidas ocasiona atrasos quando uma ação urgente é necessária.
+  As partes interessadas e os clientes não são informados de acordo com as expectativas. 
+  Decisões importantes estão atrasadas. 

 **Benefícios de implementar esta prática recomendada:** 
+  Resposta simplificada a incidentes por meio de procedimentos de escalação predefinidos. 
+  Tempo de inatividade reduzido com ações pré-aprovadas e propriedade clara. 
+  Melhor alocação de recursos e ajustes no nível de suporte de acordo com a gravidade do incidente. 
+  Comunicação aprimorada com as partes interessadas e os clientes. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Caminhos de escalação definidos adequadamente são cruciais para uma resposta rápida a incidentes. O AWS Systems Manager Incident Manager oferece suporte à configuração de planos de escalação estruturada e agendamentos de plantão, que alertam a equipe certa para que ela esteja pronta para agir quando ocorrerem incidentes. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Configure solicitações de escalação:** configure os [alarmes do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) para criar um incidente no [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  **Configure escalas de plantão:** crie [escalas de plantão](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) no Incident Manager que se alinhem aos seus caminhos de escalação. Equipe o pessoal de plantão com as permissões e ferramentas necessárias para agir rapidamente. 

1.  **Detalhe os procedimentos detalhados de escalação:** 
   +  Determine as condições específicas sob as quais um incidente deve ser escalado. 
   +  Crie [planos de escalação](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) no Incident Manager. 
   +  Os canais de escalação devem consistir em um contato ou em uma escala de plantão. 
   +  Defina as funções e responsabilidades da equipe em cada nível de escalação. 

1.  **Aprove previamente as ações de mitigação:** colabore com os tomadores de decisão para pré-aprovar ações para cenários previstos. Use [runbooks do Systems Manager Automation](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) integrados ao Incident Manager para acelerar a resolução de incidentes. 

1.  **Especifique a propriedade:** identifique claramente os proprietários internos de cada etapa do caminho de escalação. 

1.  **Detalhe as escalações de terceiros:** 
   +  Documente os acordos de serviço (SLAs) de terceiros e alinhe-os às metas internas. 
   +  Defina protocolos claros para a comunicação com o fornecedor durante incidentes. 
   +  Integre os contatos do fornecedor às ferramentas de gerenciamento de incidentes para acesso direto. 
   +  Realize exercícios regulares que incluam cenários de resposta de terceiros. 
   +  Mantenha as informações de escalação de fornecedores bem documentadas e facilmente acessíveis. 

1.  **Treine e ensaie os planos de escalação:** treine sua equipe no processo de escalação e realize exercícios regulares de resposta a incidentes ou encenações. Os clientes Enterprise Support podem solicitar um [workshop sobre gerenciamento de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/). 

1.  **Continue a aprimorar:** analise com frequência a eficácia de seus caminhos de escalação. Atualize seus processos com base nas lições aprendidas com os post-mortems de incidentes e com o feedback contínuo. 

 **Nível de esforço do plano de implementação:** Moderado 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+ [Planos de escalação da AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [Como trabalhar com escalas de plantão no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [Criar e gerenciar runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [Gerenciamento de acesso elevado temporário com o Centro de Identidade do AWS IAM](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [Atlassian: políticas de escalação para o gerenciamento efetivo de incidentes](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Definir um plano de comunicação com o cliente para interrupções
<a name="ops_event_response_push_notify"></a>

 A comunicação eficaz durante interrupções é fundamental para manter a confiança e a transparência com os clientes. Um plano de comunicação bem definido ajuda sua organização a compartilhar informações de forma rápida e clara, interna e externamente, durante incidentes. 

 **Resultado desejado:** 
+  Um plano de comunicação robusto que informa de maneira eficaz os clientes e as partes interessadas sobre interrupções. 
+  Transparência na comunicação para criar confiança e reduzir a ansiedade do cliente. 
+  Minimiza o impacto das interrupções na experiência do cliente e nas operações comerciais. 

 **Práticas comuns que devem ser evitadas:** 
+  A comunicação inadequada ou atrasada leva à confusão e insatisfação do cliente. 
+  Mensagens excessivamente técnicas ou vagas não transmitem o impacto real sobre os usuários. 
+  Não há uma estratégia de comunicação predefinida, resultando em mensagens inconsistentes e reativas. 

 **Benefícios de implementar esta prática recomendada:** 
+  Maior confiança e satisfação do cliente por meio de uma comunicação proativa e clara. 
+  Redução da carga depositada sobre as equipes de suporte ao abordar de maneira preventiva as preocupações dos clientes. 
+  Gerenciamento e recuperação mais eficazes depois de incidentes. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 A criação de um plano de comunicação abrangente para interrupções envolve vários aspectos, desde a escolha dos canais certos até a elaboração da mensagem e do tom. O plano deve tanto ser adaptável e escalável quanto atender a diferentes cenários de interrupção. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Defina perfis e responsabilidades:** 
   +  Atribua um gerente de incidentes principal para supervisionar as atividades de resposta a incidentes. 
   +  Atribua um gerente de comunicações responsável por coordenar todas as comunicações externas e internas. 
   +  Inclua o gerente de suporte para fornecer comunicação consistente por meio de tíquetes de suporte. 

1.  **Identifique os canais de comunicação:** selecione canais como chat interno, e-mail, SMS, redes sociais, notificações na aplicação e páginas de status. Esses canais devem ser resilientes e funcionar de forma independente durante interrupções. 

1.  **Comunique-se com os clientes de forma rápida, clara e frequente:** 
   +  Desenvolva modelos para vários cenários de comprometimento do serviço, enfatizando a simplicidade e os detalhes essenciais. Inclua informações sobre a deficiência do serviço, o tempo esperado de resolução e o impacto. 
   +  Use o Amazon Pinpoint para alertar os clientes usando notificações push, notificações na aplicação, e-mails, mensagens de texto, mensagens de voz e mensagens em canais personalizados. 
   +  Use o Amazon Simple Notiﬁcation Service (Amazon SNS) para alertar os assinantes programaticamente ou por e-mail, notificações push em telefones celulares e mensagens de texto. 
   +  Comunique o status por meio de um painel público do Amazon CloudWatch. 
   +  Incentive o engajamento nas redes sociais: 
     +  Monitore ativamente as redes sociais para entender a percepção do cliente. 
     +  Publique em plataformas de rede social para fazer atualizações públicas e engajar a comunidade. 
     +  Prepare modelos para uma comunicação consistente e clara nas redes sociais. 

1.  **Coordene a comunicação interna:** implemente protocolos internos usando determinadas ferramentas, como o Amazon Q Developer em aplicações de chat, para coordenação e comunicação de equipes. Use os painéis do CloudWatch para comunicar o status. 

1.  **Organize a comunicação com ferramentas e serviços dedicados:** 
   +  Use o AWS Systems Manager Incident Manager com o Amazon Q Developer em aplicações de chat para configurar canais de chat exclusivos para comunicação e coordenação internas em tempo real durante incidentes. 
   +  Use os runbooks do AWS Systems Manager Incident Manager para automatizar as notificações enviadas aos clientes por meio do Amazon Pinpoint, do Amazon SNS ou de ferramentas de terceiros, como plataformas de rede social, durante incidentes. 
   +  Incorpore fluxos de trabalho de aprovação nos runbooks para, opcionalmente, revisar e autorizar todas as comunicações externas antes do envio. 

1.  **Pratique e melhore:** 
   +  Realize treinamentos sobre o uso de ferramentas e estratégias de comunicação. Capacite as equipes a tomar decisões rápidas durante incidentes. 
   +  Teste o plano de comunicação por meio de exercícios ou game days frequentes. Use esses testes para refinar as mensagens e avaliar a eficácia dos canais. 
   +  Implemente mecanismos de feedback para avaliar a eficácia da comunicação durante incidentes. Continue desenvolvendo o plano de comunicação com base no feedback e nas mudanças necessárias. 

 **Nível de esforço do plano de implementação:** Alto 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS07-BP03 Usar runbooks para realizar procedimentos](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Comunicar o status por meio de painéis](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+ [Atlassian: práticas recomendadas de comunicação de incidentes](https://www.atlassian.com/incident-management/incident-communication)
+ [Atlassian: como redigir uma boa atualização de status](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [PagerDuty: um guia para a comunicação de incidentes](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Vídeos relacionados:** 
+ [Atlassian: criar seu próprio plano de comunicação de incidentes: modelos de incidentes](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Exemplos relacionados:** 
+  [Painel do AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Comunicar o status por meio de painéis
<a name="ops_event_response_dashboards"></a>

 Use painéis como uma ferramenta estratégica para transmitir o status operacional em tempo real e as principais métricas para diferentes públicos, incluindo equipes técnicas internas, liderança e clientes. Esses painéis oferecem uma representação visual centralizada da integridade do sistema e da performance dos negócios, aumentando a transparência e a eficiência na tomada de decisões. 

 **Resultado desejado:** 
+  Os painéis fornecem uma visão abrangente do sistema e das métricas comerciais relevantes para diferentes partes interessadas. 
+  As partes interessadas podem acessar as informações operacionais de forma proativa, reduzindo a necessidade de solicitações frequentes de status. 
+  A tomada de decisões em tempo real é aprimorada durante operações e incidentes normais. 

 **Práticas comuns que devem ser evitadas:** 
+ Os engenheiros que participam de uma chamada de gerenciamento de incidentes precisam de atualizações de status para se atualizarem.
+ Confiar em relatórios manuais para gerenciamento, o que leva a atrasos e possíveis imprecisões.
+  As equipes de operações são frequentemente interrompidas para atualizações de status durante incidentes. 

 **Benefícios de implementar esta prática recomendada:** 
+  Capacita as partes interessadas com acesso imediato a informações críticas, promovendo a tomada de decisões embasada. 
+  Reduz as ineficiências operacionais minimizando os relatórios manuais e as frequentes consultas de status. 
+  Aumenta a transparência e a confiança por meio da visibilidade em tempo real da performance do sistema e das métricas de negócios. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Os painéis comunicam com eficácia o status do sistema e métricas de negócios e podem ser adaptados às necessidades de diferentes grupos de público. Ferramentas como os painéis do Amazon CloudWatch e o Amazon Quick ajudam a criar painéis interativos em tempo real para monitoramento de sistemas e business intelligence. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Identifique as necessidades das partes interessadas:** determine as necessidades específicas de informações de diferentes grupos de público, como equipes técnicas, liderança e clientes. 

1.  **Escolha as ferramentas certas:** selecione as ferramentas apropriadas, como os [painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html), para monitoramento do sistema, e o [Amazon Quick](https://aws.amazon.com/quicksight/) para business intelligence interativo. O [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) oferece uma experiência pronta para uso no [AWS Health Dashboard](https://health.aws.amazon.com/health/home), ou você pode usar eventos de integridade no Amazon EventBridge ou por meio da API do AWS Health para aprimorar seus próprios painéis. 

1.  **Crie painéis eficazes:** 
   +  Crie painéis para apresentar claramente métricas e KPIs relevantes, garantindo que sejam compreensíveis e acionáveis. 
   +  Incorpore visualizações em nível de sistema e de negócios, conforme necessário. 
   +  Inclua painéis de alto nível (para visões gerais amplas) e de baixo nível (para análises detalhadas). 
   +  Integre alarmes automatizados em painéis para destacar problemas críticos. 
   +  Anote painéis com métricas, limites e metas importantes para visibilidade imediata. 

1.  **Integre fontes de dados:** 
   +  Use o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para agregar e exibir métricas de vários serviços da AWS e [consultar métricas de outras fontes de dados](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), criando uma visão unificada das métricas comerciais e de integridade do seu sistema. 
   +  Use recursos como o [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para consultar e visualizar dados de log de diferentes aplicações e serviços. 
   +  Use eventos do AWS Health para se manter a par do status operacional e dos problemas operacionais confirmados dos serviços da AWS por meio da API do [AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) ou de [eventos do AWS Health no Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Forneça acesso por autoatendimento:** 
   +  Compartilhe os painéis do CloudWatch com partes interessadas relevantes para acessar informações por autoatendimento usando [recursos de compartilhamento de painéis](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Garanta que os painéis sejam facilmente acessíveis e forneçam informações atualizadas e em tempo real. 

1.  **Atualize e refine com frequência:** 
   +  Atualize e refine constantemente os painéis para se alinharem às necessidades comerciais em evolução e ao feedback das partes interessadas. 
   +  Analise com frequência os painéis para mantê-los relevantes e eficazes a fim de transmitir as informações necessárias. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP05 Criar painéis](ops_workload_observability_create_dashboards.md) 

 **Documentos relacionados:** 
+ [ Criar painéis para visibilidade operacional ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Usar painéis do Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Criar painéis flexíveis com variáveis de painel ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Compartilhar painéis do CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Métricas de consulta de outras fontes de dados ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Adicionar um widget personalizado a um painel do CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Exemplos relacionados:** 
+ [ Workshop One Observability: painéis ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatizar respostas a eventos
<a name="ops_event_response_auto_event_response"></a>

 Automatizar as respostas a eventos é essencial para operações rápidas, consistentes e sem erros. Crie processos simplificados e use ferramentas para gerenciar e responder automaticamente aos eventos, minimizando as intervenções manuais e aprimorando a eficácia operacional. 

 **Resultado desejado:** 
+  Redução de erros humanos e tempos de resolução mais rápidos por meio de automação. 
+  Tratamento de eventos operacionais consistente e confiável. 
+  Eficiência operacional e confiabilidade do sistema aprimoradas. 

 **Práticas comuns que devem ser evitadas:** 
+ O tratamento manual de eventos leva a atrasos e erros.
+ A automação é negligenciada em tarefas críticas e repetitivas.
+  Tarefas manuais repetitivas levam à fadiga de alertas e à negligência de problemas críticos. 

 **Benefícios de implementar esta prática recomendada:** 
+  Aceleração das respostas aos eventos, reduzindo o tempo de inatividade do sistema. 
+  Operações confiáveis com tratamento automatizado e consistente de eventos. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Incorpore a automação para criar fluxos de trabalho operacionais eficientes e minimizar as intervenções manuais. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Identifique oportunidades de automação:** determine tarefas repetitivas a serem automatizadas, como correção de problemas, ampliação de tíquetes, gerenciamento de capacidade, ajuste de escala, implantações e testes. 

1.  **Identifique prompts de automação:** 
   +  Avalie e defina condições ou métricas específicas que iniciam respostas automatizadas usando [ações de alarme do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Use o [Amazon EventBridge](https://aws.amazon.com/eventbridge/) para responder a eventos em serviços da AWS, workloads personalizadas e aplicações SaaS. 
   +  Considere eventos de iniciação, como [entradas de log específicas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [limites de métricas de performance](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) ou [mudanças de estado](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) em recursos da AWS. 

1.  **Implemente a automação orientada por eventos:** 
   +  Use os runbooks de automação do AWS Systems Manager para simplificar as tarefas de manutenção, implantação e correção. 
   +  A [criação de incidentes no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) reúne e adiciona automaticamente detalhes sobre os recursos da AWS envolvidos no incidente. 
   +  Monitore proativamente as cotas usando o [Quota Monitor para AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Ajuste automaticamente a capacidade do [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) para manter a disponibilidade e a performance. 
   +  Automatize os pipelines de desenvolvimento com o [Amazon CodeCatalyst](https://codecatalyst.aws/explore). 
   +  Faça um teste preliminar ou monitore continuamente endpoints e APIs [usando monitoramento sintético](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). 

1.  **Faça a mitigação de riscos por meio de automação:** 
   +  Implemente [respostas de segurança automatizadas](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) para lidar rapidamente com os riscos. 
   +  Use o [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) para reduzir desvios de configuração. 
   +  [Corrija os recursos não compatíveis automaticamente com o Regras do AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 

 **Nível de esforço do plano de implementação:** Alto 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md) 

 **Documentos relacionados:** 
+  [Usar runbooks do Systems Manager Automation com o Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Criar incidentes no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [Cotas de serviço da AWS](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Monitorar o uso de recursos e enviar notificações ao se aproximar das cotas](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [O que é o Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Usar alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Usar ações de alarmes no Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Corrigir recursos fora de conformidade com o Regras do AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Criar métricas de eventos de log usando filtros](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Vídeos relacionados:** 
+ [Criar runbooks de automação com o AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [Como automatizar operações de TI na AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [Regras de automação do AWS Security Hub CSPM](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Como começar seu projeto rapidamente com esquemas do Amazon CodeCatalyst](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Exemplos relacionados:** 
+ [Tutorial do Amazon CodeCatalyst: Criar um projeto com o esquema de aplicação Web de três níveis moderna](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [Workshop One Observability](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [Responder a incidentes usando o Incident Manager](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)