# OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas
<a name="ops_event_response_event_incident_problem_process"></a>

O gerenciamento eficiente de eventos, incidentes e problemas é fundamental para manter a integridade e a performance da workload. É crucial reconhecer e compreender as diferenças entre esses elementos para desenvolver uma estratégia eficaz de resposta e resolução. Estabelecer e seguir um processo bem definido para cada aspecto ajuda sua equipe a lidar de forma rápida e eficaz com qualquer desafio operacional que surgir.

 **Resultado desejado:** sua organização gerencia com eficiência eventos, incidentes e problemas operacionais por meio de processos bem documentados e armazenados de maneira centralizada. Esses processos são atualizados de forma consistente para refletir as mudanças, simplificando o manuseio e mantendo a alta confiabilidade do serviço e a performance da workload. 

 **Práticas comuns que devem ser evitadas:** 
+  Você responde de forma reativa, em vez de proativa, aos eventos. 
+  Abordagens inconsistentes são adotadas para diferentes tipos de eventos ou incidentes. 
+ Sua organização não analisa e nem aprende com os incidentes para evitar futuras ocorrências.

 **Benefícios de implementar esta prática recomendada:** 
+  Processos de resposta simplificados e padronizados. 
+  Impacto reduzido dos incidentes nos serviços e nos clientes. 
+  Resolução rápida de problemas. 
+  Melhoria contínua nos processos operacionais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Implementar essa prática recomendada significa que você está monitorando os eventos da workload. Você tem processos para lidar com incidentes e problemas. Os processos são documentados, compartilhados e atualizados com frequência. Os problemas são identificados, priorizados e corrigidos. 

 **Compreender eventos, incidentes e problemas** 
+  **Eventos:** um *evento* pode ser uma observação de uma ação, ocorrência ou alteração de estado. Os eventos podem ser planejados ou não e podem ter origens internas ou externas à workload. 
+  **Incidentes:** os *incidentes* são eventos que exigem uma resposta, como interrupções não planejadas ou degradações da qualidade do serviço. Eles representam interrupções que precisam de atenção imediata para restaurar a operação normal da workload. 
+  **Problemas:** *problemas* são as causas subjacentes de um ou mais incidentes. Identificar e resolver problemas envolve aprofundar-se nos incidentes para evitar futuras ocorrências. 

### Etapas de implementação
<a name="implementation-steps"></a>

 **Eventos do** 

1.  **Monitorar eventos:** 
   +  [Implemente a observabilidade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) e [utilize a observabilidade da workload](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  As ações de monitoramento tomadas por um usuário, função ou serviço da AWS são registradas como eventos no [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Responda às mudanças operacionais em suas aplicações em tempo real com o [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Avalie, monitore e registre constantemente as alterações na configuração de recursos com o [AWS Config](https://aws.amazon.com/config/). 

1.  **Criar processos:** 
   +  Desenvolva um processo para avaliar quais eventos são importantes e exigem monitoramento. Isso envolve definir limites e parâmetros para atividades normais e anormais. 
   +  Determine os critérios que transformam um evento em um incidente. Isso pode ser baseado na gravidade, no impacto nos usuários ou no desvio do comportamento esperado. 
   +  Analise regularmente os processos de monitoramento e resposta a eventos. Isso inclui analisar incidentes anteriores, ajustar limites e refinar os mecanismos de alerta. 

 **Incidentes** 

1.  **Responder a incidentes:** 
   +  Use insights das ferramentas de observabilidade para identificar e responder rapidamente a incidentes. 
   +  Implemente o [Ops Center do AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) para agregar, organizar e priorizar itens e incidentes operacionais. 
   +  Use serviços como o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) e o [AWS X-Ray](https://aws.amazon.com/xray/) para análises e soluções de problemas mais aprofundadas. 
   +  Considere o [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) para melhorar o gerenciamento de incidentes, aproveitando suas capacidades proativas, preventivas e de detecção. O AMS amplia o suporte operacional com serviços como monitoramento, detecção e resposta a incidentes e gerenciamento de segurança. 
   +  Os clientes Enterprise Support podem usar a [Detecção e Resposta a Incidentes da AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que fornece monitoramento proativo e gerenciamento de incidentes contínuos para workloads de produção. 

1.  **Criar um processo de gerenciamento de incidentes:** 
   +  Estabeleça um processo estruturado de gerenciamento de incidentes, incluindo funções claras, protocolos de comunicação e etapas para resolução. 
   +  Integre o gerenciamento de incidentes a determinadas ferramentas, como o [Amazon Q Developer em aplicações de chat](https://aws.amazon.com/chatbot/), para obter respostas e coordenação eficientes. 
   +  Categorize os incidentes por gravidade, com [planos de resposta a incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) predefinidos para cada categoria. 

1.  **Aprender e melhorar:** 
   +  Conduza [análises pós-incidentes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) para entender as causas-raiz e a eficácia da resolução. 
   +  Atualize e melhore constantemente os planos de resposta com base em análises e práticas em evolução. 
   +  Documente e compartilhe as lições aprendidas entre as equipes para melhorar a resiliência operacional. 
   +  Os clientes Enterprise Support podem solicitar o [workshop Gerenciamento de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) ao respectivo gerente técnico da conta. Esse workshop guiado testa seu plano de resposta a incidentes e ajuda você a identificar áreas para melhoria. 

 **Problemas** 

1.  **Identificar problemas:** 
   +  Use dados de incidentes anteriores para identificar padrões recorrentes que possam indicar problemas sistêmicos mais profundos. 
   +  Utilize ferramentas como o [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) e o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para analisar tendências e descobrir problemas subjacentes. 
   +  Envolva equipes multifuncionais, incluindo operações, desenvolvimento e unidades de negócios, para obter perspectivas diversas sobre as causas principais dos problemas. 

1.  **Criar um processo de gerenciamento de problemas:** 
   +  Desenvolva um processo estruturado para gerenciamento de problemas com foco em soluções de longo prazo em vez de soluções rápidas. 
   +  Incorpore técnicas de análise das causas-raiz (RCA) para investigar e compreender as causas subjacentes dos incidentes. 
   +  Atualize políticas, procedimentos e infraestrutura operacionais com base nas descobertas para evitar recorrência. 

1.  **Continuar melhorando:** 
   +  Promova uma cultura de aprendizado e aprimoramento constantes, incentivando as equipes a identificar e resolver possíveis problemas de forma proativa. 
   +  Analise e revise regularmente os processos e ferramentas de gerenciamento de problemas para se alinhar aos cenários de negócios e tecnologia em evolução. 
   +  Compartilhe insights e práticas recomendadas em toda a organização para criar um ambiente operacional mais resiliente e eficiente. 

1.  **Envolver o AWS Support:** 
   +  Use os recursos de suporte da AWS, como o [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), para receber orientação proativa e recomendações de otimização. 
   +  Os clientes Enterprise Support podem acessar programas especializados, como o [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/), para obter suporte durante eventos críticos. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Usar runbooks para realizar procedimentos](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Usar playbooks para investigar problemas](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+  [Guia de resposta a incidentes de segurança da AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Detecção e resposta a incidentes da AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [Framework de adoção da Nuvem AWS: perspectiva de operações: gerenciamento de incidentes e problemas](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Gerenciamento de incidentes na era de DevOps e SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty: o que é gerenciamento de incidentes?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vídeos relacionados:** 
+ [As principais dicas de resposta a incidentes da AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022: Amazon Builders' Library: 25 anos de excelência operacional da Amazon](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022: Detecção e resposta a incidentes na AWS (SUP201)](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Introdução ao AWS Systems Manager Incident Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Exemplos relacionados:** 
+  [Serviços proativos da AWS](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives): workshop de gerenciamento de incidentes 
+ [Como automatizar a resposta a incidentes com o PagerDuty e o AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Engajar os respondedores de incicentes com escalas de plantão na AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Melhorar a visibilidade e a colaboração durante o tratamento de incidentes na AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Relatórios de incidentes e solicitações de serviço no AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Serviços relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html)