# OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas
<a name="ops_event_response_event_incident_problem_process"></a>

La capacidad de administrar eficazmente los eventos, los incidentes y los problemas es clave para mantener el estado y el rendimiento de las cargas de trabajo. Es crucial reconocer y comprender las diferencias entre estos elementos para desarrollar una estrategia eficaz de respuesta y resolución. Establecer y seguir un proceso bien definido para cada aspecto ayuda a su equipo a administrar de forma rápida y eficaz cualquier desafío operativo que surja.

 **Resultado deseado:** su organización administra eficazmente los eventos, incidentes y problemas operativos a través de procesos bien documentados y almacenados de forma centralizada. Estos procesos se actualizan constantemente para reflejar los cambios, agilizar la gestión y mantener una alta fiabilidad del servicio y el rendimiento de las cargas de trabajo. 

 **Patrones comunes de uso no recomendados:** 
+  Responde a los eventos reactivamente, en lugar de hacerlo proactivamente. 
+  Se adoptan enfoques incoherentes para diferentes tipos de eventos o incidentes. 
+ Su organización no analiza los incidentes ni aprende de ellos para evitar que ocurran en el futuro.

 **Beneficios de establecer esta práctica recomendada:** 
+  Procesos de respuesta simplificados y estandarizados. 
+  Reducción del impacto de los incidentes en los servicios y los clientes. 
+  Resolución rápida de problemas. 
+  Mejora continua de los procesos operativos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 La implementación de esta práctica recomendada implica el seguimiento de los eventos de la carga de trabajo. Dispone de procesos para gestionar las incidencias y los problemas. Los procesos se documentan, se comparten y se actualizan con frecuencia. Los problemas se identifican, se priorizan y se solucionan. 

 **Comprensión de los eventos, los incidentes y los problemas** 
+  **Eventos:** un *evento* consiste en observar de una acción, un suceso o un cambio de estado. Los eventos pueden planificarse o no y pueden originarse de forma interna o externa en la carga de trabajo. 
+  **Incidentes**: los *incidentes* son eventos que requieren una respuesta, como interrupciones no planificadas o mermas en la calidad del servicio. Representan interrupciones que requieren atención inmediata para restablecer el funcionamiento normal de las cargas de trabajo. 
+  **Problemas:** los *problemas* son las causas subyacentes de uno o más incidentes. Identificar y resolver los problemas implica profundizar en los incidentes para evitar que ocurran en el futuro. 

### Pasos para la implementación
<a name="implementation-steps"></a>

 **Events (Eventos** 

1.  **Supervisión de los eventos:** 
   +  [Implemente la observabilidad](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) y [utilice la observabilidad de la carga de trabajo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Las acciones de supervisión hechas por un usuario, un rol o un servicio de AWS se registran como eventos en [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Responda a los cambios operativos en sus aplicaciones en tiempo real con [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Evalúe, supervise y registre de forma continua los cambios en la configuración de los recursos con [AWS Config](https://aws.amazon.com/config/). 

1.  **Creación de procesos:** 
   +  Desarrolle un proceso para evaluar qué eventos son importantes y requieren supervisión. Esto implica establecer umbrales y parámetros para las actividades normales y anómalas. 
   +  Determine los criterios por los que un evento pasa a ser un incidente. Por ejemplo, puede basarse en la gravedad, el impacto en los usuarios o la desviación del comportamiento esperado. 
   +  Revise periódicamente los procesos de supervisión y respuesta a los eventos. Por ejemplo, analice los incidentes pasados o ajuste los umbrales y los mecanismos de alerta. 

 **Incidentes** 

1.  **Respuesta a los incidentes:** 
   +  Utilice la información de las herramientas de observabilidad para identificar y responder rápidamente a los incidentes. 
   +  Implemente el [Centro de operaciones de AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) para agregar, organizar y priorizar los elementos e incidentes operativos. 
   +  Utilice servicios como [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) y [AWS X-Ray](https://aws.amazon.com/xray/) para llevar a cabo análisis más detallados y solucionar problemas. 
   +  Considere la posibilidad de usar [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) para mejorar la administración de incidentes, aprovechando sus capacidades proactivas, preventivas y de detección. AMS amplía el soporte operativo con servicios como la supervisión, la detección y respuesta a incidentes y la administración de la seguridad. 
   +  Los clientes de Enterprise Support pueden usar [Detección y respuesta a incidentes de AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que proporciona supervisión proactiva continua y administración de incidentes para las cargas de trabajo de producción. 

1.  **Creación de un proceso de administración de incidentes:** 
   +  Establezca un proceso estructurado de administración de incidentes, que incluya protocolos de comunicación, pasos para resolver problemas y roles claramente establecidos. 
   +  Integre la administración de incidentes con herramientas como [Amazon Q Developer en las aplicaciones de chat](https://aws.amazon.com/chatbot/) para una respuesta y coordinación eficientes. 
   +  Clasifique los incidentes por gravedad, con [planes de respuesta a incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) predefinidos para cada categoría. 

1.  **Aprenda y mejore:** 
   +  Lleve a cabo un [análisis posterior al incidente](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) para comprender las causas fundamentales y la eficacia de la resolución. 
   +  Actualice y mejore continuamente los planes de respuesta en función de las revisiones y en la evolución de los procedimientos. 
   +  Documente y comparta las lecciones aprendidas entre los equipos para mejorar la resiliencia operativa. 
   +  Los clientes de Enterprise Support pueden solicitar el [taller de administración de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) a su Technical Account Manager. Este taller guiado pone a prueba su actual plan de respuesta a incidentes y le ayuda a identificar áreas de mejora. 

 **Problemas de** 

1.  **Identificación de los problemas:** 
   +  Utilice los datos de incidentes anteriores para identificar patrones periódicos que pueden indicar problemas sistémicos más profundos. 
   +  Aproveche herramientas como [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) y [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para analizar las tendencias y descubrir los problemas subyacentes. 
   +  Involucre a equipos multifuncionales, incluidas las unidades de operaciones, desarrollo y negocios, para obtener diversas perspectivas sobre las causas raíz. 

1.  **Creación de un proceso de administración de problemas:** 
   +  Desarrolle un proceso estructurado para la administración de problemas y céntrese en soluciones a largo plazo en lugar de en soluciones rápidas. 
   +  Incorpore técnicas de análisis de causa raíz (RCA) para investigar y comprender las causas subyacentes de los incidentes. 
   +  Actualice las políticas, los procedimientos y la infraestructura operativos en función de los resultados para evitar que se repitan. 

1.  **Continuación de la mejora:** 
   +  Fomente una cultura de aprendizaje y mejora constantes, y anime a los equipos a identificar y abordar de manera proactiva los posibles problemas. 
   +  Revise periódicamente los procesos y herramientas de administración de problemas para adaptarlos a la evolución de la empresa y la tecnología. 
   +  Comparta información y prácticas recomendadas con el resto de la organización para crear un entorno operativo más resiliente y eficiente. 

1.  **Uso de AWS Support:** 
   +  Utilice los recursos de asistencia de AWS, como [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), para obtener orientación proactiva y recomendaciones de optimización. 
   +  Los clientes de Enterprise Support pueden acceder a programas especializados como [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) para obtener asistencia durante eventos críticos. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Uso de manuales de estrategias para investigar problemas](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+  [AWS Security Incident Response Guide](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [AWS Incident Detection and Response ](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Incident Management in the Age of DevOps and SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Videos relacionados:** 
+ [Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - The Amazon Builders' Library: 25 yrs of Amazon operational excellence ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Ejemplos relacionados:** 
+  [AWS Proactive Services – Incident Management Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [How to Automate Incident Response with PagerDuty and Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Engage Incident Responders with the On-Call Schedules in Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Improve the Visibility and Collaboration during Incident Handling in Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Incident reports and service requests in AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Servicios relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html)