# OPS 10. ¿Cómo administra la carga de trabajo y los eventos de operaciones?
<a name="ops-10"></a>

 Prepare y valide los procedimientos de respuesta a los eventos para minimizar la interrupción de la carga de trabajo. 

**Topics**
+ [OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Implementación de un proceso por alerta](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Priorización de los eventos operativos según el impacto empresarial](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Definición de rutas de escalado](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Definición de un plan de comunicación con los clientes en caso de eventos que afecten al servicio](ops_event_response_push_notify.md)
+ [OPS10-BP06 Comunicación del estado a través de paneles](ops_event_response_dashboards.md)
+ [OPS10-BP07 Automatización de las respuestas a eventos](ops_event_response_auto_event_response.md)

# OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas
<a name="ops_event_response_event_incident_problem_process"></a>

La capacidad de administrar eficazmente los eventos, los incidentes y los problemas es clave para mantener el estado y el rendimiento de las cargas de trabajo. Es crucial reconocer y comprender las diferencias entre estos elementos para desarrollar una estrategia eficaz de respuesta y resolución. Establecer y seguir un proceso bien definido para cada aspecto ayuda a su equipo a administrar de forma rápida y eficaz cualquier desafío operativo que surja.

 **Resultado deseado:** su organización administra eficazmente los eventos, incidentes y problemas operativos a través de procesos bien documentados y almacenados de forma centralizada. Estos procesos se actualizan constantemente para reflejar los cambios, agilizar la gestión y mantener una alta fiabilidad del servicio y el rendimiento de las cargas de trabajo. 

 **Patrones comunes de uso no recomendados:** 
+  Responde a los eventos reactivamente, en lugar de hacerlo proactivamente. 
+  Se adoptan enfoques incoherentes para diferentes tipos de eventos o incidentes. 
+ Su organización no analiza los incidentes ni aprende de ellos para evitar que ocurran en el futuro.

 **Beneficios de establecer esta práctica recomendada:** 
+  Procesos de respuesta simplificados y estandarizados. 
+  Reducción del impacto de los incidentes en los servicios y los clientes. 
+  Resolución rápida de problemas. 
+  Mejora continua de los procesos operativos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 La implementación de esta práctica recomendada implica el seguimiento de los eventos de la carga de trabajo. Dispone de procesos para gestionar las incidencias y los problemas. Los procesos se documentan, se comparten y se actualizan con frecuencia. Los problemas se identifican, se priorizan y se solucionan. 

 **Comprensión de los eventos, los incidentes y los problemas** 
+  **Eventos:** un *evento* consiste en observar de una acción, un suceso o un cambio de estado. Los eventos pueden planificarse o no y pueden originarse de forma interna o externa en la carga de trabajo. 
+  **Incidentes**: los *incidentes* son eventos que requieren una respuesta, como interrupciones no planificadas o mermas en la calidad del servicio. Representan interrupciones que requieren atención inmediata para restablecer el funcionamiento normal de las cargas de trabajo. 
+  **Problemas:** los *problemas* son las causas subyacentes de uno o más incidentes. Identificar y resolver los problemas implica profundizar en los incidentes para evitar que ocurran en el futuro. 

### Pasos para la implementación
<a name="implementation-steps"></a>

 **Events (Eventos** 

1.  **Supervisión de los eventos:** 
   +  [Implemente la observabilidad](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) y [utilice la observabilidad de la carga de trabajo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Las acciones de supervisión hechas por un usuario, un rol o un servicio de AWS se registran como eventos en [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Responda a los cambios operativos en sus aplicaciones en tiempo real con [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Evalúe, supervise y registre de forma continua los cambios en la configuración de los recursos con [AWS Config](https://aws.amazon.com/config/). 

1.  **Creación de procesos:** 
   +  Desarrolle un proceso para evaluar qué eventos son importantes y requieren supervisión. Esto implica establecer umbrales y parámetros para las actividades normales y anómalas. 
   +  Determine los criterios por los que un evento pasa a ser un incidente. Por ejemplo, puede basarse en la gravedad, el impacto en los usuarios o la desviación del comportamiento esperado. 
   +  Revise periódicamente los procesos de supervisión y respuesta a los eventos. Por ejemplo, analice los incidentes pasados o ajuste los umbrales y los mecanismos de alerta. 

 **Incidentes** 

1.  **Respuesta a los incidentes:** 
   +  Utilice la información de las herramientas de observabilidad para identificar y responder rápidamente a los incidentes. 
   +  Implemente el [Centro de operaciones de AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) para agregar, organizar y priorizar los elementos e incidentes operativos. 
   +  Utilice servicios como [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) y [AWS X-Ray](https://aws.amazon.com/xray/) para llevar a cabo análisis más detallados y solucionar problemas. 
   +  Considere la posibilidad de usar [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) para mejorar la administración de incidentes, aprovechando sus capacidades proactivas, preventivas y de detección. AMS amplía el soporte operativo con servicios como la supervisión, la detección y respuesta a incidentes y la administración de la seguridad. 
   +  Los clientes de Enterprise Support pueden usar [Detección y respuesta a incidentes de AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que proporciona supervisión proactiva continua y administración de incidentes para las cargas de trabajo de producción. 

1.  **Creación de un proceso de administración de incidentes:** 
   +  Establezca un proceso estructurado de administración de incidentes, que incluya protocolos de comunicación, pasos para resolver problemas y roles claramente establecidos. 
   +  Integre la administración de incidentes con herramientas como [Amazon Q Developer en las aplicaciones de chat](https://aws.amazon.com/chatbot/) para una respuesta y coordinación eficientes. 
   +  Clasifique los incidentes por gravedad, con [planes de respuesta a incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) predefinidos para cada categoría. 

1.  **Aprenda y mejore:** 
   +  Lleve a cabo un [análisis posterior al incidente](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) para comprender las causas fundamentales y la eficacia de la resolución. 
   +  Actualice y mejore continuamente los planes de respuesta en función de las revisiones y en la evolución de los procedimientos. 
   +  Documente y comparta las lecciones aprendidas entre los equipos para mejorar la resiliencia operativa. 
   +  Los clientes de Enterprise Support pueden solicitar el [taller de administración de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) a su Technical Account Manager. Este taller guiado pone a prueba su actual plan de respuesta a incidentes y le ayuda a identificar áreas de mejora. 

 **Problemas de** 

1.  **Identificación de los problemas:** 
   +  Utilice los datos de incidentes anteriores para identificar patrones periódicos que pueden indicar problemas sistémicos más profundos. 
   +  Aproveche herramientas como [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) y [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para analizar las tendencias y descubrir los problemas subyacentes. 
   +  Involucre a equipos multifuncionales, incluidas las unidades de operaciones, desarrollo y negocios, para obtener diversas perspectivas sobre las causas raíz. 

1.  **Creación de un proceso de administración de problemas:** 
   +  Desarrolle un proceso estructurado para la administración de problemas y céntrese en soluciones a largo plazo en lugar de en soluciones rápidas. 
   +  Incorpore técnicas de análisis de causa raíz (RCA) para investigar y comprender las causas subyacentes de los incidentes. 
   +  Actualice las políticas, los procedimientos y la infraestructura operativos en función de los resultados para evitar que se repitan. 

1.  **Continuación de la mejora:** 
   +  Fomente una cultura de aprendizaje y mejora constantes, y anime a los equipos a identificar y abordar de manera proactiva los posibles problemas. 
   +  Revise periódicamente los procesos y herramientas de administración de problemas para adaptarlos a la evolución de la empresa y la tecnología. 
   +  Comparta información y prácticas recomendadas con el resto de la organización para crear un entorno operativo más resiliente y eficiente. 

1.  **Uso de AWS Support:** 
   +  Utilice los recursos de asistencia de AWS, como [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), para obtener orientación proactiva y recomendaciones de optimización. 
   +  Los clientes de Enterprise Support pueden acceder a programas especializados como [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) para obtener asistencia durante eventos críticos. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Uso de manuales de estrategias para investigar problemas](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+  [AWS Security Incident Response Guide](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [AWS Incident Detection and Response ](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Incident Management in the Age of DevOps and SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Videos relacionados:** 
+ [Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - The Amazon Builders' Library: 25 yrs of Amazon operational excellence ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Ejemplos relacionados:** 
+  [AWS Proactive Services – Incident Management Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [How to Automate Incident Response with PagerDuty and Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Engage Incident Responders with the On-Call Schedules in Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Improve the Visibility and Collaboration during Incident Handling in Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Incident reports and service requests in AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Servicios relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Implementación de un proceso por alerta
<a name="ops_event_response_process_per_alert"></a>

 Establecer un proceso claro y definido para cada alerta de su sistema es esencial para una administración de incidentes eficaz y eficiente. Esta práctica garantiza que cada alerta genere una respuesta específica y procesable, lo que mejora la fiabilidad y la capacidad de respuesta de sus operaciones. 

 **Resultado deseado:** cada alerta inicia un plan de respuesta específico y bien definido. Siempre que sea posible, las respuestas se automatizan, con una propiedad clara y una ruta de escalado definida. Las alertas están vinculadas a una base de conocimientos actualizada para que cualquier operador pueda responder de forma coherente y eficaz. Las respuestas son rápidas y uniformes en todos los ámbitos, lo que mejora la eficiencia y la fiabilidad operativas. 

 **Patrones comunes de uso no recomendados:** 
+  Las alertas no tienen un proceso de respuesta predefinido, lo que lleva a resoluciones improvisadas y tardías. 
+  La sobrecarga de alertas hace que se pasen por alto alertas importantes. 
+  Las alertas se gestionan de forma incoherente debido a la falta de propiedad y responsabilidad claras. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Se ha reducido la fatiga de las alertas al generar solo alertas procesables. 
+  Disminución del tiempo medio de resolución (MTTR) de los problemas operativos. 
+  Disminución del tiempo medio de investigación (MTTI), lo que ayuda a reducir el MTTR. 
+  Mejora de la capacidad para escalar las respuestas operativas. 
+  Mejora de la coherencia y la fiabilidad en la gestión de los eventos operativos. 

 Por ejemplo, cuenta con un proceso definido para eventos de AWS Health para cuentas críticas, incluidas las alarmas de operaciones, los problemas operativos, los eventos de ciclo de vida planificados (como actualizar las versiones de Amazon EKS antes de que los clústeres se actualicen automáticamente) y ofrece a sus equipos la capacidad para monitorear activamente estos eventos, comunicarse y responder al respecto. Estas acciones lo ayudan a evitar las interrupciones del servicio causadas por cambios en AWS o mitigarlas más rápidamente cuando se producen problemas inesperados. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Tener un proceso por alerta implica establecer un plan de respuesta claro para cada alerta, automatizar las respuestas siempre que sea posible y perfeccionar continuamente estos procesos en función de los comentarios operativos y los requisitos en evolución. 

### Pasos para la implementación
<a name="implementation-steps"></a>

 El siguiente diagrama muestra el flujo de trabajo de administración de incidentes en [Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Está diseñado para responder rápidamente a los problemas operativos mediante la creación automática de incidentes en respuesta a eventos específicos de [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) o [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Cuando se crea un incidente, ya sea de forma automática o manual, el Administrador de incidentes centraliza la administración del incidente, organiza la información relevante de los recursos de AWS e inicia planes de respuesta predefinidos. Esto incluye ejecutar manuales de procedimientos de Automatización de Systems Manager para tomar medidas inmediatas, así como crear un elemento de trabajo operativo principal en el Centro de operaciones para hacer un seguimiento de las tareas y los análisis relacionados. Este proceso simplificado acelera y coordina la respuesta a los incidentes en todo su entorno de AWS. 

![\[Diagrama de flujo en el que se muestra cómo funciona el Administrador de incidentes: Amazon Q Developer en las aplicaciones de chat, los planes y contactos de escalado y los manuales de procedimientos desembocan en planes de respuesta, que a su vez se convierten en análisis e incidentes. Amazon CloudWatch también se refleja en los planes de respuesta.\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


1.  **Uso de alarmas compuestas:** cree [alarmas compuestas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) en CloudWatch para agrupar las alarmas relacionadas, reducir el ruido y permitir respuestas más significativas. 

1.  **Manténgase informado con [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html):** AWS Health es la fuente autorizada de información sobre el estado de los recursos de Nube de AWS. Utilice AWS Health para visualizar y recibir notificaciones de cualquier evento de servicio actual y de los próximos cambios, como los eventos de ciclo de vida planificados, de forma que pueda tomar medidas para mitigar los impactos. 

   1.  [Cree notificaciones de eventos de AWS Health adaptadas al propósito](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) para el correo electrónico y los canales de chat a través de [AWS User Notifications](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e intégrelas mediante programación con [las herramientas de supervisión y alerta a través de Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o la [API de AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planifique y realice un seguimiento del progreso de los eventos de estado que requieran una acción mediante la integración con herramientas de administración de cambios o ITSM (como [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) o [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) que ya pueda utilizar a través de Amazon EventBridge o la API de AWS Health. 

   1.  Si usa AWS Organizations, habilite la [vista de organización para AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) a fin de agregar eventos de AWS Health en todas las cuentas. 

1.  **Integración de las alarmas de Amazon CloudWatch con el Administrador de incidentes:** configure las alarmas de CloudWatch para crear incidentes automáticamente en [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integración de Amazon EventBridge con el Administrador de incidentes:** cree [reglas de EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) para reaccionar ante los eventos y crear incidentes mediante planes de respuesta definidos. 

1.  **Preparación para incidentes en el Administrador de incidentes:** 
   +  Establezca [planes de respuesta](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) detallados en el Administrador de incidentes para cada tipo de alerta. 
   +  Establezca canales de chat mediante [Amazon Q Developer en aplicaciones de chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) conectadas a los planes de respuesta del Administrador de incidentes, lo que facilita la comunicación en tiempo real durante los incidentes en plataformas como Slack, Microsoft Teams y Amazon Chime. 
   +  Incorpore [manuales de procedimientos de Automatización de Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) en el Administrador de incidentes para impulsar respuestas automatizadas a los incidentes. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 

 **Documentos relacionados:** 
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Uso de las alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Setting up Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [Preparing for incidents in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Videos relacionados:** 
+ [Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Ejemplos relacionados:** 
+ [AWS Workshops - Administrador de incidentes de AWS Systems Manager - Automate incident response to security events ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Priorización de los eventos operativos según el impacto empresarial
<a name="ops_event_response_prioritize_events"></a>

 Responder con prontitud a los eventos operativos es fundamental, pero no todos los eventos son iguales. Cuando se establecen prioridades en función del impacto en la empresa, también se da prioridad a los eventos que pueden tener consecuencias importantes, como la seguridad, las pérdidas financieras, las infracciones de la normativa o los daños a la reputación. 

 **Resultado deseado:** las respuestas a los eventos operativos se priorizan en función del posible impacto en las operaciones y los objetivos comerciales. Esto hace que las respuestas sean eficientes y efectivas. 

 **Patrones comunes de uso no recomendados:** 
+  Todos los eventos se tratan con el mismo nivel de urgencia, lo que genera confusión y retrasos a la hora de abordar los problemas críticos. 
+  No puede distinguir entre eventos de alto y bajo impacto, lo que lleva a una mala asignación de recursos. 
+  Su organización carece de un marco de priorización claro, lo que deriva en respuestas incongruentes a los eventos operativos. 
+  Los eventos se priorizan en función del orden en el que se informan, en lugar de su impacto en los resultados empresariales. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Garantiza que las funciones empresariales críticas reciban la atención en primer lugar, lo que minimiza los posibles daños. 
+  Mejora la asignación de recursos durante varios eventos simultáneos. 
+  Mejora la capacidad de la organización para mantener la confianza y cumplir con los requisitos reglamentarios. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Cuando nos enfrentamos a múltiples eventos operativos, es esencial adoptar un enfoque estructurado para la priorización en función del impacto y la urgencia. Este enfoque le ayuda a tomar decisiones informadas, dirigir los esfuerzos hacia donde más se necesitan y mitigar el riesgo para la continuidad del negocio. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Evaluación del impacto:** desarrolle un sistema de clasificación para evaluar la gravedad de los eventos en términos de su posible impacto en las operaciones y los objetivos comerciales. En el siguiente ejemplo se muestran las categorías de impacto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Evaluación de la urgencia:** defina los niveles de urgencia para determinar la rapidez con la que un evento necesita una respuesta, teniendo en cuenta factores como la seguridad, las implicaciones financieras y los acuerdos de nivel de servicio (SLA). En el siguiente ejemplo se muestran las categorías de urgencia:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Creación de una matriz de priorización:** 
   +  Utilice una matriz para hacer referencias cruzadas del impacto y la urgencia mediante la asignación de niveles de prioridad a diferentes combinaciones. 
   +  Haga que todos los miembros del equipo responsables de las respuestas a los eventos operativos puedan acceder a la matriz y comprenderla. 
   +  La siguiente matriz de ejemplo muestra la gravedad del incidente según la urgencia y el impacto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Formación y comunicación:** forme a los equipos de respuesta sobre la matriz de priorización y la importancia de seguirla durante un evento. Comunique el proceso de priorización a todas las partes interesadas para establecer expectativas claras. 

1.  **Integración con la respuesta a incidentes:** 
   +  Incorpore la matriz de priorización en sus planes y herramientas de respuesta a incidentes. 
   +  Automatice la clasificación y la priorización de los eventos siempre que sea posible para acelerar los tiempos de respuesta. 
   +  Los clientes de Enterprise Support pueden aprovechar la [Detección y respuesta a incidentes de AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que proporciona supervisión proactiva y administración de incidentes ininterrumpidas para las cargas de trabajo de producción. 

1.  **Revisión y adaptación:** revise de forma periódica la eficacia del proceso de priorización y haga ajustes en función de las opiniones y los cambios en el entorno empresarial. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS03-BP03 Fomento de la derivación](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas](ops_operations_health_measure_ops_goals_kpis.md) 

 **Documentos relacionados:** 
+ [Atlassian - Understanding incident severity levels](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [IT Process Map - Checklist Incident Priority](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Definición de rutas de escalado
<a name="ops_event_response_define_escalation_paths"></a>

Establezca rutas de escalado claras dentro de sus protocolos de respuesta a incidentes para facilitar una acción oportuna y eficaz. Esto incluye especificar las indicaciones para el escalado, detallar el proceso de escalado y aprobar previamente las acciones para acelerar la toma de decisiones y reducir el tiempo medio de resolución (MTTR).

 **Resultado deseado:** un proceso estructurado y eficiente que eleve los incidentes al personal apropiado, lo que reduce los tiempos de respuesta y el impacto. 

 **Patrones comunes de uso no recomendados:** 
+ La falta de claridad en los procedimientos de recuperación conduce a respuestas improvisadas durante los incidentes críticos.
+ La ausencia de permisos y propiedad definidos provoca retrasos cuando se necesita una acción urgente.
+  Las partes interesadas y los clientes no reciben información de acuerdo con las expectativas. 
+  Las decisiones importantes se retrasan. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Respuesta simplificada a los incidentes mediante procedimientos de escalado predefinidos. 
+  Se ha reducido el tiempo de inactividad con acciones preaprobadas y una propiedad clara. 
+  Mejora de la asignación de recursos y los ajustes del nivel de soporte según la gravedad del incidente. 
+  Mejora de la comunicación con las partes interesadas y los clientes. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Las rutas de escalado bien definidas son cruciales para una respuesta rápida a los incidentes. Administrador de incidentes de AWS Systems Manager permite establecer planes de escalado estructurados y programas de guardia, que alertan al personal adecuado para que esté preparado para actuar cuando se produzcan incidentes. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Configuración de las indicaciones de escalado:** configure [alarmas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) para crear un incidente en [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  ** Configuración de programas de guardia:** cree [programas de guardia](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) en el Administrador de incidentes que se ajusten a sus rutas de escalado. Proporcione al personal de guardia los permisos y las herramientas necesarios para actuar con rapidez. 

1.  **Detalle los procedimientos de escalado:** 
   +  Determine las condiciones específicas en las que se debe escalar un incidente. 
   +  Cree [planes de escalado](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) en el Administrador de incidentes. 
   +  Los canales de escalado deben consistir en un contacto o un programa de guardia. 
   +  Defina las funciones y responsabilidades del equipo en cada nivel de escalado. 

1.  **Aprobación previa de las acciones de mitigación:** colabore con los responsables de la toma de decisiones para aprobar previamente las acciones para los escenarios previstos. Utilice los [manuales de procedimientos de Automatización de Systems Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) integrados con el Administrador de incidentes para acelerar la resolución de incidentes. 

1.  **Especificación de la propiedad:** identifique claramente a los propietarios internos de cada paso de la ruta de escalado. 

1.  **Detalle los escalados de terceros:** 
   +  Documente los acuerdos de nivel de servicio (SLA) de terceros y ajústelos a los objetivos internos. 
   +  Establezca protocolos claros para la comunicación con los proveedores durante los incidentes. 
   +  Integre los contactos de los proveedores en las herramientas de administración de incidentes para que se pueda acceder directamente a ellos. 
   +  Lleve a cabo simulacros periódicos que incluyan situaciones de respuesta de terceros. 
   +  Mantenga la información de escalado de proveedores bien documentada y accesible. 

1.  **Formación y práctica de los planes de escalado:** forme a su equipo en el proceso de escalado y lleve a cabo simulacros o días de juego de respuesta a incidentes con regularidad. Los clientes de Enterprise Support pueden solicitar un [taller de administración de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/). 

1.  **Continuación de la mejora:** revise la eficacia de sus rutas de escalado con regularidad. Actualice sus procesos en función de las lecciones aprendidas a partir de los análisis posteriores a los incidentes y los comentarios continuos. 

 **Nivel de esfuerzo para el plan de implementación:** moderado 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Implementación de un proceso por alerta](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+ [Administrador de incidentes de AWS Systems Manager Escalation Plans](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [Working with on-call schedules in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [Creación y administración de manuales de procedimientos](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [Temporary elevated access management with AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [Atlassian - Escalation policies for effective incident management](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Definición de un plan de comunicación con los clientes en caso de eventos que afecten al servicio
<a name="ops_event_response_push_notify"></a>

 Es fundamental comunicarse eficazmente durante los eventos que afectan al servicio para mantener la confianza y la transparencia con los clientes. Un plan de comunicación bien definido ayuda a su organización a compartir información de forma rápida y clara, tanto interna como externamente, durante los incidentes. 

 **Resultado deseado:** 
+  Un plan de comunicación sólido que informe eficazmente a los clientes y partes interesadas durante los eventos que afectan al servicio. 
+  Transparencia en la comunicación para generar confianza y reducir la ansiedad de los clientes. 
+  Minimizar el impacto de los eventos que afectan el servicio en la experiencia del cliente y las operaciones comerciales. 

 **Patrones comunes de uso no recomendados:** 
+  Una comunicación inadecuada o tardía genera confusión e insatisfacción en los clientes. 
+  Los mensajes demasiado técnicos o vagos no transmiten el impacto real a los usuarios. 
+  No existe una estrategia de comunicación predefinida, lo que da como resultado mensajes incoherentes y reactivos. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Mejora de la confianza y la satisfacción de los clientes mediante una comunicación proactiva y clara. 
+  Se ha reducido la carga de los equipos de asistencia al abordar de forma preventiva las inquietudes de los clientes. 
+  Capacidad mejorada para administrar los incidentes y recuperarse de ellos de forma eficaz. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 La creación de un plan de comunicación integral para los eventos que afectan al servicio implica múltiples facetas, desde la elección de los canales correctos hasta la elaboración del mensaje y el tono. El plan debe ser adaptable, escalable y contemplar diferentes escenarios de interrupción del servicio. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Definición de roles y responsabilidades:** 
   +  Asigne un major incident manager para supervisar las actividades de respuesta a los incidentes. 
   +  Designe a un communications manager que se encargue de coordinar todas las comunicaciones externas e internas. 
   +  Incluya al support manager para proporcionar una comunicación congruente a través de los tiques de soporte. 

1.  **Identificación de los canales de comunicación:** seleccione canales como el chat del lugar de trabajo, el correo electrónico, los SMS, las redes sociales, las notificaciones dentro de las aplicaciones y las páginas de estado. Estos canales deben ser resilientes y capaces de funcionar de forma independiente durante los eventos que afecten al servicio. 

1.  **Comunicación con los clientes rápida, clara y regular:** 
   +  Elabore plantillas para varios escenarios de deterioro del servicio, haciendo énfasis en la simplicidad y los detalles esenciales. Incluya información sobre el deterioro del servicio, el tiempo de resolución esperado y el impacto. 
   +  Utilice Amazon Pinpoint para alertar a los clientes mediante notificaciones push, notificaciones dentro de las aplicaciones, correos electrónicos, mensajes de texto, mensajes de voz y mensajes a través de canales personalizados. 
   +  Utilice Amazon Simple Notification Service (Amazon SNS) para alertar a los suscriptores mediante programación o por correo electrónico, notificaciones push móviles y mensajes de texto. 
   +  Comparta de forma pública el panel de Amazon CloudWatch para comunicar el estado del incidente. 
   +  Fomente la participación en las redes sociales: 
     +  Supervise activamente las redes sociales para entender la opinión de los clientes. 
     +  Publique en las plataformas de redes sociales para proporcionar información pública actualizada e implicar a la comunidad. 
     +  Prepare plantillas para una comunicación clara y coherente en las redes sociales. 

1.  **Coordinación de la comunicación interna:** implemente protocolos internos mediante herramientas como Amazon Q Developer en aplicaciones de chat para coordinar a los equipos y facilitar la comunicación. Utilice los paneles de CloudWatch para comunicar el estado. 

1.  ** Orquestación de la comunicación con herramientas y servicios dedicados: ** 
   +  Utilice Administrador de incidentes de AWS Systems Manager con Amazon Q Developer en aplicaciones de chat para configurar canales de chat dedicados para la comunicación interna y la coordinación en tiempo real durante los incidentes. 
   +  Utilice manuales de procedimientos de Administrador de incidentes de AWS Systems Manager para automatizar las notificaciones a los clientes a través de Amazon Pinpoint, Amazon SNS o herramientas de terceros, como las plataformas de redes sociales, durante los incidentes. 
   +  Incorpore flujos de trabajo de aprobación en los manuales de procedimientos para revisar y autorizar, de forma opcional, todas las comunicaciones externas antes de enviarlas. 

1.  ** Práctica y mejora:** 
   +  Lleve a cabo formaciones sobre el uso de herramientas y estrategias de comunicación. Permita a los equipos tomar decisiones oportunas durante los incidentes. 
   +  Ponga a prueba el plan de comunicación mediante simulacros o días de juego. Use estas pruebas para ajustar los mensajes y evaluar la eficacia de los canales. 
   +  Implemente mecanismos para conocer la opinión de los clientes y evaluar así la eficacia de la comunicación durante los incidentes. Desarrolle continuamente el plan de comunicación en función de los comentarios y las necesidades cambiantes. 

 **Nivel de esfuerzo para el plan de implementación:** alto 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Comunicación del estado a través de paneles](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+ [Atlassian - Incident communication best practices](https://www.atlassian.com/incident-management/incident-communication)
+ [Atlassian - How to write a good status update](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [PagerDuty - A Guide to Incident Communications](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Videos relacionados:** 
+ [ Atlassian - Create your own incident communication plan: Incident templates ](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Ejemplos relacionados:** 
+  [Panel de AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Comunicación del estado a través de paneles
<a name="ops_event_response_dashboards"></a>

 Utilice los paneles como una herramienta estratégica para transmitir el estado operativo y las métricas clave en tiempo real a diferentes públicos, incluidos los equipos técnicos internos, los líderes y los clientes. Estos paneles ofrecen una representación visual centralizada del estado del sistema y el rendimiento empresarial, lo que mejora la transparencia y la eficiencia de la toma de decisiones. 

 **Resultado deseado:** 
+  Sus paneles proporcionan una visión completa del sistema y de las métricas empresariales relevantes para las diferentes partes interesadas. 
+  Las partes interesadas pueden acceder de forma proactiva a la información operativa, lo que reduce la necesidad de solicitudes de estado frecuentes. 
+  La toma de decisiones en tiempo real mejora durante las operaciones normales y los incidentes. 

 **Patrones comunes de uso no recomendados:** 
+ Los ingenieros que se unen a una llamada de administración de incidentes necesitan actualizaciones de estado para ponerse al día.
+ Confiar en los informes manuales para la administración, lo que provoca retrasos y posibles imprecisiones.
+  Los equipos de operaciones se interrumpen con frecuencia para actualizar el estado durante los incidentes. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Ofrece a las partes interesadas acceso inmediato a información crítica, promoviendo la toma de decisiones informadas. 
+  Reduce las ineficiencias operativas al minimizar los informes manuales y las consultas frecuentes sobre el estado. 
+  Aumenta la transparencia y la confianza a través de la visibilidad en tiempo real del rendimiento del sistema y las métricas empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Los paneles comunican eficazmente el estado del sistema y las métricas empresariales y se pueden adaptar a las necesidades de los diferentes grupos de audiencia. Las herramientas como los paneles de Amazon CloudWatch y Amazon Quick ayudan a crear paneles interactivos y en tiempo real para la monitorización del sistema y la inteligencia empresarial. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Identificación de las necesidades de las partes interesadas:** determine las necesidades de información específicas de los diferentes grupos de audiencia, como los equipos técnicos, los líderes y los clientes. 

1.  **Elija las herramientas adecuadas:** seleccione las herramientas adecuadas, como los [paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) para supervisar el sistema y [Amazon Quick](https://aws.amazon.com/quicksight/) para obtener inteligencia empresarial interactiva. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) proporciona una experiencia lista para usar en [Panel de AWS Health](https://health.aws.amazon.com/health/home) o puede utilizar eventos de estado en Amazon EventBridge o mediante la API de AWS Health para aumentar los paneles propios. 

1.  **Diseñe paneles eficaces:** 
   +  Diseñe paneles para presentar con claridad las métricas y los KPI relevantes, asegurándose de que sean comprensibles y procesables. 
   +  Incorpore vistas a nivel de sistema y empresarial según sea necesario. 
   +  Incluya paneles de alto nivel (para obtener una visión general) y de bajo nivel (para un análisis detallado). 
   +  Integre alarmas automatizadas en los paneles para resaltar los problemas críticos. 
   +  Incluya umbrales de métricas y objetivos importantes en los paneles para poder acceder a esos datos de forma inmediata. 

1.  **Integración de los orígenes de datos:** 
   +  Utilice [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para agregar y mostrar métricas de varios servicios de AWS y [consultar métricas de otros orígenes de datos](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), creando una vista unificada de las métricas empresariales y de estado de su sistema. 
   +  Utilice características como [Información de registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para consultar y visualizar los datos de registro de diferentes aplicaciones y servicios. 
   +  Utilice los eventos de AWS Health para mantenerse informado sobre el estado operativo y los problemas operativos confirmados de los servicios de AWS mediante la [API de AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) o los [eventos de AWS Health en Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Acceso de autoservicio:** 
   +  Comparta paneles de CloudWatch con las partes interesadas pertinentes para acceder a la información de autoservicio mediante [características para compartir paneles](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Asegúrese de que se pueda acceder fácilmente a los paneles y que incluyan información actualizada en tiempo real. 

1.  **Actualice y ajuste los paneles cada cierto tiempo:** 
   +  Modifique los paneles de forma periódica para alinearlos con las cambiantes necesidades empresariales y las opiniones de las partes interesadas. 
   +  Revise los paneles cada cierto tiempo para que sigan siendo pertinentes a la hora de transmitir la información necesaria. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP05 Creación de paneles](ops_workload_observability_create_dashboards.md) 

 **Documentos relacionados:** 
+ [ La creación de paneles para la visibilidad operativa ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Uso de paneles de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Cree paneles flexibles con variables de panel ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Compartir paneles de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Consulta de métricas de otros orígenes de datos ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Agregue un widget personalizado a un panel de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Ejemplos relacionados:** 
+ [ One Observability Workshop - Dashboards ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatización de las respuestas a eventos
<a name="ops_event_response_auto_event_response"></a>

 La automatización de las respuestas a eventos es clave para una gestión operativa rápida, coherente y sin errores. Cree procesos simplificados y utilice herramientas para administrar y responder automáticamente a los eventos, lo que minimiza las intervenciones manuales y mejora la eficacia operativa. 

 **Resultado deseado:** 
+  Se han reducido los errores humanos y tiempos de resolución más rápidos mediante la automatización. 
+  Gestión de eventos operativos coherente y fiable. 
+  Se ha mejorado la eficiencia operativa y la fiabilidad del sistema. 

 **Patrones comunes de uso no recomendados:** 
+ La gestión manual de eventos provoca retrasos y errores.
+ La automatización se pasa por alto en las tareas críticas y repetitivas.
+  Las tareas manuales y repetitivas provocan saturación de alertas y la omisión de problemas críticos. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Respuestas rápidas a los eventos, lo que reduce el tiempo de inactividad del sistema. 
+  Operaciones fiables con una gestión de eventos automatizada y coherente. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Incorpore la automatización para crear flujos de trabajo operativos eficientes y minimizar las intervenciones manuales. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Identificación de las oportunidades de automatización:** determine qué tareas repetitivas pueden automatizarse, como la resolución de problemas, el enriquecimiento de tiques, la administración de la capacidad, el escalado, las implementaciones y las pruebas. 

1.  **Identificación de los avisos de automatización:** 
   +  evalúe y defina las condiciones o métricas específicas que inician las respuestas automatizadas mediante [acciones de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Use [Amazon EventBridge](https://aws.amazon.com/eventbridge/) para responder a eventos en servicios de AWS, cargas de trabajo personalizadas y aplicaciones SaaS. 
   +  Tenga en cuenta los eventos de inicio, como [entradas de registro específicas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [umbrales de métricas de rendimiento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) o [cambios de estado](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) en los recursos de AWS. 

1.  **Implementación de la automatización basada en eventos:** 
   +  Utilice los manuales de procedimientos de Automatización de AWS Systems Manager para simplificar las tareas de mantenimiento, implementación y corrección. 
   +  La [creación de incidentes en el Administrador de incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) recopila y agrega automáticamente detalles sobre los recursos de AWS involucrados en el incidente. 
   +  Supervise las cuotas de forma proactiva mediante el [Monitor de cuotas para AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Ajuste automáticamente la capacidad con [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) para mantener la disponibilidad y el rendimiento. 
   +  Automatice las canalizaciones de desarrollo con [Amazon CodeCatalyst](https://codecatalyst.aws/explore). 
   +  Haga pruebas de humo o supervise continuamente los puntos de conexión y las API [mediante la supervisión sintética](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). 

1.  **Mitigación de los riesgos mediante la automatización:** 
   +  Implemente [respuestas de seguridad automatizadas](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) para abordar los riesgos con rapidez. 
   +  Use [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) para reducir los cambios en la configuración. 
   +  [Corrija los recursos no conformes con Reglas de AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html). 

 **Nivel de esfuerzo para el plan de implementación:** alto 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Implementación de un proceso por alerta](ops_event_response_process_per_alert.md) 

 **Documentos relacionados:** 
+  [Using Systems Manager Automation runbooks with Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Creating incidents in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [Service Quotas de AWS](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Monitor resource usage and send notifications when approaching quotas](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [What is Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Uso de las alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Uso de las acciones de alarma de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Remediating Noncompliant Resources with Reglas de AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Creating metrics from log events using filters](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems ManagerState Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Videos relacionados:** 
+ [ Create Automation Runbooks with AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [ How to automate IT Operations on AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM automation rules ](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [ Start your software project fast with Amazon CodeCatalyst blueprints ](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Ejemplos relacionados:** 
+ [Amazon CodeCatalyst Tutorial: Creating a project with the Modern three-tier web application blueprint](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [ One Observability Workshop ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [Respond to incidents using Incident Manager](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)