

# OPS 10 ¿Cómo administra la carga de trabajo y los eventos de operaciones?
<a name="w2aac19b5b9b9"></a>

 Prepare y valide los procedimientos de respuesta a los eventos para minimizar la interrupción de la carga de trabajo. 

**Topics**
+ [OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Tener un proceso por alerta](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Prioridad de los eventos operativos según el impacto empresarial](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Definir rutas de escalado](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Activar notificaciones push](ops_event_response_push_notify.md)
+ [OPS10-BP06 Comunicar el estado a través de paneles](ops_event_response_dashboards.md)
+ [OPS10-BP07 Automatizar las respuestas a eventos](ops_event_response_auto_event_response.md)

# OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas
<a name="ops_event_response_event_incident_problem_process"></a>

Su organización tiene procesos para gestionar eventos, incidentes y problemas. *Los eventos* son cosas que ocurren en su carga de trabajo pero que podrían no necesitar intervención. *Los incidentes* son eventos que requieren intervención. *Los problemas* son eventos recurrentes que requieren una intervención o que no pueden resolverse. Necesita procesos para mitigar el impacto de estos eventos en su negocio y asegurarse de que responde adecuadamente.

Cuando se producen incidentes y problemas en su carga de trabajo, necesita procesos para gestionarlos. ¿Cómo va a comunicar el estado del evento a las partes interesadas? ¿Quién supervisa la dirección de la respuesta? ¿Cuáles son las herramientas que utiliza para mitigar el evento? Estos son ejemplos de algunas de las preguntas que debe responder para tener un proceso de respuesta sólido. 

Los procesos deben estar documentados en un lugar central y a disposición de cualquier persona involucrada en su carga de trabajo. Si no tiene un wiki central o un almacén de documentos, se puede utilizar un repositorio de control de versiones. Mantendrá estos planes actualizados a medida que sus procesos evolucionen. 

Los problemas son candidatos a la automatización. Estos eventos le restan tiempo a su capacidad de innovar. Empiece por crear un proceso repetible para mitigar el problema. Con el tiempo, céntrese en automatizar la mitigación o en solucionar el problema subyacente. Esto libera tiempo para dedicarlo a hacer mejoras en su carga de trabajo. 

**Resultado deseado:** Su organización tiene un proceso para gestionar eventos, incidentes y problemas. Estos procesos se documentan y almacenan en un lugar central. Se actualizan a medida que cambian los procesos. 

**Patrones comunes de uso no recomendados:** 
+  Se produce un incidente en el fin de semana y el ingeniero de guardia no sabe qué hacer. 
+  Un cliente le envía un correo electrónico diciendo que la aplicación no funciona. Se reinicia el servidor para solucionarlo. Esto ocurre con frecuencia. 
+  Hay un incidente en el que varios equipos trabajan de forma independiente para intentar resolverlo. 
+  Los despliegues ocurren en su carga de trabajo sin registrarse. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Tiene una pista de auditoría de los eventos en su carga de trabajo. 
+  Su tiempo para recuperarse de un incidente disminuye. 
+  Los miembros del equipo pueden resolver incidentes y problemas de manera coherente. 
+  Hay un esfuerzo más consolidado cuando se investiga un incidente. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

La implementación de esta práctica recomendada implica el seguimiento de los eventos de la carga de trabajo. Dispone de procesos para gestionar las incidencias y los problemas. Los procesos se documentan, se comparten y se actualizan con frecuencia. Los problemas se identifican, se priorizan y se solucionan. 

 **Ejemplo de cliente** 

AnyCompany Retail tiene una parte de su wiki interna dedicada a los procesos de gestión de eventos, incidentes y problemas. Todos los eventos se envían a [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html). Los problemas se identifican como OpsItems en [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) y su solución se prioriza, reduciendo la mano de obra no diferenciada. A medida que los procesos cambian, se actualizan en su wiki interna. Utilizan [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) para gestionar los incidentes y coordinar los esfuerzos de mitigación. 

## Pasos para la aplicación
<a name="implementation-steps"></a>

1.  Eventos 
   +  Realice un seguimiento de los eventos que se producen en su carga de trabajo, aunque no sea necesaria la intervención humana. 
   +  Trabaje con las partes interesadas en la carga de trabajo para desarrollar una lista de eventos que deben rastrearse. Algunos ejemplos son los despliegues completados o la aplicación de parches con éxito. 
   +  Puede utilizar servicios como [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) o bien [Amazon Simple Notification Service](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) para generar eventos personalizados para el seguimiento. 

1.  Los incidentes 
   +  Comience por definir el plan de comunicación de incidentes. ¿Qué partes interesadas deben ser informadas? ¿Cómo los mantendrá informados? ¿Quién supervisa los esfuerzos de coordinación? Recomendamos establecer un canal de chat interno para la comunicación y la coordinación. 
   +  Defina rutas de derivación para los equipos que apoyan su carga de trabajo, especialmente si el equipo no tiene una rotación de guardia. En función de su nivel de soporte, también puede registrar un caso con Soporte. 
   +  Cree una guía de estrategias para investigar el incidente. Debe incluir el plan de comunicación y los pasos detallados de la investigación. Incluya la comprobación del [Panel de AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) en su investigación. 
   +  Documente su plan de respuesta a incidentes. Comunique el plan de gestión de incidentes para que los clientes internos y externos comprendan las normas de actuación y lo que se espera de ellos. Forme a los miembros de su equipo en cómo usarlo. 
   +  Los clientes pueden usar [Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) para establecer y gestionar su plan de respuesta a incidentes. 
   +  Los clientes de Enterprise Support pueden solicitar el [Taller de gestión de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) a su gerente técnico de cuentas. Este taller guiado pone a prueba su actual plan de respuesta a incidentes y le ayuda a identificar áreas de mejora. 

1.  Problemas 
   +  Los problemas deben identificarse y seguirse en el sistema ITSM. 
   +  Identifique todos los problemas conocidos y priorícelos según el esfuerzo para solucionarlos y según el impacto en la carga de trabajo.   
![\[Matriz de prioridades de acciones para priorizar los problemas.\]](http://docs.aws.amazon.com/es_es/wellarchitected/2022-03-31/framework/images/impact-effort-chart.png)
   +  Resuelva primero los problemas de alto impacto y bajo esfuerzo. Una vez resueltos estos, pase a los problemas que entran en el cuadrante de bajo impacto y bajo esfuerzo. 
   +  Puede usar [Systems Manager OpsCenter](systems-manager/latest/userguide/OpsCenter.html) para identificar estos problemas, adjuntarles runbooks y hacer un seguimiento de los mismos. 

**Nivel de esfuerzo para el plan de implementación:** Medio Se necesita tanto un proceso como herramientas para implementar esta práctica recomendada. Documente sus procesos y póngalos a disposición de cualquier persona relacionada con la carga de trabajo. Actualícelos con frecuencia. Tiene un proceso para gestionar los problemas y mitigarlos o solucionarlos. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS07-BP03 Uso de runbooks para realizar los procedimientos](ops_ready_to_support_use_runbooks.md): los problemas conocidos necesitan un runbook asociado para que los esfuerzos de mitigación sean coherentes.
+  [OPS07-BP04 Usar guías de estrategias para investigar problemas](ops_ready_to_support_use_playbooks.md): los incidentes deben investigarse utilizando guías de estrategias. 
+  [OPS11-BP02 Realizar un análisis después del incidente](ops_evolve_ops_perform_rca_process.md): realice siempre una autopsia después de recuperarse de un incidente. 

 **Documentos relacionados:** 
+  [Atlassian - Incident management in the age of DevOps (Atlassian: gestión de incidentes en la era de DevOps)](https://www.atlassian.com/incident-management/devops) 
+  [AWS Security Incident Response Guide (Guía de respuesta ante incidentes de seguridad de AWS)](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Incident Management in the Age of DevOps and SRE (Gestión de incidentes en la era de DevOps y SRE)](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management? (PagerDuty: ¿Qué es la gestión de incidentes?)](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2020: Incident management in a distributed organization (Gestión de incidencias en una organización distribuida)](https://www.youtube.com/watch?v=tyS1YDhMVos) 
+  [AWS re:Invent 2021 - Building next-gen applications with event-driven architectures (Creación de aplicaciones de nueva generación con arquitecturas basadas en eventos)](https://www.youtube.com/watch?v=U5GZNt0iMZY) 
+  [AWS Supports You \$1 Exploring the Incident Management Tabletop Exercise (AWS le apoya \$1 Ejercicio práctico de exploración de gestión de incidentes)](https://www.youtube.com/watch?v=0m8sGDx-pRM) 
+  [Administrador de incidentes de AWS Systems Manager - AWS Virtual Workshops (Administrador de incidentes de AWS Systems Manager: talleres virtuales de AWS)](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [AWS What's Next ft. Incident Manager \$1 AWS Events (Novedades de AWS - Incident Manager \$1 Eventos de AWS)](https://www.youtube.com/watch?v=uZL-z7cII3k) 

 **Ejemplos relacionados:** 
+  [AWS Management and Governance Tools Workshop - OpsCenter (Taller de herramientas de administración y gobernanza de AWS - OpsCenter)](https://mng.workshop.aws/ssm/capability_hands-on_labs/opscenter.html) 
+  [AWS Proactive Services – Incident Management Workshop (Servicios proactivos de AWS: taller de gestión de incidencias)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [Building an event-driven application with Amazon EventBridge (Creación de una aplicación basada en eventos con Amazon EventBridge)](https://aws.amazon.com/blogs/compute/building-an-event-driven-application-with-amazon-eventbridge/) 
+  [Building event-driven architectures on AWS (Desarrollo de arquitecturas basadas en eventos en AWS)](https://catalog.us-east-1.prod.workshops.aws/workshops/63320e83-6abc-493d-83d8-f822584fb3cb/en-US/) 

 **Servicios relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) 
+  [Panel de AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS10-BP02 Tener un proceso por alerta
<a name="ops_event_response_process_per_alert"></a>

 Tenga una respuesta bien definida (runbook o guía de estrategia) con un propietario identificado de forma específica para cualquier evento del que se alerte. Esto garantiza respuestas rápidas y eficaces a eventos operativos y previene que los eventos procesables queden ocultos por notificaciones menos importantes. 

 **Patrones de uso no recomendados comunes:** 
+  Su sistema de supervisión le presenta un flujo de conexiones aprobadas junto con otros mensajes. El volumen de mensajes es tan grande que pasa por alto los mensajes de error periódicos que requieren su intervención. 
+  Recibe una alerta de que el sitio web está inactivo. No hay un proceso definido para cuando sucede esto. Se ve obligado a adoptar un enfoque ad hoc para diagnosticar y resolver el problema. El desarrollo de este proceso sobre la marcha alarga el tiempo de recuperación. 

 **Beneficios de establecer esta práctica recomendada:** Al alertar solo cuando es necesario actuar, se evita que las alertas de bajo valor oculten las de alto valor. Al contar con un proceso para cada alerta procesable, permite una respuesta coherente y rápida a los eventos de su entorno. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Procese por alerta: cualquier evento del que se alerte debe tener una respuesta bien definida (runbook o guía de estrategia) con un propietario identificado de manera específica (por ejemplo, un individuo, un equipo o un rol) responsable de una realización correcta. Una respuesta puede llevarse a cabo de forma automática o no (otro equipo puede ejecutarla); sin embargo, el propietario es el responsable de garantizar que el proceso obtenga los resultados esperados. Al contar con estos procesos, se asegura de disponer de respuestas a eventos operativos eficaces y rápidas y, además, podrá prevenir que los eventos procesables queden ocultos por notificaciones menos importantes. Por ejemplo, Auto Scaling puede aplicarse para escalar el front-end de una web, pero el equipo operativo puede ser responsable de garantizar que las normas y los límites de Auto Scaling sean apropiados para las necesidades de la carga de trabajo. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Características de Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Vídeos relacionados:** 
+  [Diseñe un plan de monitoreo](https://www.youtube.com/watch?v=OMmiGETJpfU) 

# OPS10-BP03 Prioridad de los eventos operativos según el impacto empresarial
<a name="ops_event_response_prioritize_events"></a>

 Asegúrese de que, cuando varios eventos requieran una intervención, se aborden primero los más importantes para el negocio. Hay diversos tipos de impactos, como muertes o daños físicos, pérdidas económicas, así como daños a la reputación o confianza. 

 **Antipatrones usuales:** 
+  Recibe una solicitud de soporte para añadir una configuración de impresora para un usuario. Mientras trabaja en el problema, recibe una solicitud de soporte indicando que su sitio web de venta al por menor no funciona. Después de completar la configuración de la impresora para su usuario, comienza a trabajar en el problema del sitio web. 
+  Se le notifica que tanto su sitio web de venta al por menor como su sistema de nóminas no funcionan. No sabes cuál debe tener la máxima prioridad. 

 **Beneficios de establecer esta práctica recomendada:** La priorización de las respuestas a los incidentes con mayor impacto en la empresa permite gestionar dicho impacto. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Prioridad de los eventos operativos según el impacto empresarial: asegúrese de que, cuando varios eventos requieran una intervención, se aborden primero los más importantes para el negocio. Hay diversos tipos de impactos, como muertes o daños físicos, pérdidas económicas, infracciones de normas, así como daños a la reputación o confianza. 

# OPS10-BP04 Definir rutas de escalado
<a name="ops_event_response_define_escalation_paths"></a>

 Defina las rutas de derivación en los runbooks y guías de estrategia, como, por ejemplo, aquello que desencadena una derivación y los procedimientos. Identifique a los titulares de cada acción de forma específica para garantizar respuestas rápidas y eficaces a los eventos operativos. 

 Identifique cuándo se requiere una decisión humana antes de realizar una acción. Trabaje con los responsables de la toma de decisiones para que esa decisión se tome con antelación y la acción se apruebe previamente, para que el tiempo medio de resolución no se prolongue esperando una respuesta. 

 **Antipatrones usuales:** 
+  Su sitio web de venta al por menor no funciona. No comprende el libro de instrucciones para recuperar el sitio. Empieza a llamar a sus colegas con la esperanza de que alguien pueda ayudarle. 
+  Recibe una incidencia de soporte para una aplicación inalcanzable. No tiene permisos para administrar el sistema. No sabe quién lo hace. Se intenta contactar con el propietario del sistema que abrió el incidente y no hay respuesta. No tiene contactos para el sistema y sus colegas no están familiarizados con él. 

 **Beneficios de establecer esta práctica recomendada:** Al definir los escalados, los desencadenantes y los procedimientos de los escalados, se permite la adición sistemática de recursos a un incidente a un ritmo adecuado para el impacto. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Definir rutas de escalado: defina las rutas de escalado en los runbooks y guías de estrategia, como, por ejemplo, aquello que desencadena un escalado y los procedimientos. Por ejemplo, la derivación de un problema de los ingenieros de apoyo a los ingenieros de apoyo senior cuando los runbooks no tengan la respuesta a un problema o cuando haya transcurrido un periodo de tiempo definido previamente. Otro ejemplo sería la derivación de una carga de trabajo de los ingenieros de apoyo senior al equipo de desarrollo cuando las guías de estrategia no puedan identificar qué ruta seguir para solucionar el problema o cuando haya transcurrido un periodo de tiempo definido previamente. Identifique a los titulares de cada acción de forma específica para garantizar respuestas rápidas y eficaces a los eventos operativos. Las derivaciones pueden incluir a terceros. Por ejemplo, a un proveedor de conectividad de red o de software. Las derivaciones pueden incluir a los responsables de la toma de decisiones en lo que respecta a los sistemas afectados autorizados e identificados 

# OPS10-BP05 Activar notificaciones push
<a name="ops_event_response_push_notify"></a>

 Comuníquese directamente con los usuarios (por ejemplo, por correo electrónico o SMS) cuando un evento repercuta en los servicios que utilizan y, de nuevo, cuando estos vuelvan a funcionar con normalidad para que los usuarios puedan tomar las medidas apropiadas. 

 **Patrones de uso no recomendados comunes:** 
+  Su aplicación está experimentando un incidente de denegación de servicio distribuido y lleva días sin responder. No hay ningún mensaje de error. No ha enviado un correo electrónico de notificación. No ha enviado notificaciones de texto. No ha compartido información en las redes sociales. Sus clientes están frustrados y buscan otros vendedores que les den soporte. 
+  El lunes, su aplicación tuvo problemas a raíz de una revisión y estuvo fuera de servicio durante un par de horas. El martes, su aplicación tuvo problemas tras un despliegue de código y no fue confiable durante un par de horas. El miércoles, su aplicación tuvo problemas tras un despliegue de código para mitigar una vulnerabilidad de seguridad asociada a la revisión errónea y no estuvo disponible durante un par de horas. El jueves, sus frustrados clientes empezaron a buscar otro proveedor que pudiera darles soporte. 
+  Su aplicación va a estar fuera de servicio por mantenimiento este fin de semana. No informa a sus clientes. Algunos de sus clientes habían programado actividades que implicaban el uso de su aplicación. Se sienten muy frustrados al descubrir que la aplicación no está disponible. 

 **Beneficios de establecer esta práctica recomendada:** al definir las notificaciones, los desencadenantes de las notificaciones y los procedimientos para las notificaciones, permite a su cliente estar informado y responder cuando le afectan los problemas de su carga de trabajo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Habilitar notificaciones push: comuníquese directamente con los usuarios (por ejemplo, por correo electrónico o SMS) cuando un evento repercuta en los servicios que utilizan y cuando estos vuelvan a funcionar con normalidad para que los usuarios puedan tomar las medidas apropiadas. 
  +  [Funciones de Amazon SES](https://aws.amazon.com/ses/details/) 
  +  [¿Qué es Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 
  +  [Configurar notificaciones de Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Funciones de Amazon SES](https://aws.amazon.com/ses/details/) 
+  [Configurar notificaciones de Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 
+  [¿Qué es Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 

# OPS10-BP06 Comunicar el estado a través de paneles
<a name="ops_event_response_dashboards"></a>

 Proporcione paneles adaptados a las audiencias de destino (por ejemplo, equipos técnicos internos, liderazgo y clientes) para comunicar el estado operativo actual del negocio y facilitar métricas de interés. 

 Puede crear paneles mediante [Amazon CloudWatch Dashboards](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) en las páginas de inicio personalizables en la consola de CloudWatch. Mediante servicios de inteligencia empresarial como [Quick](https://aws.amazon.com/quicksight/) puede crear y publicar paneles interactivos de su carga de trabajo y estado operativo (por ejemplo, índices de pedidos, usuarios conectados y tiempos de transacción). Cree paneles que presenten vistas a nivel de sistema y de empresa de sus métricas. 

 **Patrones de uso no recomendados comunes:** 
+  Ejecuta, a petición, un informe sobre la utilización actual de su aplicación para la administración. 
+  Durante un incidente, cada veinte minutos se pone en contacto con usted un propietario del sistema preocupado por saber si ya está solucionado. 

 **Beneficios de establecer esta práctica recomendada:** Mediante la creación de paneles, posibilita el acceso de autoservicio a la información, lo que permite a sus clientes informarse por sí mismos y determinar si necesitan tomar medidas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Comunique el estado mediante paneles: proporcione paneles adaptados a las audiencias de destino (por ejemplo, equipos técnicos internos, liderazgo y clientes) para comunicar el estado operativo actual del negocio y facilitar métricas de interés. Proporcionar una opción de autoservicio para facilitar información sobre el estado hace que haya menos interrupciones cuando se solicita esta información al equipo operativo. Algunos ejemplos son los paneles de control de Amazon CloudWatch y Panel de AWS Health. 
  +  [Los paneles de CloudWatch crean y usan vistas de métricas personalizadas](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [Los paneles de CloudWatch crean y usan vistas de métricas personalizadas](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

# OPS10-BP07 Automatizar las respuestas a eventos
<a name="ops_event_response_auto_event_response"></a>

 Automatice las respuestas a los eventos para reducir los errores causados por los procesos manuales y garantizar respuestas coherentes y rápidas. 

 Hay varias formas de automatizar las acciones del runbook y de la guía de estrategias en AWS. Para responder a un evento de un cambio de estado en sus recursos de AWS o de sus propios eventos personalizados, debe crear [reglas de CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) para desencadenar respuestas a través de destinos de CloudWatch (por ejemplo, funciones de Lambda, temas de Amazon Simple Notification Service (Amazon SNS), tareas de Amazon ECS y AWS Systems Manager Automation). 

 Para responder a una métrica que cruza un umbral para un recurso (por ejemplo, el tiempo de espera), debe crear [alarmas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) para realizar una o más acciones mediante acciones de Amazon EC2, acciones de Auto Scaling, o para enviar una notificación a un tema de Amazon SNS. Si necesita realizar acciones personalizadas en respuesta a una alarma, invoque a Lambda a través de una notificación de Amazon SNS. Use Amazon SNS para publicar notificaciones de eventos y mensajes de derivación a fin de mantener a las personas informadas. 

 AWS también admite sistemas de terceros a través de las API y los SDK del servicio de AWS. Hay una serie de herramientas de supervisión proporcionados por los socios de AWS y terceros que permiten la supervisión, las notificaciones y las respuestas. Algunas de estas herramientas incluyen New Relic, Splunk, Loggly, SumoLogic y Datadog. 

 Debe tener los procedimientos manuales importantes disponibles para usarlos cuando los procedimientos automatizados fallen. 

 **Antipatrones usuales:** 
+  Un desarrollador comprueba su código. Este evento podría haberse utilizado para iniciar una compilación y luego realizar pruebas, pero en su lugar no ocurre nada. 
+  La aplicación registra un error específico antes de dejar de funcionar. El procedimiento de reinicio de la aplicación se entiende bien y puede programarse. Podría utilizar el evento de registro para invocar un script y reiniciar la aplicación. En cambio, cuando el error se produce a las 3 de la madrugada de un domingo, le despiertan como recurso de guardia, que es responsable de reparar el sistema. 

 **Beneficios de establecer esta práctica recomendada:** Al utilizar respuestas automatizadas a los eventos, se reduce el tiempo de respuesta y se limita la introducción de errores por actividades manuales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Bajo 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Automatizar las respuestas a eventos: automatice las respuestas a los eventos para reducir los errores causados por los procesos manuales y garantizar respuestas coherentes y rápidas. 
  +  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creación de una regla de CloudWatch Events que se desencadena con un evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
  +  [Creación de una regla de CloudWatch Events que se desencadena en una llamada a la API de AWS con AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
  +  [Ejemplos de eventos de CloudWatch Events de los servicios admitidos](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Funciones de Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Ejemplos de eventos de CloudWatch Events de los servicios admitidos](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 
+  [Creación de una regla de CloudWatch Events que se desencadena en una llamada a la API de AWS con AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
+  [Creación de una regla de CloudWatch Events que se desencadena con un evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
+  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Vídeos relacionados:** 
+  [Diseñar un plan de supervisión](https://www.youtube.com/watch?v=OMmiGETJpfU) 

 **Ejemplos relacionados:** 