

# Operación
<a name="a-operate"></a>

**Topics**
+ [

# OPS 8. ¿Cómo utiliza la observabilidad de la carga de trabajo en su organización?
](ops-08.md)
+ [

# OPS 9. ¿Cómo hace para comprender el estado de las operaciones?
](ops-09.md)
+ [

# OPS 10. ¿Cómo administra la carga de trabajo y los eventos de operaciones?
](ops-10.md)

# OPS 8. ¿Cómo utiliza la observabilidad de la carga de trabajo en su organización?
<a name="ops-08"></a>

Recurra a la observabilidad para garantizar un estado óptimo de la carga de trabajo. Utilice métricas, registros y rastros pertinentes para obtener una visión integral del rendimiento de su carga de trabajo y abordar los problemas de manera eficiente.

**Topics**
+ [

# OPS08-BP01 Análisis de las métricas de la carga de trabajo
](ops_workload_observability_analyze_workload_metrics.md)
+ [

# OPS08-BP02 Análisis de los registros de la carga de trabajo
](ops_workload_observability_analyze_workload_logs.md)
+ [

# OPS08-BP03 Análisis de los rastreos de la carga de trabajo
](ops_workload_observability_analyze_workload_traces.md)
+ [

# OPS08-BP04 Creación de alertas procesables
](ops_workload_observability_create_alerts.md)
+ [

# OPS08-BP05 Creación de paneles
](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Análisis de las métricas de la carga de trabajo
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 Después de implementar la telemetría de la aplicación, analice periódicamente las métricas recopiladas. Si bien la latencia, las solicitudes, los errores y la capacidad (o las cuotas) proporcionan información sobre el rendimiento del sistema, es fundamental dar prioridad la revisión de las métricas de resultados empresariales. Esto garantiza que tome decisiones basadas en datos alineadas con sus objetivos empresariales. 

 **Resultado deseado:** información veraz sobre el rendimiento de la carga de trabajo que genera decisiones basadas en datos y garantiza la alineación con los objetivos empresariales. 

 **Patrones comunes de uso no recomendados:** 
+  Analizar las métricas de forma aislada sin tener en cuenta su impacto en los resultados empresariales. 
+  Confiar de forma excesiva en las métricas técnicas y, al mismo tiempo, dejar de lado las métricas empresariales. 
+  Revisar infrecuentemente las métricas, lo que hace que se pierdan oportunidades de toma de decisiones en tiempo real. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Comprensión mejorada de la correlación entre el rendimiento técnico y los resultados empresariales. 
+  Proceso de toma de decisiones mejorado basado en datos en tiempo real. 
+  Identificación y mitigación proactivas de los problemas antes de que afecten a los resultados empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Utilice herramientas como Amazon CloudWatch para llevar a cabo análisis de métricas. Los servicios de AWS como detección de anomalías de CloudWatch y Amazon DevOps Guru pueden utilizarse para detectar anomalías, especialmente cuando se desconocen los umbrales estáticos o cuando los patrones de comportamiento son más adecuados para la detección de anomalías. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Análisis y revisión:** revise e interprete periódicamente las métricas de carga de trabajo. 

   1.  Priorice las métricas de resultados empresariales sobre las métricas puramente técnicas. 

   1.  Comprenda la importancia de los picos, las caídas o los patrones en sus datos. 

1.  **Uso de Amazon CloudWatch:** utilice Amazon CloudWatch para obtener una vista centralizada y un análisis exhaustivo. 

   1.  Configure paneles de CloudWatch para visualizar sus métricas y compararlas a lo largo del tiempo. 

   1.  Utilice [percentiles de CloudWatch](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) para obtener una vista clara de la distribución de métricas, lo que puede ayudar a definir los SLA y comprender los valores atípicos. 

   1.  Configure la [detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para identificar patrones inusuales sin depender de umbrales estáticos. 

   1.  Implemente la [observabilidad entre cuentas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) para supervisar y solucionar problemas en las aplicaciones que abarcan varias cuentas de una región. 

   1.  Utilice [Información de métricas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) para consultar y analizar datos de métricas en cuentas y regiones, identificando tendencias y anomalías. 

   1.  Aplique [calculadora de métricas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) para transformar, agregar o hacer cálculos en sus métricas a fin de obtener información más detallada. 

1.  **Uso de Amazon DevOps Guru:** integre [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) por su detección de anomalías mejorada con machine learning para identificar los primeros signos de problemas operativos en sus aplicaciones sin servidor y solucionarlos antes de que afecten a sus clientes. 

1.  **Optimización basada en información:** tome decisiones fundamentadas en función de su análisis de métricas para ajustar y mejorar sus cargas de trabajo. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 

 **Documentos relacionados:** 
+ [ The Wheel Blog: Emphasizing the importance of continually reviewing metrics ](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [ Percentiles are important ](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [ Uso de AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ Observabilidad entre cuentas de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [ Consulte sus métricas con Información de métricas de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Videos relacionados:** 
+ [ Enable Cross-Account Observability in Amazon CloudWatch ](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [ Introduction to Amazon DevOps Guru ](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [ Continuously Analyze Metrics using AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Ejemplos relacionados:** 
+ [ One Observability Workshop ](https://catalog.workshops.aws/observability/en-US/intro)
+ [ Gaining operation insights with AIOps using Amazon DevOps Guru ](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Análisis de los registros de la carga de trabajo
<a name="ops_workload_observability_analyze_workload_logs"></a>

 El análisis periódico de los registros de la carga de trabajo es esencial para adquirir una comprensión exhaustiva de los aspectos operativos de su aplicación. Al examinar, visualizar e interpretar de manera eficiente los datos de registro, puede optimizar continuamente el rendimiento y la seguridad de las aplicaciones. 

 **Resultado deseado:** amplios conocimientos sobre el comportamiento y las operaciones de las aplicaciones derivados de un análisis exhaustivo de los registros, lo que garantiza la detección y mitigación proactivas de los problemas. 

 **Patrones comunes de uso no recomendados:** 
+  Descuidar el análisis de los registros hasta que surja un problema crítico. 
+  No utilizar el conjunto completo de herramientas disponibles para el análisis de registros, lo que significa perder información crucial. 
+  Confiar únicamente en la revisión manual de los registros sin utilizar las capacidades de automatización y consulta. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Identificación proactiva de los cuellos de botella operativos, las amenazas a la seguridad y otros posibles problemas. 
+  Uso eficiente de los datos de registro para la optimización continua de las aplicaciones. 
+  Mejor comprensión del comportamiento de las aplicaciones, lo que ayuda a depurar y solucionar problemas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 [Registros de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) es una herramienta potente para el análisis de registros. Las características integradas, como Información de registros de CloudWatch e Información de colaboradores, hacen que el proceso de obtener información significativa de los registros sea intuitivo y eficiente. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Configuración de Registros de CloudWatch**: configure aplicaciones y servicios para enviar registros a Registros de CloudWatch. 

1.  **Uso de la detección de anomalías en los registros:** utilice la [detección de anomalías de Registros de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) para identificar y alertar automáticamente sobre patrones de registros inusuales. Esta herramienta le ayuda a administrar de forma proactiva las anomalías en sus registros y a detectar posibles problemas con antelación. 

1.  **Configuración de Información de registros de CloudWatch**: use [Información de registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para buscar y analizar de forma interactiva los datos de registro. 

   1.  Cree consultas para extraer patrones, visualizar datos de registro y obtener información procesable. 

   1.  Utilice el [análisis de patrones de Información de registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html) para analizar y visualizar los patrones de registro frecuentes. Esta característica le ayuda a conocer las tendencias operativas comunes y los posibles valores atípicos en sus datos de registro. 

   1.  Utilice la [comparativa (diff) de Registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html) para llevar a cabo análisis diferenciales entre distintos periodos de tiempo o entre distintos grupos de registros. Utilice esta capacidad para identificar los cambios y evaluar su repercusión en el rendimiento o el comportamiento del sistema. 

1.  **Supervisión de los registros en tiempo real con Live Tail:** utilice [Live Tail de Registros de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) para ver los datos de registro en tiempo real. Puede supervisar activamente las actividades operativas de su aplicación a medida que se producen, lo que proporciona una visibilidad inmediata del rendimiento del sistema y de los posibles problemas. 

1.  **Aproveche Información de colaboradores**: utilice [Información de colaboradores de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) para identificar a los principales interlocutores en dimensiones de alta cardinalidad, como las direcciones IP o los agentes de usuario. 

1.  **Implementación de filtros de métricas de Registros de CloudWatch**: configure los [filtros de métricas de Registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) para convertir los datos de registro en métricas procesables. Esto le permite configurar alarmas o analizar más a fondo los patrones. 

1.  **Implementación de la [observabilidad entre cuentas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** supervise y solucione problemas en las aplicaciones que abarcan varias cuentas de una región. 

1.  **Revisión y perfeccionamiento periódicos**: revise periódicamente sus estrategias de análisis de registros para recoger toda la información pertinente y optimizar continuamente el rendimiento de las aplicaciones. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 

 **Documentos relacionados:** 
+  [Analyzing Log Data with CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Using CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [Creating and Managing CloudWatch Log Metric Filters](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Videos relacionados:** 
+  [Analyze Log Data with CloudWatch Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Use CloudWatch Contributor Insights to Analyze High-Cardinality Data](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Ejemplos relacionados:** 
+  [CloudWatch Logs Sample Queries](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Análisis de los rastreos de la carga de trabajo
<a name="ops_workload_observability_analyze_workload_traces"></a>

 El análisis de los datos de rastreo es crucial para lograr una visión integral del recorrido operativo de una aplicación. Al visualizar y comprender las interacciones entre varios componentes, se puede ajustar el rendimiento, identificar los cuellos de botella y mejorar las experiencias de los usuarios. 

 **Resultado deseado:** logre una visibilidad clara de las operaciones distribuidas de su aplicación, lo que permite una resolución de problemas más rápida y una mejor experiencia del usuario. 

 **Patrones comunes de uso no recomendados:** 
+  Pasar por alto los datos de rastreo y confiar únicamente en los registros y las métricas. 
+  No se correlacionan los datos de rastreo con los registros asociados. 
+  Hacer caso omiso de las métricas derivadas de los rastreos, como la latencia y las tasas de errores. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Mejore la solución de problemas y reduzca el tiempo medio de resolución (MTTR). 
+  Obtenga información sobre las dependencias y su impacto. 
+  Identifique y corrija rápidamente los problemas de rendimiento. 
+  Utilice las métricas derivadas de los rastreos para tomar decisiones informadas. 
+  Mejore la experiencia del usuario mediante interacciones de componentes optimizadas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) ofrece un conjunto completo para el análisis de datos de rastreo, que proporciona una visión integral de las interacciones del servicio, supervisa las actividades de los usuarios y detecta problemas de rendimiento. Características como ServiceLens, X-Ray Insights, X-Ray Analytics y Amazon DevOps Guru mejoran la profundidad de la información procesable derivada de los datos de rastreo. 

### Pasos para la implementación
<a name="implementation-steps"></a>

 Los siguientes pasos ofrecen un enfoque estructurado para implementar de manera eficaz el análisis de datos de rastreo mediante servicios de AWS: 

1.  **Integración de AWS X-Ray**: asegúrese de que X-Ray esté integrado con sus aplicaciones para obtener datos de rastreo. 

1.  **Análisis de las métricas de X-Ray**: profundice en las métricas obtenidas de los rastreos de X-Ray, como la latencia, las tasas de solicitudes, las tasas de errores y las distribuciones del tiempo de respuesta mediante el [mapa de servicios](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view) para supervisar el estado de las aplicaciones. 

1.  **Uso de ServiceLens**: aproveche el mapa de [ServiceLens](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html) para mejorar la observabilidad de sus servicios y aplicaciones. Esto permite la visualización integrada de rastreos, métricas, registros, alarmas y otra información de estado. 

1.  **Activación de X-Ray Insights**: 

   1.  Active [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) para la detección automática de anomalías en los rastreos. 

   1.  Examine la información para identificar patrones y determinar las causas raíz, como el aumento de tasas de errores o latencias. 

   1.  Consulte el cronograma de información para obtener un análisis cronológico de los problemas detectados. 

1.  **Uso de X-Ray Analytics**: [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) le permite explorar a fondo los datos de rastreo, identificar patrones y extraer información. 

1.  **Uso de grupos en X-Ray**: cree grupos en X-Ray para filtrar los rastreos en función de criterios como la alta latencia, lo que permite un análisis más específico. 

1.  **Integración de Amazon DevOps Guru**: utilice [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) para beneficiarse de los modelos de machine learning que identifican anomalías operativas en los rastreos. 

1.  **Uso de CloudWatch Synthetics**: utilice [CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) para crear canarios para supervisar continuamente sus puntos de enlace y flujos de trabajo. Estos canarios pueden integrarse con X-Ray para proporcionar datos de rastreo para un análisis en profundidad de las aplicaciones que se están probando. 

1.  **Uso de Real User Monitoring (RUM)**: con [AWS X-Ray y CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html), puede analizar y depurar la ruta de solicitud a partir de los usuarios finales de su aplicación y hasta los servicios administrados de AWS posteriores. Eso le ayuda a identificar las tendencias de latencia y los errores que afectan a sus usuarios finales. 

1.  **Correlación con registros**: correlacione los [datos de seguimiento con los registros relacionados](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) en la vista de rastreo de X-Ray para obtener una perspectiva detallada del comportamiento de las aplicaciones. Esto le permite ver los eventos de registro directamente asociados con las transacciones rastreadas. 

1.  **Implementación de la [observabilidad entre cuentas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** supervise y solucione problemas en las aplicaciones que abarcan varias cuentas de una región. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Análisis de los registros de la carga de trabajo](ops_workload_observability_analyze_workload_logs.md) 

 **Documentos relacionados:** 
+  [Using ServiceLens to Monitor Application Health](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Exploring Trace Data with X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Detecting Anomalies in Traces with X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Continuous Monitoring with CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **Videos relacionados:** 
+  [Analyze and Debug Applications Using Amazon CloudWatch Synthetics & AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Use AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Ejemplos relacionados:** 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Implementación de X-Ray con AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [Plantillas de canarios de CloudWatch Synthetics](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Creación de alertas procesables
<a name="ops_workload_observability_create_alerts"></a>

 Es crucial detectar y responder rápidamente a las desviaciones en el comportamiento de su aplicación. Es especialmente vital reconocer cuándo están en peligro los resultados basados en los indicadores clave de rendimiento (KPI) o cuándo surgen anomalías inesperadas. Basar las alertas en los KPI garantiza que las señales que reciba estén directamente relacionadas con el impacto empresarial u operativo. Este enfoque de alertas procesables promueve respuestas proactivas y ayuda a mantener el rendimiento y la fiabilidad del sistema. 

 **Resultado deseado:** reciba alertas oportunas, pertinentes y procesables para identificar y mitigar rápidamente los posibles problemas, especialmente cuando los resultados de los KPI están en peligro. 

 **Patrones comunes de uso no recomendados:** 
+  Configurar demasiadas alertas que no son críticas, lo que provoca un exceso de alertas. 
+  No dar prioridad a las alertas en función de los KPI, lo que dificulta la comprensión del impacto empresarial de los problemas. 
+  No abordar las causas raíz, lo que genera alertas repetitivas sobre el mismo problema. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Se ha reducido el exceso de alertas al poner el foco en las alertas pertinentes y procesables. 
+  Se ha mejorado el tiempo de actividad y la fiabilidad del sistema gracias a la detección y mitigación proactivas de problemas. 
+  Se ha mejorado la colaboración en equipo y se ha agilizado la resolución de problemas mediante la integración con herramientas de alerta y comunicación populares. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Para crear un mecanismo de alerta eficaz, es fundamental utilizar métricas, registros y datos de rastreo que indiquen cuándo los resultados basados en los KPI están en peligro o se detectan anomalías. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Definición de los indicadores clave de rendimiento (KPI)**: identifique los KPI de su aplicación. Las alertas deben estar vinculadas a estos KPI para reflejar el impacto empresarial con precisión. 

1.  **Implementación de la detección de anomalías**: 
   +  **Uso de la detección de anomalías de Amazon CloudWatch**: configure la [detección de anomalías de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para detectar automáticamente patrones inusuales, lo que le ayuda a generar alertas únicamente para anomalías auténticas. 
   +  **Uso de AWS X-Ray Insights**: 

     1.  Configure [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) para detectar anomalías en los datos de rastreo. 

     1.  Configure las [notificaciones de X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) para recibir alertas sobre los problemas detectados. 
   +  **Integración con Amazon DevOps Guru**: 

     1.  Use [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) por sus capacidades de machine learning para detectar anomalías operativas con los datos existentes. 

     1.  Vaya a la [configuración de notificaciones](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) en DevOps Guru para configurar alertas de anomalías. 

1.  **Implementación de alertas procesables:** diseñe alertas que proporcionen la información adecuada para tomar medidas de inmediato. 

   1.  Supervise los eventos de [AWS Health con las reglas de Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o intégrelos mediante programación con la API de AWS Health para automatizar las acciones cuando reciba eventos de AWS Health. Puede tratarse de acciones generales, como el envío de todos los mensajes de eventos del ciclo de vida planificado a una interfaz de chat, o de acciones específicas, como el inicio de un flujo de trabajo en una herramienta de administración de servicios de TI. 

1.  **Reducción de la fatiga de alertas**: minimice las alertas no críticas. Cuando los equipos se sienten abrumados porque reciben numerosas alertas insignificantes, podrían dejar pasar problemas críticos, lo que disminuye la eficacia general del mecanismo de alertas. 

1.  **Configuración de alarmas compuestas**: utilice [alarmas compuestas de Amazon CloudWatch](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) para consolidar varias alarmas. 

1.  **Integración con herramientas de alerta**: incorpore herramientas como [Ops Genie](https://www.atlassian.com/software/opsgenie) y [PagerDuty](https://www.pagerduty.com/). 

1.  **Participación de Amazon Q Developer en las aplicaciones de chat**: integre [Amazon Q Developer en las aplicaciones de chat](https://aws.amazon.com/chatbot/) para transmitir alertas a Amazon Chime, Microsoft Teams y Slack. 

1.  **Alerta basada en registros**: utilice [filtros de métricas de registro](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) en CloudWatch para crear alarmas basadas en eventos de registro específicos. 

1.  **Revisión e iteración**: revisite y perfeccione periódicamente las configuraciones de las alertas. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementación de telemetría de la experiencia del usuario](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementación de telemetría de dependencias](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementación de rastreo distribuido](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Análisis de los registros de la carga de trabajo](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Análisis de los rastreos de la carga de trabajo](ops_workload_observability_analyze_workload_traces.md) 

 **Documentos relacionados:** 
+  [Uso de las alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Crear una alarma compuesta](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Crear una alarma de CloudWatch en función de la detección de anomalías](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [DevOps Guru Notifications](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [X-ray insights notifications](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Monitoree, opere y resuelva problemas en sus recursos de AWS con ChatOps interactivos](https://aws.amazon.com/chatbot/) 
+  [Amazon CloudWatch Integration Guide \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Integrate Opsgenie with Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Videos relacionados:** 
+  [Create Composite Alarms in Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Información general de Amazon Q Developer en aplicaciones de chat](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Mutative Commands in Amazon Q Developer in chat applications](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Ejemplos relacionados:** 
+  [Alarms, incident management, and remediation in the cloud with Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutorial: Creating an Amazon EventBridge rule that sends notifications to Amazon Q Developer in chat applications](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Creación de paneles
<a name="ops_workload_observability_create_dashboards"></a>

 Los paneles son la perspectiva centrada en las personas de los datos de telemetría de sus cargas de trabajo. Si bien proporcionan una interfaz visual vital, no deben reemplazar los mecanismos de alerta, sino complementarlos. Cuando se diseñan con cuidado, no solo pueden ofrecer información rápida sobre el estado y el rendimiento del sistema, sino que también pueden presentar a las partes interesadas información en tiempo real sobre los resultados empresariales y el impacto de los problemas. 

 **Resultado deseado:** 

 información clara y procesable sobre el estado del sistema y la empresa mediante representaciones visuales. 

 **Patrones comunes de uso no recomendados:** 
+  Paneles demasiado complicados con demasiadas métricas. 
+  Confiar en los paneles sin alertas de detección de anomalías. 
+  No actualizar los paneles a medida que evolucionan las cargas de trabajo. 

 **Beneficios de esta práctica recomendada:** 
+  Visibilidad inmediata de las métricas y los KPI cruciales del sistema. 
+  Mejora de la comunicación y la comprensión de las partes interesadas. 
+  Información rápida sobre el impacto de los problemas operativos. 

 **Nivel de riesgo si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 **Paneles centrados en la empresa** 

 Los paneles adaptados a los KPI empresariales implican a un mayor número de partes interesadas. Si bien es posible que estas personas no estén interesadas en las métricas del sistema, están interesadas en comprender las implicaciones empresariales de estas cifras. Un panel centrado en la empresa garantiza que todas las métricas técnicas y operativas que se supervisan y analizan estén en sintonía con los objetivos empresariales generales. Esta alineación proporciona claridad y garantiza que todo el mundo coincida en lo que es esencial y lo que no. Además, los paneles que destacan los KPI empresariales suelen ser más procesables. Las partes interesadas pueden comprender rápidamente el estado de las operaciones, las áreas que requieren atención y el impacto potencial en los resultados empresariales. 

 Con esto en mente, al crear sus paneles, asegúrese de que haya un equilibrio entre las métricas técnicas y los KPI empresariales. Ambos son vitales, pero se dirigen a públicos diferentes. Lo ideal sería disponer de paneles que proporcionen una visión integral del estado y el rendimiento del sistema y, al mismo tiempo, hagan hincapié en los resultados empresariales clave y sus implicaciones. 

 Los paneles de Amazon CloudWatch son páginas de inicio personalizables en la consola de CloudWatch que puede utilizar para supervisar sus recursos en una vista única, incluso aquellos que se reparten entre diferentes Regiones de AWS y cuentas. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Creación de un panel básico:** [cree un panel nuevo en CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html) y asígnele un nombre descriptivo. 

1.  **Uso de los widgets de Markdown:** antes de sumergirse en las métricas, use [widgets de Markdown](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html) para agregar contexto textual en la parte superior de su panel de control. Debe explicar lo que cubre el panel, la importancia de las métricas representadas y también puede contener enlaces a otros paneles y herramientas de solución de problemas. 

1.  **Creación de variables de panel:** [integre variables de panel](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html) cuando sea necesario para permitir vistas de panel dinámicas y flexibles. 

1.  **Creación de widgets de métricas:** [agregue widgets de métricas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html) para visualizar las diversas métricas que emite su aplicación. Adapte estos widgets para que representen de forma eficaz el estado del sistema y los resultados empresariales. 

1.  **Consultas de Información de registros:** utilice [Información de registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) para obtener métricas procesables de sus registros y mostrar esta información en su panel de control. 

1.  **Configuración de alarmas:** integre las [alarmas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) en su panel de control para ver rápidamente cualquier métrica que supere los umbrales. 

1.  **Uso de Información de colaboradores:** integre [Información de colaboradores de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) para analizar los campos de alta cardinalidad y comprender mejor a los principales contribuyentes de su recurso. 

1.  **Diseño de widgets personalizados:** para necesidades específicas que no satisfagan los widgets estándar, considere la posibilidad de crear [widgets personalizados](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html). Pueden proceder de varios orígenes de datos o representar los datos de formas únicas. 

1.  **Utilice AWS Health:** AWS Health es el origen de información sobre el estado de los recursos de Nube de AWS. Utilice [Panel de AWS Health](https://health.aws.amazon.com/health/status) directamente o utilice los datos de AWS Health en los paneles y las herramientas propios para disponer de la información adecuada para tomar decisiones con conocimiento de causa. 

1.  **Iteración y ajuste:** a medida que evolucione la aplicación, revisite periódicamente el panel para asegurarse de que siga siendo relevante. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Análisis de los registros de la carga de trabajo](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Análisis de los rastreos de la carga de trabajo](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 

 **Documentos relacionados:** 
+  [La creación de paneles para la visibilidad operativa](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Uso de paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **Videos relacionados:** 
+  [Create Cross Account & Cross Region CloudWatch Dashboards](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 - Gain enterprise visibility with Nube de AWS operation dashboards)](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Ejemplos relacionados:** 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Supervisión de aplicaciones con Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [AWS Health Events Intelligence Dashboards and Insights](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualize AWS Health events using Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 

# OPS 9. ¿Cómo hace para comprender el estado de las operaciones?
<a name="ops-09"></a>

 Defina, capture y analice las métricas de las operaciones para obtener visibilidad de los eventos de operaciones y poder tomar las medidas adecuadas. 

**Topics**
+ [

# OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Comunicación del estado y las tendencias para garantizar la visibilidad de la operación
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Revisión de las métricas de las operaciones y priorización de las mejoras
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Obtenga objetivos y KPI que definan el éxito de las operaciones de su organización y determine las métricas que los reflejen. Establezca líneas de base como puntos de referencia y reevalúelas periódicamente. Desarrolle mecanismos para recopilar estas métricas de los equipos para su evaluación. Las métricas de [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) proporcionan un método de uso extendido para medir el progreso en el uso de prácticas de DevOps de entrega de software. 

 **Resultado deseado:** 
+ La organización publica y comparte los objetivos y los KPI de los equipos de operaciones.
+ Establece métricas que reflejan estos KPI. Algunos ejemplos podrían ser:
  +  Profundidad de la cola de tickets o antigüedad media de los tickets. 
  +  Recuento de tickets agrupado por tipo de problema. 
  +  Tiempo dedicado a resolver problemas con o sin un procedimiento operativo estandarizado (SOP). 
  +  Cantidad de tiempo empleado en recuperarse de un error producido al introducir código. 
  +  Volumen de llamadas 

 **Patrones comunes de uso no recomendados:** 
+  No se cumplen los plazos de implementación porque los desarrolladores se ven obligados a llevar a cabo tareas de solución de problemas. Los equipos de desarrollo abogan por más personal, pero no pueden indicar cuántas personas necesitan porque no se puede medir el tiempo empleado. 
+  Se configuró un servicio de asistencia de nivel 1 para gestionar las llamadas de los usuarios. Con el tiempo, se agregaron más cargas de trabajo, pero no se asignó personal al servicio de asistencia de nivel 1. La satisfacción de los clientes se resiente a medida que aumenta la duración de las llamadas y los problemas tardan más en resolverse, pero la administración no ve ningún indicador de ello, lo que impide tomar medidas. 
+  Una carga de trabajo problemática se ha transferido a un equipo de operaciones independiente para su gestión. A diferencia de otras cargas de trabajo, esta nueva carga no se suministró con la documentación y los manuales de procedimientos adecuados. Por lo tanto, los equipos dedican más tiempo a solucionar problemas y hacer frente a errores. Sin embargo, no hay métricas que lo documenten, lo que dificulta la rendición de cuentas. 

 **Beneficios de establecer esta práctica recomendada:** mientras que la supervisión de la carga de trabajo muestra el estado de nuestras aplicaciones y servicios, la supervisión de los equipos de operaciones proporciona a los propietarios información sobre los cambios que se producen entre los consumidores de esas cargas de trabajo, como los cambios en las necesidades empresariales. Mida la eficacia de estos equipos y evalúelos con respecto a los objetivos empresariales mediante la creación de métricas que puedan reflejar el estado de las operaciones. Las métricas pueden resaltar los problemas de asistencia o identificar cuándo se producen desviaciones respecto a un objetivo de nivel de servicio. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

Programe tiempo con la dirección empresarial y las partes interesadas para determinar los objetivos generales del servicio. Determine cuáles deberían ser las tareas de los distintos equipos de operaciones y qué desafíos podrían presentárseles. Con estos, haga una lluvia de ideas sobre los indicadores clave de rendimiento (KPI) para reflejar los objetivos operativos. Podría ser la satisfacción del cliente, el tiempo transcurrido desde la concepción de la característica hasta la implementación, el tiempo medio de resolución de problemas o las eficiencias de costes.

 A partir de los KPI, identifique las métricas y los orígenes de datos que podrían reflejar mejor estos objetivos. La satisfacción del cliente podría ser una combinación de varios indicadores, como los tiempos de espera o respuesta de las llamadas, las puntuaciones de satisfacción y los tipos de problemas planteados. Los tiempos de implementación podrían ser la suma del tiempo necesario para las pruebas y la implementación, además de las correcciones posteriores a la implementación que deban agregarse. Las estadísticas que muestran el tiempo dedicado a diferentes tipos de problemas (o el recuento de esos problemas) pueden proporcionar una panorámica de dónde se necesita un esfuerzo específico. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+ [Quick: uso de KPI ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Uso de métricas de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Creación de paneles ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ How to track your cost optimization KPIs with KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [Guía sobre AWS DevOps](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Ejemplos relacionados:** 
+ [Monitoree el rendimiento de su entrega de software mediante herramientas nativas de AWS de monitoreo y observabilidad](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [Equilibre la velocidad y la estabilidad de la implementación con las métricas de DORA](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [Ejemplo de métricas operativas de MLOP en el sector de servicios financieros](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ How to track your cost optimization KPIs with the KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Comunicación del estado y las tendencias para garantizar la visibilidad de la operación
<a name="ops_operations_health_communicate_status_trends"></a>

 Es necesario conocer el estado de sus operaciones y la dirección de sus tendencias para identificar qué resultados corren peligro, si se puede respaldar o no el trabajo adicional o los efectos que los cambios han tenido en sus equipos. Durante los eventos de operaciones, disponer de páginas de estado que los usuarios y los equipos de operaciones puedan consultar para obtener información puede reducir la presión sobre los canales de comunicación y difundir la información de forma proactiva. 

 **Resultado deseado:** 
+  La dirección de operaciones puede ver de un vistazo el volumen de llamadas que reciben sus equipos y las actividades que se están llevando a cabo, como las implementaciones. 
+  Las alertas se difunden a las partes interesadas y las comunidades de usuarios cuando se producen repercusiones en las operaciones normales. 
+  La dirección de la organización y las partes interesadas pueden consultar una página de estado en respuesta a una alerta o una repercusión y obtener información sobre un evento operativo, como puntos de contacto, información de tickets y tiempos de recuperación estimados. 
+  Los informes se ponen a disposición de la dirección y otras partes interesadas para mostrar las estadísticas de las operaciones, como el volumen de llamadas durante un periodo de tiempo, las puntuaciones de satisfacción de los usuarios, el número de entradas pendientes y su antigüedad. 

 **Patrones comunes de uso no recomendados:** 
+  Una carga de trabajo deja de funcionar y un servicio no está disponible. El volumen de llamadas aumenta a medida que los usuarios quieren saber qué pasa. Los administradores contribuyen al aumento del volumen de solicitudes, pues quieren saber quién está trabajando en el problema. Varios equipos de operaciones duplican sus esfuerzos al tratar de investigar. 
+  El interés por una nueva capacidad lleva a la reasignación de varios miembros del personal a tareas de ingeniería. No se proporcionan refuerzos y los tiempos de resolución de problemas aumentan. Esta información no se recopila, y la dirección no se da cuenta del problema hasta después de varias semanas y de que los usuarios muestren su insatisfacción. 

 **Beneficios de establecer esta práctica recomendada:** durante los eventos operativos que afectan a la empresa, se puede desperdiciar mucho tiempo y energía solicitando información a varios equipos para intentar comprender la situación. Al establecer paneles y páginas de estado ampliamente difundidos, las partes interesadas pueden obtener rápidamente información sobre si se detectó o no un problema, quién se encarga del problema o cuándo se espera que las operaciones vuelvan a la normalidad. Esto evita que los miembros del equipo dediquen demasiado tiempo a comunicar su estado a los demás y dediquen más tiempo a abordar los problemas. 

 Además, los paneles y los informes pueden proporcionar información a los responsables de la toma de decisiones y a las partes interesadas para que evalúen cómo los equipos de operaciones pueden responder a las necesidades empresariales y cómo se asignan sus recursos. Esto es crucial para determinar si se cuenta con los recursos adecuados para respaldar a la empresa. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Cree paneles en los que se muestren las métricas clave actuales de sus equipos de operaciones y póngalos a disposición tanto de la dirección de operaciones como de la administración. 

 Cree páginas de estado que se puedan actualizar rápidamente para mostrar cuándo se produce un incidente o evento, quién es el propietario y quién coordina la respuesta. Comparta en esta página todos los pasos o soluciones que los usuarios deberían tener en cuenta y difunda ampliamente la ubicación. Anime a los usuarios a comprobar primero esta ubicación cuando se enfrenten a un problema desconocido. 

 Recopile y proporcione informes que muestren el estado de las operaciones a lo largo del tiempo y distribúyalos entre la dirección y los responsables de la toma de decisiones para ilustrar el trabajo de operaciones junto con los desafíos y las necesidades. 

 Comparta con los equipos las métricas e informes que mejor reflejen los objetivos y los KPI y en qué aspectos han influido a la hora de impulsar el cambio. Dedique tiempo a estas actividades para aumentar la importancia de las operaciones dentro de los equipos y entre ellos. 

 Utilice [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) junto a paneles propios o integre eventos de AWS Health en ellos para que los equipos puedan correlacionar los problemas de la aplicación con el estado del servicio AWS. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+ [OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Documentos relacionados:** 
+ [Measure Progress](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [La creación de paneles para la visibilidad operativa](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Ejemplos relacionados:** 
+ [Operaciones de datos](https://aws.amazon.com/solutions/app-development/data-operations)
+ [ How to track your cost optimization KPIs with KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [La importancia de los indicadores clave de rendimiento (KPI) para las migraciones a gran escala a la nube](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Revisión de las métricas de las operaciones y priorización de las mejoras
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Destinar tiempo y recursos dedicados a revisar el estado de las operaciones garantiza que atender la línea empresarial diaria siga siendo una prioridad. Reúna a la dirección de operaciones y las partes interesadas para revisar periódicamente las métricas, reafirmar o modificar las metas y los objetivos y dar prioridad a las mejoras. 

 **Resultado deseado:** 
+  La dirección y el personal de operaciones se reúnen periódicamente para revisar las métricas durante un periodo de informe determinado. Se comunican los desafíos, se celebran las victorias y se comparten las lecciones aprendidas. 
+  Las partes interesadas y la dirección empresarial reciben información periódica sobre el estado de las operaciones y se les pide su opinión sobre los objetivos, los KPI y las iniciativas futuras. Se analizan y contextualizan las compensaciones entre la prestación de servicios, las operaciones y el mantenimiento. 

 **Patrones comunes de uso no recomendados:** 
+  Se lanza un nuevo producto, pero los equipos de operaciones de nivel 1 y nivel 2 no cuentan con la formación adecuada para ofrecer soporte ni cuentan con personal adicional. La dirección no ve las métricas que muestran el empeoramiento de los tiempos de resolución de los tickets y el aumento del volumen de incidentes. No se toman medidas hasta que han transcurrido varias semanas, cuando el número de suscriptores comienza a caer porque los usuarios descontentos abandonan la plataforma. 
+  Hace mucho tiempo que existe un proceso manual para efectuar el mantenimiento de una carga de trabajo. Si bien había interés por automatizar, esta era una prioridad baja dada la poca importancia del sistema. Sin embargo, con el tiempo, el sistema ha ido ganando importancia y ahora estos procesos manuales consumen la mayor parte del tiempo de las operaciones. No hay recursos programados para proporcionar más herramientas a las operaciones, lo que provoca el agotamiento del personal a medida que aumentan las cargas de trabajo. La dirección se da cuenta cuando se les informa que el personal se va a la competencia. 

 **Beneficios de establecer esta práctica recomendada:** en algunas organizaciones, puede ser desafiante asignar el mismo tiempo y atención que se dedica a la prestación de servicios y a los nuevos productos u ofertas. Cuando esto ocurre, la línea empresarial puede resentirse a medida que el nivel de servicio esperado se deteriora lentamente. Esto se debe a que las operaciones no cambian ni evolucionan con el crecimiento de la empresa y pronto pueden quedarse rezagadas. Sin una revisión periódica de la información que recopilan las operaciones, es posible que el riesgo para la empresa solo resulte evidente cuando sea demasiado tarde. Al asignar tiempo para revisar las métricas y los procedimientos tanto entre el personal de operaciones como con la dirección, el papel crucial que desempeñan las operaciones permanece visible y los riesgos se pueden identificar mucho antes de que alcancen niveles críticos. Los equipos de operaciones obtienen una mejor perspectiva de los cambios e iniciativas empresariales inminentes, lo que permite llevar a cabo esfuerzos proactivos. La visibilidad de la dirección de las métricas de las operaciones muestra el papel que desempeñan estos equipos en la satisfacción del cliente, tanto interna como externa, y les permite sopesar mejor las opciones en función de las prioridades, o garantizar que las operaciones tengan el tiempo y los recursos para cambiar y evolucionar con las nuevas iniciativas empresariales y de carga de trabajo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Dedique tiempo a revisar las métricas de las operaciones entre las partes interesadas y los equipos de operaciones y a revisar los datos de los informes. Analice estos informes en el contexto de las metas y los objetivos de la organización para determinar si se están cumpliendo. Identifique los orígenes de ambigüedad en los que las metas no estén claras o en las que pueda haber conflictos entre lo que se pide y lo que se da. 

 Identifique dónde pueden ayudar el tiempo, las personas y las herramientas a obtener resultados operativos. Determine a qué KPI afectaría esto y cuáles deberían ser los objetivos de éxito. Revisite todo esto periódicamente a fin de garantizar que las operaciones cuenten con los recursos suficientes para respaldar la línea empresarial. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+ [ Amazon Athena ](https://aws.amazon.com/athena/)
+ [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [Amazon Quick](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [Recopilación de métricas y registros de instancias de Amazon EC2 y en los servidores en las instalaciones con el agente de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Uso de métricas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)

# OPS 10. ¿Cómo administra la carga de trabajo y los eventos de operaciones?
<a name="ops-10"></a>

 Prepare y valide los procedimientos de respuesta a los eventos para minimizar la interrupción de la carga de trabajo. 

**Topics**
+ [

# OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Implementación de un proceso por alerta
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Priorización de los eventos operativos según el impacto empresarial
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Definición de rutas de escalado
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Definición de un plan de comunicación con los clientes en caso de eventos que afecten al servicio
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Comunicación del estado a través de paneles
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Automatización de las respuestas a eventos
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas
<a name="ops_event_response_event_incident_problem_process"></a>

La capacidad de administrar eficazmente los eventos, los incidentes y los problemas es clave para mantener el estado y el rendimiento de las cargas de trabajo. Es crucial reconocer y comprender las diferencias entre estos elementos para desarrollar una estrategia eficaz de respuesta y resolución. Establecer y seguir un proceso bien definido para cada aspecto ayuda a su equipo a administrar de forma rápida y eficaz cualquier desafío operativo que surja.

 **Resultado deseado:** su organización administra eficazmente los eventos, incidentes y problemas operativos a través de procesos bien documentados y almacenados de forma centralizada. Estos procesos se actualizan constantemente para reflejar los cambios, agilizar la gestión y mantener una alta fiabilidad del servicio y el rendimiento de las cargas de trabajo. 

 **Patrones comunes de uso no recomendados:** 
+  Responde a los eventos reactivamente, en lugar de hacerlo proactivamente. 
+  Se adoptan enfoques incoherentes para diferentes tipos de eventos o incidentes. 
+ Su organización no analiza los incidentes ni aprende de ellos para evitar que ocurran en el futuro.

 **Beneficios de establecer esta práctica recomendada:** 
+  Procesos de respuesta simplificados y estandarizados. 
+  Reducción del impacto de los incidentes en los servicios y los clientes. 
+  Resolución rápida de problemas. 
+  Mejora continua de los procesos operativos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 La implementación de esta práctica recomendada implica el seguimiento de los eventos de la carga de trabajo. Dispone de procesos para gestionar las incidencias y los problemas. Los procesos se documentan, se comparten y se actualizan con frecuencia. Los problemas se identifican, se priorizan y se solucionan. 

 **Comprensión de los eventos, los incidentes y los problemas** 
+  **Eventos:** un *evento* consiste en observar de una acción, un suceso o un cambio de estado. Los eventos pueden planificarse o no y pueden originarse de forma interna o externa en la carga de trabajo. 
+  **Incidentes**: los *incidentes* son eventos que requieren una respuesta, como interrupciones no planificadas o mermas en la calidad del servicio. Representan interrupciones que requieren atención inmediata para restablecer el funcionamiento normal de las cargas de trabajo. 
+  **Problemas:** los *problemas* son las causas subyacentes de uno o más incidentes. Identificar y resolver los problemas implica profundizar en los incidentes para evitar que ocurran en el futuro. 

### Pasos para la implementación
<a name="implementation-steps"></a>

 **Events (Eventos** 

1.  **Supervisión de los eventos:** 
   +  [Implemente la observabilidad](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) y [utilice la observabilidad de la carga de trabajo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Las acciones de supervisión hechas por un usuario, un rol o un servicio de AWS se registran como eventos en [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Responda a los cambios operativos en sus aplicaciones en tiempo real con [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Evalúe, supervise y registre de forma continua los cambios en la configuración de los recursos con [AWS Config](https://aws.amazon.com/config/). 

1.  **Creación de procesos:** 
   +  Desarrolle un proceso para evaluar qué eventos son importantes y requieren supervisión. Esto implica establecer umbrales y parámetros para las actividades normales y anómalas. 
   +  Determine los criterios por los que un evento pasa a ser un incidente. Por ejemplo, puede basarse en la gravedad, el impacto en los usuarios o la desviación del comportamiento esperado. 
   +  Revise periódicamente los procesos de supervisión y respuesta a los eventos. Por ejemplo, analice los incidentes pasados o ajuste los umbrales y los mecanismos de alerta. 

 **Incidentes** 

1.  **Respuesta a los incidentes:** 
   +  Utilice la información de las herramientas de observabilidad para identificar y responder rápidamente a los incidentes. 
   +  Implemente el [Centro de operaciones de AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) para agregar, organizar y priorizar los elementos e incidentes operativos. 
   +  Utilice servicios como [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) y [AWS X-Ray](https://aws.amazon.com/xray/) para llevar a cabo análisis más detallados y solucionar problemas. 
   +  Considere la posibilidad de usar [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) para mejorar la administración de incidentes, aprovechando sus capacidades proactivas, preventivas y de detección. AMS amplía el soporte operativo con servicios como la supervisión, la detección y respuesta a incidentes y la administración de la seguridad. 
   +  Los clientes de Enterprise Support pueden usar [Detección y respuesta a incidentes de AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que proporciona supervisión proactiva continua y administración de incidentes para las cargas de trabajo de producción. 

1.  **Creación de un proceso de administración de incidentes:** 
   +  Establezca un proceso estructurado de administración de incidentes, que incluya protocolos de comunicación, pasos para resolver problemas y roles claramente establecidos. 
   +  Integre la administración de incidentes con herramientas como [Amazon Q Developer en las aplicaciones de chat](https://aws.amazon.com/chatbot/) para una respuesta y coordinación eficientes. 
   +  Clasifique los incidentes por gravedad, con [planes de respuesta a incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) predefinidos para cada categoría. 

1.  **Aprenda y mejore:** 
   +  Lleve a cabo un [análisis posterior al incidente](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) para comprender las causas fundamentales y la eficacia de la resolución. 
   +  Actualice y mejore continuamente los planes de respuesta en función de las revisiones y en la evolución de los procedimientos. 
   +  Documente y comparta las lecciones aprendidas entre los equipos para mejorar la resiliencia operativa. 
   +  Los clientes de Enterprise Support pueden solicitar el [taller de administración de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) a su Technical Account Manager. Este taller guiado pone a prueba su actual plan de respuesta a incidentes y le ayuda a identificar áreas de mejora. 

 **Problemas de** 

1.  **Identificación de los problemas:** 
   +  Utilice los datos de incidentes anteriores para identificar patrones periódicos que pueden indicar problemas sistémicos más profundos. 
   +  Aproveche herramientas como [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) y [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para analizar las tendencias y descubrir los problemas subyacentes. 
   +  Involucre a equipos multifuncionales, incluidas las unidades de operaciones, desarrollo y negocios, para obtener diversas perspectivas sobre las causas raíz. 

1.  **Creación de un proceso de administración de problemas:** 
   +  Desarrolle un proceso estructurado para la administración de problemas y céntrese en soluciones a largo plazo en lugar de en soluciones rápidas. 
   +  Incorpore técnicas de análisis de causa raíz (RCA) para investigar y comprender las causas subyacentes de los incidentes. 
   +  Actualice las políticas, los procedimientos y la infraestructura operativos en función de los resultados para evitar que se repitan. 

1.  **Continuación de la mejora:** 
   +  Fomente una cultura de aprendizaje y mejora constantes, y anime a los equipos a identificar y abordar de manera proactiva los posibles problemas. 
   +  Revise periódicamente los procesos y herramientas de administración de problemas para adaptarlos a la evolución de la empresa y la tecnología. 
   +  Comparta información y prácticas recomendadas con el resto de la organización para crear un entorno operativo más resiliente y eficiente. 

1.  **Uso de AWS Support:** 
   +  Utilice los recursos de asistencia de AWS, como [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), para obtener orientación proactiva y recomendaciones de optimización. 
   +  Los clientes de Enterprise Support pueden acceder a programas especializados como [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) para obtener asistencia durante eventos críticos. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Uso de manuales de estrategias para investigar problemas](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+  [AWS Security Incident Response Guide](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [AWS Incident Detection and Response ](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Incident Management in the Age of DevOps and SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Videos relacionados:** 
+ [Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - The Amazon Builders' Library: 25 yrs of Amazon operational excellence ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Ejemplos relacionados:** 
+  [AWS Proactive Services – Incident Management Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [How to Automate Incident Response with PagerDuty and Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Engage Incident Responders with the On-Call Schedules in Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Improve the Visibility and Collaboration during Incident Handling in Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Incident reports and service requests in AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Servicios relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Implementación de un proceso por alerta
<a name="ops_event_response_process_per_alert"></a>

 Establecer un proceso claro y definido para cada alerta de su sistema es esencial para una administración de incidentes eficaz y eficiente. Esta práctica garantiza que cada alerta genere una respuesta específica y procesable, lo que mejora la fiabilidad y la capacidad de respuesta de sus operaciones. 

 **Resultado deseado:** cada alerta inicia un plan de respuesta específico y bien definido. Siempre que sea posible, las respuestas se automatizan, con una propiedad clara y una ruta de escalado definida. Las alertas están vinculadas a una base de conocimientos actualizada para que cualquier operador pueda responder de forma coherente y eficaz. Las respuestas son rápidas y uniformes en todos los ámbitos, lo que mejora la eficiencia y la fiabilidad operativas. 

 **Patrones comunes de uso no recomendados:** 
+  Las alertas no tienen un proceso de respuesta predefinido, lo que lleva a resoluciones improvisadas y tardías. 
+  La sobrecarga de alertas hace que se pasen por alto alertas importantes. 
+  Las alertas se gestionan de forma incoherente debido a la falta de propiedad y responsabilidad claras. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Se ha reducido la fatiga de las alertas al generar solo alertas procesables. 
+  Disminución del tiempo medio de resolución (MTTR) de los problemas operativos. 
+  Disminución del tiempo medio de investigación (MTTI), lo que ayuda a reducir el MTTR. 
+  Mejora de la capacidad para escalar las respuestas operativas. 
+  Mejora de la coherencia y la fiabilidad en la gestión de los eventos operativos. 

 Por ejemplo, cuenta con un proceso definido para eventos de AWS Health para cuentas críticas, incluidas las alarmas de operaciones, los problemas operativos, los eventos de ciclo de vida planificados (como actualizar las versiones de Amazon EKS antes de que los clústeres se actualicen automáticamente) y ofrece a sus equipos la capacidad para monitorear activamente estos eventos, comunicarse y responder al respecto. Estas acciones lo ayudan a evitar las interrupciones del servicio causadas por cambios en AWS o mitigarlas más rápidamente cuando se producen problemas inesperados. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Tener un proceso por alerta implica establecer un plan de respuesta claro para cada alerta, automatizar las respuestas siempre que sea posible y perfeccionar continuamente estos procesos en función de los comentarios operativos y los requisitos en evolución. 

### Pasos para la implementación
<a name="implementation-steps"></a>

 El siguiente diagrama muestra el flujo de trabajo de administración de incidentes en [Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Está diseñado para responder rápidamente a los problemas operativos mediante la creación automática de incidentes en respuesta a eventos específicos de [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) o [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Cuando se crea un incidente, ya sea de forma automática o manual, el Administrador de incidentes centraliza la administración del incidente, organiza la información relevante de los recursos de AWS e inicia planes de respuesta predefinidos. Esto incluye ejecutar manuales de procedimientos de Automatización de Systems Manager para tomar medidas inmediatas, así como crear un elemento de trabajo operativo principal en el Centro de operaciones para hacer un seguimiento de las tareas y los análisis relacionados. Este proceso simplificado acelera y coordina la respuesta a los incidentes en todo su entorno de AWS. 

![\[Diagrama de flujo en el que se muestra cómo funciona el Administrador de incidentes: Amazon Q Developer en las aplicaciones de chat, los planes y contactos de escalado y los manuales de procedimientos desembocan en planes de respuesta, que a su vez se convierten en análisis e incidentes. Amazon CloudWatch también se refleja en los planes de respuesta.\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


 

1.  **Uso de alarmas compuestas:** cree [alarmas compuestas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) en CloudWatch para agrupar las alarmas relacionadas, reducir el ruido y permitir respuestas más significativas. 

1.  **Manténgase informado con [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html):** AWS Health es la fuente autorizada de información sobre el estado de los recursos de Nube de AWS. Utilice AWS Health para visualizar y recibir notificaciones de cualquier evento de servicio actual y de los próximos cambios, como los eventos de ciclo de vida planificados, de forma que pueda tomar medidas para mitigar los impactos. 

   1.  [Cree notificaciones de eventos de AWS Health adaptadas al propósito](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) para el correo electrónico y los canales de chat a través de [AWS User Notifications](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e intégrelas mediante programación con [las herramientas de supervisión y alerta a través de Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o la [API de AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planifique y realice un seguimiento del progreso de los eventos de estado que requieran una acción mediante la integración con herramientas de administración de cambios o ITSM (como [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) o [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) que ya pueda utilizar a través de Amazon EventBridge o la API de AWS Health. 

   1.  Si usa AWS Organizations, habilite la [vista de organización para AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) a fin de agregar eventos de AWS Health en todas las cuentas. 

1.  **Integración de las alarmas de Amazon CloudWatch con el Administrador de incidentes:** configure las alarmas de CloudWatch para crear incidentes automáticamente en [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integración de Amazon EventBridge con el Administrador de incidentes:** cree [reglas de EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) para reaccionar ante los eventos y crear incidentes mediante planes de respuesta definidos. 

1.  **Preparación para incidentes en el Administrador de incidentes:** 
   +  Establezca [planes de respuesta](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) detallados en el Administrador de incidentes para cada tipo de alerta. 
   +  Establezca canales de chat mediante [Amazon Q Developer en aplicaciones de chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) conectadas a los planes de respuesta del Administrador de incidentes, lo que facilita la comunicación en tiempo real durante los incidentes en plataformas como Slack, Microsoft Teams y Amazon Chime. 
   +  Incorpore [manuales de procedimientos de Automatización de Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) en el Administrador de incidentes para impulsar respuestas automatizadas a los incidentes. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 

 **Documentos relacionados:** 
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Uso de las alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Setting up Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [Preparing for incidents in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Videos relacionados:** 
+ [Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Ejemplos relacionados:** 
+ [AWS Workshops - Administrador de incidentes de AWS Systems Manager - Automate incident response to security events ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Priorización de los eventos operativos según el impacto empresarial
<a name="ops_event_response_prioritize_events"></a>

 Responder con prontitud a los eventos operativos es fundamental, pero no todos los eventos son iguales. Cuando se establecen prioridades en función del impacto en la empresa, también se da prioridad a los eventos que pueden tener consecuencias importantes, como la seguridad, las pérdidas financieras, las infracciones de la normativa o los daños a la reputación. 

 **Resultado deseado:** las respuestas a los eventos operativos se priorizan en función del posible impacto en las operaciones y los objetivos comerciales. Esto hace que las respuestas sean eficientes y efectivas. 

 **Patrones comunes de uso no recomendados:** 
+  Todos los eventos se tratan con el mismo nivel de urgencia, lo que genera confusión y retrasos a la hora de abordar los problemas críticos. 
+  No puede distinguir entre eventos de alto y bajo impacto, lo que lleva a una mala asignación de recursos. 
+  Su organización carece de un marco de priorización claro, lo que deriva en respuestas incongruentes a los eventos operativos. 
+  Los eventos se priorizan en función del orden en el que se informan, en lugar de su impacto en los resultados empresariales. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Garantiza que las funciones empresariales críticas reciban la atención en primer lugar, lo que minimiza los posibles daños. 
+  Mejora la asignación de recursos durante varios eventos simultáneos. 
+  Mejora la capacidad de la organización para mantener la confianza y cumplir con los requisitos reglamentarios. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Cuando nos enfrentamos a múltiples eventos operativos, es esencial adoptar un enfoque estructurado para la priorización en función del impacto y la urgencia. Este enfoque le ayuda a tomar decisiones informadas, dirigir los esfuerzos hacia donde más se necesitan y mitigar el riesgo para la continuidad del negocio. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Evaluación del impacto:** desarrolle un sistema de clasificación para evaluar la gravedad de los eventos en términos de su posible impacto en las operaciones y los objetivos comerciales. En el siguiente ejemplo se muestran las categorías de impacto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Evaluación de la urgencia:** defina los niveles de urgencia para determinar la rapidez con la que un evento necesita una respuesta, teniendo en cuenta factores como la seguridad, las implicaciones financieras y los acuerdos de nivel de servicio (SLA). En el siguiente ejemplo se muestran las categorías de urgencia:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Creación de una matriz de priorización:** 
   +  Utilice una matriz para hacer referencias cruzadas del impacto y la urgencia mediante la asignación de niveles de prioridad a diferentes combinaciones. 
   +  Haga que todos los miembros del equipo responsables de las respuestas a los eventos operativos puedan acceder a la matriz y comprenderla. 
   +  La siguiente matriz de ejemplo muestra la gravedad del incidente según la urgencia y el impacto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Formación y comunicación:** forme a los equipos de respuesta sobre la matriz de priorización y la importancia de seguirla durante un evento. Comunique el proceso de priorización a todas las partes interesadas para establecer expectativas claras. 

1.  **Integración con la respuesta a incidentes:** 
   +  Incorpore la matriz de priorización en sus planes y herramientas de respuesta a incidentes. 
   +  Automatice la clasificación y la priorización de los eventos siempre que sea posible para acelerar los tiempos de respuesta. 
   +  Los clientes de Enterprise Support pueden aprovechar la [Detección y respuesta a incidentes de AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que proporciona supervisión proactiva y administración de incidentes ininterrumpidas para las cargas de trabajo de producción. 

1.  **Revisión y adaptación:** revise de forma periódica la eficacia del proceso de priorización y haga ajustes en función de las opiniones y los cambios en el entorno empresarial. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS03-BP03 Fomento de la derivación](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas](ops_operations_health_measure_ops_goals_kpis.md) 

 **Documentos relacionados:** 
+ [Atlassian - Understanding incident severity levels](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [IT Process Map - Checklist Incident Priority](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Definición de rutas de escalado
<a name="ops_event_response_define_escalation_paths"></a>

Establezca rutas de escalado claras dentro de sus protocolos de respuesta a incidentes para facilitar una acción oportuna y eficaz. Esto incluye especificar las indicaciones para el escalado, detallar el proceso de escalado y aprobar previamente las acciones para acelerar la toma de decisiones y reducir el tiempo medio de resolución (MTTR).

 **Resultado deseado:** un proceso estructurado y eficiente que eleve los incidentes al personal apropiado, lo que reduce los tiempos de respuesta y el impacto. 

 **Patrones comunes de uso no recomendados:** 
+ La falta de claridad en los procedimientos de recuperación conduce a respuestas improvisadas durante los incidentes críticos.
+ La ausencia de permisos y propiedad definidos provoca retrasos cuando se necesita una acción urgente.
+  Las partes interesadas y los clientes no reciben información de acuerdo con las expectativas. 
+  Las decisiones importantes se retrasan. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Respuesta simplificada a los incidentes mediante procedimientos de escalado predefinidos. 
+  Se ha reducido el tiempo de inactividad con acciones preaprobadas y una propiedad clara. 
+  Mejora de la asignación de recursos y los ajustes del nivel de soporte según la gravedad del incidente. 
+  Mejora de la comunicación con las partes interesadas y los clientes. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Las rutas de escalado bien definidas son cruciales para una respuesta rápida a los incidentes. Administrador de incidentes de AWS Systems Manager permite establecer planes de escalado estructurados y programas de guardia, que alertan al personal adecuado para que esté preparado para actuar cuando se produzcan incidentes. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Configuración de las indicaciones de escalado:** configure [alarmas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) para crear un incidente en [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  ** Configuración de programas de guardia:** cree [programas de guardia](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) en el Administrador de incidentes que se ajusten a sus rutas de escalado. Proporcione al personal de guardia los permisos y las herramientas necesarios para actuar con rapidez. 

1.  **Detalle los procedimientos de escalado:** 
   +  Determine las condiciones específicas en las que se debe escalar un incidente. 
   +  Cree [planes de escalado](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) en el Administrador de incidentes. 
   +  Los canales de escalado deben consistir en un contacto o un programa de guardia. 
   +  Defina las funciones y responsabilidades del equipo en cada nivel de escalado. 

1.  **Aprobación previa de las acciones de mitigación:** colabore con los responsables de la toma de decisiones para aprobar previamente las acciones para los escenarios previstos. Utilice los [manuales de procedimientos de Automatización de Systems Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) integrados con el Administrador de incidentes para acelerar la resolución de incidentes. 

1.  **Especificación de la propiedad:** identifique claramente a los propietarios internos de cada paso de la ruta de escalado. 

1.  **Detalle los escalados de terceros:** 
   +  Documente los acuerdos de nivel de servicio (SLA) de terceros y ajústelos a los objetivos internos. 
   +  Establezca protocolos claros para la comunicación con los proveedores durante los incidentes. 
   +  Integre los contactos de los proveedores en las herramientas de administración de incidentes para que se pueda acceder directamente a ellos. 
   +  Lleve a cabo simulacros periódicos que incluyan situaciones de respuesta de terceros. 
   +  Mantenga la información de escalado de proveedores bien documentada y accesible. 

1.  **Formación y práctica de los planes de escalado:** forme a su equipo en el proceso de escalado y lleve a cabo simulacros o días de juego de respuesta a incidentes con regularidad. Los clientes de Enterprise Support pueden solicitar un [taller de administración de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/). 

1.  **Continuación de la mejora:** revise la eficacia de sus rutas de escalado con regularidad. Actualice sus procesos en función de las lecciones aprendidas a partir de los análisis posteriores a los incidentes y los comentarios continuos. 

 **Nivel de esfuerzo para el plan de implementación:** moderado 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Implementación de un proceso por alerta](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+ [Administrador de incidentes de AWS Systems Manager Escalation Plans](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [Working with on-call schedules in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [Creación y administración de manuales de procedimientos](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [Temporary elevated access management with AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [Atlassian - Escalation policies for effective incident management](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Definición de un plan de comunicación con los clientes en caso de eventos que afecten al servicio
<a name="ops_event_response_push_notify"></a>

 Es fundamental comunicarse eficazmente durante los eventos que afectan al servicio para mantener la confianza y la transparencia con los clientes. Un plan de comunicación bien definido ayuda a su organización a compartir información de forma rápida y clara, tanto interna como externamente, durante los incidentes. 

 **Resultado deseado:** 
+  Un plan de comunicación sólido que informe eficazmente a los clientes y partes interesadas durante los eventos que afectan al servicio. 
+  Transparencia en la comunicación para generar confianza y reducir la ansiedad de los clientes. 
+  Minimizar el impacto de los eventos que afectan el servicio en la experiencia del cliente y las operaciones comerciales. 

 **Patrones comunes de uso no recomendados:** 
+  Una comunicación inadecuada o tardía genera confusión e insatisfacción en los clientes. 
+  Los mensajes demasiado técnicos o vagos no transmiten el impacto real a los usuarios. 
+  No existe una estrategia de comunicación predefinida, lo que da como resultado mensajes incoherentes y reactivos. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Mejora de la confianza y la satisfacción de los clientes mediante una comunicación proactiva y clara. 
+  Se ha reducido la carga de los equipos de asistencia al abordar de forma preventiva las inquietudes de los clientes. 
+  Capacidad mejorada para administrar los incidentes y recuperarse de ellos de forma eficaz. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 La creación de un plan de comunicación integral para los eventos que afectan al servicio implica múltiples facetas, desde la elección de los canales correctos hasta la elaboración del mensaje y el tono. El plan debe ser adaptable, escalable y contemplar diferentes escenarios de interrupción del servicio. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Definición de roles y responsabilidades:** 
   +  Asigne un major incident manager para supervisar las actividades de respuesta a los incidentes. 
   +  Designe a un communications manager que se encargue de coordinar todas las comunicaciones externas e internas. 
   +  Incluya al support manager para proporcionar una comunicación congruente a través de los tiques de soporte. 

1.  **Identificación de los canales de comunicación:** seleccione canales como el chat del lugar de trabajo, el correo electrónico, los SMS, las redes sociales, las notificaciones dentro de las aplicaciones y las páginas de estado. Estos canales deben ser resilientes y capaces de funcionar de forma independiente durante los eventos que afecten al servicio. 

1.  **Comunicación con los clientes rápida, clara y regular:** 
   +  Elabore plantillas para varios escenarios de deterioro del servicio, haciendo énfasis en la simplicidad y los detalles esenciales. Incluya información sobre el deterioro del servicio, el tiempo de resolución esperado y el impacto. 
   +  Utilice Amazon Pinpoint para alertar a los clientes mediante notificaciones push, notificaciones dentro de las aplicaciones, correos electrónicos, mensajes de texto, mensajes de voz y mensajes a través de canales personalizados. 
   +  Utilice Amazon Simple Notification Service (Amazon SNS) para alertar a los suscriptores mediante programación o por correo electrónico, notificaciones push móviles y mensajes de texto. 
   +  Comparta de forma pública el panel de Amazon CloudWatch para comunicar el estado del incidente. 
   +  Fomente la participación en las redes sociales: 
     +  Supervise activamente las redes sociales para entender la opinión de los clientes. 
     +  Publique en las plataformas de redes sociales para proporcionar información pública actualizada e implicar a la comunidad. 
     +  Prepare plantillas para una comunicación clara y coherente en las redes sociales. 

1.  **Coordinación de la comunicación interna:** implemente protocolos internos mediante herramientas como Amazon Q Developer en aplicaciones de chat para coordinar a los equipos y facilitar la comunicación. Utilice los paneles de CloudWatch para comunicar el estado. 

1.  ** Orquestación de la comunicación con herramientas y servicios dedicados: ** 
   +  Utilice Administrador de incidentes de AWS Systems Manager con Amazon Q Developer en aplicaciones de chat para configurar canales de chat dedicados para la comunicación interna y la coordinación en tiempo real durante los incidentes. 
   +  Utilice manuales de procedimientos de Administrador de incidentes de AWS Systems Manager para automatizar las notificaciones a los clientes a través de Amazon Pinpoint, Amazon SNS o herramientas de terceros, como las plataformas de redes sociales, durante los incidentes. 
   +  Incorpore flujos de trabajo de aprobación en los manuales de procedimientos para revisar y autorizar, de forma opcional, todas las comunicaciones externas antes de enviarlas. 

1.  ** Práctica y mejora:** 
   +  Lleve a cabo formaciones sobre el uso de herramientas y estrategias de comunicación. Permita a los equipos tomar decisiones oportunas durante los incidentes. 
   +  Ponga a prueba el plan de comunicación mediante simulacros o días de juego. Use estas pruebas para ajustar los mensajes y evaluar la eficacia de los canales. 
   +  Implemente mecanismos para conocer la opinión de los clientes y evaluar así la eficacia de la comunicación durante los incidentes. Desarrolle continuamente el plan de comunicación en función de los comentarios y las necesidades cambiantes. 

 **Nivel de esfuerzo para el plan de implementación:** alto 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Comunicación del estado a través de paneles](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+ [Atlassian - Incident communication best practices](https://www.atlassian.com/incident-management/incident-communication)
+ [Atlassian - How to write a good status update](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [PagerDuty - A Guide to Incident Communications](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Videos relacionados:** 
+ [ Atlassian - Create your own incident communication plan: Incident templates ](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Ejemplos relacionados:** 
+  [Panel de AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Comunicación del estado a través de paneles
<a name="ops_event_response_dashboards"></a>

 Utilice los paneles como una herramienta estratégica para transmitir el estado operativo y las métricas clave en tiempo real a diferentes públicos, incluidos los equipos técnicos internos, los líderes y los clientes. Estos paneles ofrecen una representación visual centralizada del estado del sistema y el rendimiento empresarial, lo que mejora la transparencia y la eficiencia de la toma de decisiones. 

 **Resultado deseado:** 
+  Sus paneles proporcionan una visión completa del sistema y de las métricas empresariales relevantes para las diferentes partes interesadas. 
+  Las partes interesadas pueden acceder de forma proactiva a la información operativa, lo que reduce la necesidad de solicitudes de estado frecuentes. 
+  La toma de decisiones en tiempo real mejora durante las operaciones normales y los incidentes. 

 **Patrones comunes de uso no recomendados:** 
+ Los ingenieros que se unen a una llamada de administración de incidentes necesitan actualizaciones de estado para ponerse al día.
+ Confiar en los informes manuales para la administración, lo que provoca retrasos y posibles imprecisiones.
+  Los equipos de operaciones se interrumpen con frecuencia para actualizar el estado durante los incidentes. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Ofrece a las partes interesadas acceso inmediato a información crítica, promoviendo la toma de decisiones informadas. 
+  Reduce las ineficiencias operativas al minimizar los informes manuales y las consultas frecuentes sobre el estado. 
+  Aumenta la transparencia y la confianza a través de la visibilidad en tiempo real del rendimiento del sistema y las métricas empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Los paneles comunican eficazmente el estado del sistema y las métricas empresariales y se pueden adaptar a las necesidades de los diferentes grupos de audiencia. Las herramientas como los paneles de Amazon CloudWatch y Amazon Quick ayudan a crear paneles interactivos y en tiempo real para la monitorización del sistema y la inteligencia empresarial. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Identificación de las necesidades de las partes interesadas:** determine las necesidades de información específicas de los diferentes grupos de audiencia, como los equipos técnicos, los líderes y los clientes. 

1.  **Elija las herramientas adecuadas:** seleccione las herramientas adecuadas, como los [paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) para supervisar el sistema y [Amazon Quick](https://aws.amazon.com/quicksight/) para obtener inteligencia empresarial interactiva. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) proporciona una experiencia lista para usar en [Panel de AWS Health](https://health.aws.amazon.com/health/home) o puede utilizar eventos de estado en Amazon EventBridge o mediante la API de AWS Health para aumentar los paneles propios. 

1.  **Diseñe paneles eficaces:** 
   +  Diseñe paneles para presentar con claridad las métricas y los KPI relevantes, asegurándose de que sean comprensibles y procesables. 
   +  Incorpore vistas a nivel de sistema y empresarial según sea necesario. 
   +  Incluya paneles de alto nivel (para obtener una visión general) y de bajo nivel (para un análisis detallado). 
   +  Integre alarmas automatizadas en los paneles para resaltar los problemas críticos. 
   +  Incluya umbrales de métricas y objetivos importantes en los paneles para poder acceder a esos datos de forma inmediata. 

1.  **Integración de los orígenes de datos:** 
   +  Utilice [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para agregar y mostrar métricas de varios servicios de AWS y [consultar métricas de otros orígenes de datos](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), creando una vista unificada de las métricas empresariales y de estado de su sistema. 
   +  Utilice características como [Información de registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para consultar y visualizar los datos de registro de diferentes aplicaciones y servicios. 
   +  Utilice los eventos de AWS Health para mantenerse informado sobre el estado operativo y los problemas operativos confirmados de los servicios de AWS mediante la [API de AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) o los [eventos de AWS Health en Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Acceso de autoservicio:** 
   +  Comparta paneles de CloudWatch con las partes interesadas pertinentes para acceder a la información de autoservicio mediante [características para compartir paneles](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Asegúrese de que se pueda acceder fácilmente a los paneles y que incluyan información actualizada en tiempo real. 

1.  **Actualice y ajuste los paneles cada cierto tiempo:** 
   +  Modifique los paneles de forma periódica para alinearlos con las cambiantes necesidades empresariales y las opiniones de las partes interesadas. 
   +  Revise los paneles cada cierto tiempo para que sigan siendo pertinentes a la hora de transmitir la información necesaria. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP05 Creación de paneles](ops_workload_observability_create_dashboards.md) 

 **Documentos relacionados:** 
+ [ La creación de paneles para la visibilidad operativa ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Uso de paneles de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Cree paneles flexibles con variables de panel ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Compartir paneles de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Consulta de métricas de otros orígenes de datos ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Agregue un widget personalizado a un panel de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Ejemplos relacionados:** 
+ [ One Observability Workshop - Dashboards ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatización de las respuestas a eventos
<a name="ops_event_response_auto_event_response"></a>

 La automatización de las respuestas a eventos es clave para una gestión operativa rápida, coherente y sin errores. Cree procesos simplificados y utilice herramientas para administrar y responder automáticamente a los eventos, lo que minimiza las intervenciones manuales y mejora la eficacia operativa. 

 **Resultado deseado:** 
+  Se han reducido los errores humanos y tiempos de resolución más rápidos mediante la automatización. 
+  Gestión de eventos operativos coherente y fiable. 
+  Se ha mejorado la eficiencia operativa y la fiabilidad del sistema. 

 **Patrones comunes de uso no recomendados:** 
+ La gestión manual de eventos provoca retrasos y errores.
+ La automatización se pasa por alto en las tareas críticas y repetitivas.
+  Las tareas manuales y repetitivas provocan saturación de alertas y la omisión de problemas críticos. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Respuestas rápidas a los eventos, lo que reduce el tiempo de inactividad del sistema. 
+  Operaciones fiables con una gestión de eventos automatizada y coherente. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Incorpore la automatización para crear flujos de trabajo operativos eficientes y minimizar las intervenciones manuales. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Identificación de las oportunidades de automatización:** determine qué tareas repetitivas pueden automatizarse, como la resolución de problemas, el enriquecimiento de tiques, la administración de la capacidad, el escalado, las implementaciones y las pruebas. 

1.  **Identificación de los avisos de automatización:** 
   +  evalúe y defina las condiciones o métricas específicas que inician las respuestas automatizadas mediante [acciones de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Use [Amazon EventBridge](https://aws.amazon.com/eventbridge/) para responder a eventos en servicios de AWS, cargas de trabajo personalizadas y aplicaciones SaaS. 
   +  Tenga en cuenta los eventos de inicio, como [entradas de registro específicas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [umbrales de métricas de rendimiento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) o [cambios de estado](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) en los recursos de AWS. 

1.  **Implementación de la automatización basada en eventos:** 
   +  Utilice los manuales de procedimientos de Automatización de AWS Systems Manager para simplificar las tareas de mantenimiento, implementación y corrección. 
   +  La [creación de incidentes en el Administrador de incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) recopila y agrega automáticamente detalles sobre los recursos de AWS involucrados en el incidente. 
   +  Supervise las cuotas de forma proactiva mediante el [Monitor de cuotas para AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Ajuste automáticamente la capacidad con [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) para mantener la disponibilidad y el rendimiento. 
   +  Automatice las canalizaciones de desarrollo con [Amazon CodeCatalyst](https://codecatalyst.aws/explore). 
   +  Haga pruebas de humo o supervise continuamente los puntos de conexión y las API [mediante la supervisión sintética](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). 

1.  **Mitigación de los riesgos mediante la automatización:** 
   +  Implemente [respuestas de seguridad automatizadas](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) para abordar los riesgos con rapidez. 
   +  Use [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) para reducir los cambios en la configuración. 
   +  [Corrija los recursos no conformes con Reglas de AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html). 

 **Nivel de esfuerzo para el plan de implementación:** alto 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Implementación de un proceso por alerta](ops_event_response_process_per_alert.md) 

 **Documentos relacionados:** 
+  [Using Systems Manager Automation runbooks with Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Creating incidents in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [Service Quotas de AWS](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Monitor resource usage and send notifications when approaching quotas](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [What is Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Uso de las alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Uso de las acciones de alarma de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Remediating Noncompliant Resources with Reglas de AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Creating metrics from log events using filters](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems ManagerState Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Videos relacionados:** 
+ [ Create Automation Runbooks with AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [ How to automate IT Operations on AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM automation rules ](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [ Start your software project fast with Amazon CodeCatalyst blueprints ](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Ejemplos relacionados:** 
+ [Amazon CodeCatalyst Tutorial: Creating a project with the Modern three-tier web application blueprint](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [ One Observability Workshop ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [Respond to incidents using Incident Manager](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)