# Opere
<a name="a-operate"></a>

**Topics**
+ [OPS 8 ¿Qué hace para comprender el estado de la carga de trabajo?](w2aac19b5b9b5.md)
+ [OPS 9 ¿Qué hace para comprender el estado de las operaciones?](w2aac19b5b9b7.md)
+ [OPS 10 ¿Cómo administra la carga de trabajo y los eventos de operaciones?](w2aac19b5b9b9.md)

# OPS 8 ¿Qué hace para comprender el estado de la carga de trabajo?
<a name="w2aac19b5b9b5"></a>

 Defina, capture y analice las métricas de cargas de trabajo para obtener visibilidad de los eventos de cargas de trabajo y poder tomar las medidas adecuadas. 

**Topics**
+ [OPS08-BP01 Identificar los indicadores clave de rendimiento](ops_workload_health_define_workload_kpis.md)
+ [OPS08-BP02 Definir las métricas de las cargas de trabajo](ops_workload_health_design_workload_metrics.md)
+ [OPS08-BP03 Recopilar y analizar métricas de cargas de trabajo](ops_workload_health_collect_analyze_workload_metrics.md)
+ [OPS08-BP04 Establecer referencias de métricas de cargas de trabajo](ops_workload_health_workload_metric_baselines.md)
+ [OPS08-BP05 Descubrir los patrones esperados de actividad para la carga de trabajo](ops_workload_health_learn_workload_usage_patterns.md)
+ [OPS08-BP06 Alertar cuando los resultados de la carga de trabajo corren riesgo](ops_workload_health_workload_outcome_alerts.md)
+ [OPS08-BP07 Alertar cuando se detectan anomalías en la carga de trabajo](ops_workload_health_workload_anomaly_alerts.md)
+ [OPS08-BP08 Validar el logro de resultados y la efectividad de los KPI y las métricas](ops_workload_health_biz_level_view_workload.md)

# OPS08-BP01 Identificar los indicadores clave de rendimiento
<a name="ops_workload_health_define_workload_kpis"></a>

 Identifique los indicadores clave de rendimiento (KPI) en función de los resultados empresariales deseados (por ejemplo, la tasa de pedidos, la tasa de retención de clientes y los beneficios frente a los gastos de explotación) y de los resultados de los clientes (por ejemplo, la satisfacción de los clientes). Evalúe los KPI para determinar el éxito de la carga de trabajo. 

 **Antipatrones usuales:** 
+  Los directivos de la empresa le preguntan por el éxito de una carga de trabajo para satisfacer las necesidades de la empresa, pero no tiene un marco de referencia para determinar el éxito. 
+  No es capaz de determinar si la aplicación comercial que utiliza para su organización es rentable. 

 **Beneficios de establecer esta práctica recomendada:** La identificación de los indicadores clave de rendimiento permite obtener resultados empresariales como prueba del estado y el éxito de su carga de trabajo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Identificar los indicadores clave de rendimiento: identifique los indicadores clave de rendimiento (KPI) en función de los resultados que desee obtener para la empresa y los clientes. Evalúe los KPI para determinar el éxito de la carga de trabajo. 

# OPS08-BP02 Definir las métricas de las cargas de trabajo
<a name="ops_workload_health_design_workload_metrics"></a>

 Defina las métricas de las cargas de trabajo para medir la consecución de los KPI (por ejemplo, carros de compra abandonados, pedidos realizados, coste, precio, y gasto de la carga de trabajo asignada). Defina las métricas de las cargas de trabajo para medir su estado (por ejemplo, el tiempo de respuesta de la interfaz, la tasa de errores, las solicitudes realizadas, las solicitudes completadas y la utilización). Evalúe las métricas para determinar si la carga de trabajo está logrando los resultados deseados y para entender el estado de la carga de trabajo. 

 Debe enviar los datos de registro a un servicio como CloudWatch Logs, y generar métricas a partir de las observaciones del contenido de registro necesario. 

 CloudWatch tiene funcionalidades especializadas como [Amazon CloudWatch Insights for .NET y SQL Server](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/appinsights-what-is.html) y [Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) que pueden ayudarle identificando y configurando métricas, registros y alarmas clave en sus recursos de aplicación y pila de tecnología específicamente soportados. 

 **Patrones de uso no recomendados comunes:** 
+  Ha definido métricas estándar, no asociadas a ningún KPI ni adaptadas a ninguna carga de trabajo. 
+  Tiene errores en los cálculos de las métricas que darán resultados no válidos. 
+  No tiene ninguna métrica definida para su carga de trabajo. 
+  Solo se mide la disponibilidad. 

 **Beneficios de establecer esta práctica recomendada:** al definir y evaluar las métricas de la carga de trabajo, puede determinar el estado de su carga de trabajo y medir la consecución de los resultados empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Definir las métricas de las cargas de trabajo: defina las métricas de las cargas de trabajo para medir el logro de los KPI. Defina las métricas de la carga de trabajo para medir el estado de la misma y sus componentes individuales. Evalúe las métricas para determinar si la carga de trabajo está logrando los resultados deseados y para entender el estado de la carga de trabajo. 
  +  [Publique métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Buscar y filtrar datos de registro](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Publique métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Buscar y filtrar datos de registro](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

# OPS08-BP03 Recopilar y analizar métricas de cargas de trabajo
<a name="ops_workload_health_collect_analyze_workload_metrics"></a>

 Realice exámenes periódicos y proactivos de las métricas para identificar las tendencias y determinar dónde se necesitan respuestas apropiadas. 

 Debe agregar los datos de registro de su aplicación, los componentes de la carga de trabajo, los servicios y las llamadas a la API a un servicio como CloudWatch Logs. Genere métricas a partir de la observación del contenido de los registros necesarios para poder conocer el rendimiento de las actividades de las operaciones. 

 En AWS, puede analizar las métricas de la carga de trabajo e identificar los problemas operativos utilizando las capacidades de machine learning de [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html). AWS DevOps Guru proporciona una notificación de los problemas operativos con [recomendaciones específicas](https://docs.aws.amazon.com/devops-guru/latest/userguide/view-insights.html) y proactivas para resolver problemas y mantener el buen estado de la aplicación. 

 En el Modelo de responsabilidad compartida de AWS, las partes de supervisión se entregan a través de [Panel de AWS Health](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/). Este panel proporciona alertas y directrices de corrección cuando se producen eventos en AWS que podrían afectarle. Los clientes con suscripciones a Business and Enterprise Support también tienen acceso a la [API de AWS Health](https://docs.aws.amazon.com/health/latest/ug/getting-started-api.html), permitiendo la integración con sus sistemas de gestión de eventos. 

 En AWS, puede [exportar sus datos de registro a Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) o bien [enviar los registros directamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) a [Amazon S3](https://aws.amazon.com/s3/) para almacenamiento a largo plazo. Con [AWS Glue](https://aws.amazon.com/glue/), puede descubrir y preparar sus datos de registro para el análisis, almacenando los metadatos asociados en [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), a través de su integración nativa con AWS Glue, puede utilizarse para analizar sus datos de registro, consultándolos mediante SQL estándar. Utilizando una herramienta de inteligencia empresarial como [Quick](https://aws.amazon.com/quicksight/) puedes visualizar, explorar y analizar sus datos. 

 Una solución [alternativa](https://aws.amazon.com/solutions/centralized-logging/?did=sl_card&trk=sl_card) sería utilizar [Amazon OpenSearch Service](https://aws.amazon.com/elasticsearch-service/) y [OpenSearch Dashboards](https://aws.amazon.com/elasticsearch-service/the-elk-stack/kibana/) para recopilar, analizar y mostrar registros en AWS en múltiples cuentas y Regiones de AWS. 

 **Antipatrones usuales:** 
+  El equipo de diseño de la red le pide los índices actuales de utilización del ancho de banda de la red. Usted proporciona las métricas actuales y la utilización de la red está en el 35 %. Reducen la capacidad de los circuitos como medida de ahorro de costes, lo que provoca problemas de conectividad generalizados, ya que su medición puntual no refleja la tendencia de las tasas de utilización. 
+  Su router ha fallado. Ha estado registrando errores de memoria no críticos con una frecuencia cada vez mayor hasta su error total. No detectó esta tendencia y, por tanto, no sustituyó la memoria defectuosa antes de que el router provocara una interrupción del servicio. 

 **Beneficios de establecer esta práctica recomendada:** Mediante la recopilación y el análisis de las métricas de la carga de trabajo, se puede comprender el estado de la carga de trabajo y conocer las tendencias que pueden afectar a la carga de trabajo o a la consecución de los resultados empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Recopilar y analizar métricas de cargas de trabajo: realice exámenes periódicos y proactivos de las métricas para identificar las tendencias y determinar dónde se necesitan respuestas apropiadas. 
  +  [Uso de métricas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Recopile métricas y registros de las instancias de Amazon EC2 y de los servidores locales con el agente de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Amazon OpenSearch Service](https://aws.amazon.com/elasticsearch-service/) 
+  [Panel de AWS Health](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [Recopile métricas y registros de las instancias de Amazon EC2 y de los servidores locales con el agente de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Uso de métricas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS08-BP04 Establecer referencias de métricas de cargas de trabajo
<a name="ops_workload_health_workload_metric_baselines"></a>

 Establezca referencias para las mediciones a fin de proporcionar valores esperados como base para la comparación e identificación de los componentes de bajo y alto rendimiento. Identifique los umbrales de mejora, investigación e intervención. 

 **Patrones de uso no recomendados comunes:** 
+  Un servidor se está ejecutando al 95 % de utilización de CPU y se le pregunta si eso es bueno o malo. La utilización de CPU en ese servidor no ha sido objeto de una referencia, por lo que no tiene idea de si es buena o mala. 

 **Beneficios de establecer esta práctica recomendada:** Al definir los valores de las métricas de referencia, podrá evaluar los valores actuales de las métricas y sus tendencias para determinar si es necesario adoptar medidas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Establezca referencias para la medición de la carga de trabajo: de este modo, podrá proporcionar valores esperados como base para la comparación. 
  +  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 

# OPS08-BP05 Descubrir los patrones esperados de actividad para la carga de trabajo
<a name="ops_workload_health_learn_workload_usage_patterns"></a>

 Establezca patrones de actividad de la carga de trabajo para identificar comportamientos anómalos, de modo que pueda responder adecuadamente cuando sea necesario. 

 CloudWatch a través de la función [Detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) aplica algoritmos estadísticos y de machine learning para generar un rango de valores esperados que representan el comportamiento normal de las métricas. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) puede utilizarse para identificar comportamientos anómalos mediante la correlación de eventos, el análisis de registros y la aplicación de machine learning para analizar la telemetría de la carga de trabajo. Cuando se detectan comportamientos inesperados, proporciona las [métricas y los eventos relacionados](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) con recomendaciones para abordar el comportamiento. 

 **Patrones de uso no recomendados comunes:** 
+  Está revisando los registros de utilización de la red y ve que la utilización de la red aumentó entre las 11:30 h y las 13:30 h y luego de nuevo entre las 16:30 h y las 18:00 h. No sabe si esto debe considerarse normal o no. 
+  Sus servidores web se reinician cada noche a las 3:00 h. No sabe si este es un comportamiento esperado. 

 **Beneficios de establecer esta práctica recomendada:** al aprender patrones de comportamiento, puede reconocer comportamientos inesperados y adoptar medidas en caso necesario. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Descubrir los patrones esperados de actividad para la carga de trabajo: establezca patrones de actividad de la carga de trabajo para determinar cuando el comportamiento está fuera de los valores esperados para que pueda responder apropiadamente si es necesario. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [Detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 

# OPS08-BP06 Alertar cuando los resultados de la carga de trabajo corren riesgo
<a name="ops_workload_health_workload_outcome_alerts"></a>

 Emita una alerta cuando los resultados de la carga de trabajo corran riesgo para que pueda responder apropiadamente en caso necesario. 

 Lo ideal es que haya identificado previamente un umbral de métrica sobre el que pueda emitir una alarma o un evento que pueda utilizar para activar una respuesta automática. 

 En AWS, puede usar [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) para crear scripts de valor controlado para supervisar sus puntos de conexión y las API realizando las mismas acciones que sus clientes. La telemetría generada y la [información obtenida](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_Details.html) pueden permitirle identificar los problemas antes de que sus clientes se vean afectados. 

 También puede utilizar [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para buscar y analizar de forma interactiva sus datos de registro utilizando un lenguaje de consulta especialmente diseñado. CloudWatch Logs Insights automáticamente [descubre los campos en los registros,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData-discoverable-fields.html) desde servicios de AWS y eventos de registros personalizados en JSON. Se adapta a su volumen de registros y a la complejidad de las consultas y le ofrece respuestas en segundos, ayudándole a buscar los factores que contribuyen a un incidente. 

 **Antipatrones usuales:** 
+  No tiene conectividad a la red. Nadie se da cuenta. Nadie trata de identificar el motivo ni de tomar medidas para restablecer la conectividad. 
+  Tras un parche, sus instancias persistentes han dejado de estar disponibles, interrumpiendo a los usuarios. Sus usuarios han abierto casos de asistencia. No se ha notificado a nadie. Nadie está tomando medidas. 

 **Beneficios de establecer esta práctica recomendada:** Al identificar que los resultados empresariales están en riesgo y alertar para que se tomen medidas, se tiene la oportunidad de prevenir o mitigar el impacto de un incidente. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Alertar cuando los resultados de la carga de trabajo están en riesgo: emita una alerta cuando los resultados de la carga de trabajo estén en riesgo para que pueda responder apropiadamente si es necesario. 
  +  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocación de funciones de Lambda utilizando notificaciones de Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Invocación de funciones de Lambda utilizando notificaciones de Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP07 Alertar cuando se detectan anomalías en la carga de trabajo
<a name="ops_workload_health_workload_anomaly_alerts"></a>

 Emita una alerta cuando se detecten anomalías en la carga de trabajo para poder responder adecuadamente en caso necesario. 

 El análisis de las métricas de la carga de trabajo a lo largo del tiempo puede establecer patrones de comportamiento que puede cuantificar lo suficiente como para definir un evento o dar una alarma en respuesta. 

 Una vez entrenada, la función [Detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) se puede usar para [alertar](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) sobre las anomalías detectadas o puede proporcionar valores esperados superpuestos en un [gráfico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) de datos métricos para una comparación continua. 

 **Antipatrones usuales:** 
+  Las ventas de su sitio web de venta al por menor han aumentado de forma repentina y espectacular. Nadie se da cuenta. Nadie está tratando de identificar lo que generó este aumento. Nadie está tomando medidas para garantizar la calidad de las experiencias de los clientes bajo la carga adicional. 
+  Tras la aplicación de un parche, sus servidores persistentes se reinician con frecuencia, interrumpiendo a los usuarios. Sus servidores suelen reiniciarse hasta tres veces, pero no más de eso. Nadie se da cuenta. Nadie trata de identificar por qué ocurre esto. 

 **Beneficios de establecer esta práctica recomendada:** Al comprender los patrones de comportamiento de la carga de trabajo, puede identificar comportamientos inesperados y adoptar medidas en caso necesario. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Bajo 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Alertar cuando se detectan anomalías en la carga de trabajo: emita una alerta cuando se detecten anomalías en la carga de trabajo para poder responder adecuadamente si es necesario. 
  +  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocación de funciones de Lambda utilizando notificaciones de Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Invocación de funciones de Lambda utilizando notificaciones de Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP08 Validar el logro de resultados y la efectividad de los KPI y las métricas
<a name="ops_workload_health_biz_level_view_workload"></a>

 Cree una visión a nivel empresarial de sus operaciones de carga de trabajo para determinar si está satisfaciendo las necesidades e identificar las áreas que necesitan mejoras para alcanzar los objetivos empresariales. Valide la eficacia de los KPI y las métricas y revíselos si es necesario. 

 AWS también brinda asistencia para sistemas de análisis de registros de terceros y herramientas de inteligencia comercial a través de las API y SDK del servicio de AWS (por ejemplo, Grafana, Kibana y Logstash). 

 **Patrones de uso no recomendados comunes:** 
+  El tiempo de respuesta de las páginas nunca se ha considerado un factor que contribuya a la satisfacción del cliente. Nunca se ha establecido una métrica o un umbral para el tiempo de respuesta de las páginas. Sus clientes se quejan de la lentitud. 
+  No ha alcanzado sus objetivos de tiempo de respuesta mínimo. En un esfuerzo por mejorar el tiempo de respuesta, ha escalado sus servidores de aplicaciones. Ahora está superando los objetivos de tiempo de respuesta por un margen significativo y también tiene una importante capacidad no utilizada por la que está pagando. 

 **Beneficios de establecer esta práctica recomendada:** al examinar y revisar los KPI y las métricas, comprenderá cómo su carga de trabajo contribuye a la consecución de los resultados de la empresa y podrá identificar los aspectos que deben mejorarse para alcanzar los objetivos empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Bajo 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Validar el logro de resultados y la efectividad de los KPI y las métricas: cree una visión a nivel empresarial de las operaciones de las cargas de trabajo para determinar si está satisfaciendo las necesidades e identificar las áreas que necesitan mejoras para alcanzar los objetivos empresariales. Valide la eficacia de los KPI y las métricas y revíselos si es necesario. 
  +  [Uso de paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [¿Qué es el análisis de registros?](https://aws.amazon.com/log-analytics/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Uso de paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [¿Qué es el análisis de registros?](https://aws.amazon.com/log-analytics/) 

# OPS 9 ¿Qué hace para comprender el estado de las operaciones?
<a name="w2aac19b5b9b7"></a>

 Defina, capture y analice las métricas de las operaciones para obtener visibilidad de los eventos de operaciones y poder tomar las medidas adecuadas. 

**Topics**
+ [OPS09-BP01 Identificar los indicadores clave de rendimiento](ops_operations_health_define_ops_kpis.md)
+ [OPS09-BP02 Definir métricas de operaciones](ops_operations_health_design_ops_metrics.md)
+ [OPS09-BP03 Recopilar y analizar métricas de operaciones](ops_operations_health_collect_analyze_ops_metrics.md)
+ [OPS09-BP04 Establecer referencias de métricas de operaciones](ops_operations_health_ops_metric_baselines.md)
+ [OPS09-BP05 Descubrir patrones esperados de actividad para las operaciones](ops_operations_health_learn_ops_usage_patterns.md)
+ [OPS09-BP06 Alertar cuando los resultados de las operaciones estén en riesgo](ops_operations_health_ops_outcome_alerts.md)
+ [OPS09-BP07 Alertar cuando se detecten anomalías en las operaciones](ops_operations_health_ops_anomaly_alerts.md)
+ [OPS09-BP08 Validar el logro de resultados y la efectividad de los KPI y las métricas](ops_operations_health_biz_level_view_ops.md)

# OPS09-BP01 Identificar los indicadores clave de rendimiento
<a name="ops_operations_health_define_ops_kpis"></a>

 Identifique los indicadores clave de rendimiento (KPI) en función de los resultados empresariales deseados (por ejemplo, las nuevas funciones entregadas) y los resultados de los clientes (por ejemplo, los casos de asistencia al cliente). Evalúe los KPI para determinar el éxito de las operaciones. 

 **Antipatrones usuales:** 
+  La dirección de la empresa le pregunta por el éxito de las operaciones en la consecución de los objetivos empresariales, pero no tiene un marco de referencia para determinar el éxito. 
+  No puede determinar si sus ventanas de mantenimiento tienen un impacto en los resultados del negocio. 

 **Beneficios de establecer esta práctica recomendada:** La identificación de los indicadores clave de rendimiento permite obtener resultados empresariales como prueba del estado y el éxito de sus operaciones. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Identificar los indicadores clave de rendimiento: identifique los indicadores clave de rendimiento (KPI) en función de los resultados que desee obtener para la empresa y los clientes. Evalúe los KPI para determinar el éxito de las operaciones. 

# OPS09-BP02 Definir métricas de operaciones
<a name="ops_operations_health_design_ops_metrics"></a>

 Defina las métricas de las operaciones para medir la consecución de los KPI (por ejemplo, despliegues correctos y despliegues con errores). Defina las métricas de las operaciones para medir el estado de las actividades de las operaciones (por ejemplo, el tiempo medio para detectar un incidente [MTTD] y el tiempo medio de recuperación [MTTR] de un incidente). Evalúe las métricas para determinar si las operaciones obtienen los resultados deseados y para conocer el estado de las actividades de las operaciones. 

 **Patrones de uso no recomendados comunes:** 
+  Las métricas de sus operaciones se basan en lo que el equipo considera razonable. 
+  Tiene errores en los cálculos de las métricas que darán resultados incorrectos. 
+  No tiene ninguna métrica definida para las actividades de las operaciones. 

 **Beneficios de establecer esta práctica recomendada:** Al definir y evaluar las métricas de las operaciones, puede determinar el estado de las actividades de las operaciones y medir la consecución de los resultados empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Defina la métrica de las operaciones: la finalidad es medir el logro de los KPI. Defina la métrica de las operaciones para medir estado de las operaciones y sus actividades. Evalúe las métricas para determinar si las operaciones están obteniendo los resultados deseados y para conocer el estado de las operaciones. 
  +  [Publique métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Buscar y filtrar datos de registro](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [AWS Answers: registro centralizado](https://aws.amazon.com/answers/logging/centralized-logging/) 
+  [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Detecte y reaccione a los cambios en el estado de la canalización con Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Publique métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Buscar y filtrar datos de registro](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Vídeos relacionados:** 
+  Diseñe un plan de monitoreo 

# OPS09-BP03 Recopilar y analizar métricas de operaciones
<a name="ops_operations_health_collect_analyze_ops_metrics"></a>

 Realice exámenes periódicos y proactivos de las métricas para identificar las tendencias y determinar dónde se necesitan respuestas apropiadas. 

 Debe agregar los datos de registro de la ejecución de sus actividades de operaciones y las llamadas a la API de operaciones en un servicio como CloudWatch Logs. Genere métricas a partir de la observación del contenido de los registros necesarios para poder obtener información sobre el rendimiento de las actividades de las operaciones. 

 En AWS, puede [exportar sus datos de registro a Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) o bien [enviar los registros directamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) to [Amazon S3](https://aws.amazon.com/s3/) para el almacenamiento a largo plazo. Con [AWS Glue](https://aws.amazon.com/glue/), puede descubrir y preparar sus datos de registro para el análisis, almacenando los metadatos asociados en [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), a través de su integración nativa con AWS Glue, puede utilizarse para analizar sus datos de registro, consultándolos mediante SQL estándar. Utilizando una herramienta de inteligencia empresarial como [Quick](https://aws.amazon.com/quicksight/) puede visualizar, explorar y analizar sus datos. 

 **Patrones de uso no recomendados comunes:** 
+  La entrega constante de nuevas funciones se considera un indicador clave de rendimiento. No tiene ningún método para medir la frecuencia de los despliegues. 
+  Se registran los despliegues, los despliegues revertidos, las revisiones y las revisiones revertidas para hacer un seguimiento de las actividades de las operaciones, pero nadie revisa las métricas. 
+  Tiene un objetivo de tiempo de recuperación de quince minutos para restaurar una base de datos perdida, lo cual se definió al desplegar el sistema sin usuarios. Ahora tiene diez mil usuarios y lleva dos años funcionando. Una restauración reciente llevó más de dos horas en realizarse. Esto no se registró y nadie lo sabe. 

 **Beneficios de establecer esta práctica recomendada:** mediante la recopilación y el análisis de las métricas de sus operaciones, podrá comprender el estado de las mismas y conocer las tendencias que puedan tener un impacto en sus operaciones o en la consecución de sus resultados empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Recopilar y analizar métricas de operaciones: realice exámenes periódicos y proactivos de las métricas para identificar las tendencias y determinar dónde se necesitan respuestas apropiadas. 
  +  [Uso de métricas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Recopile métricas y registros de las instancias de Amazon EC2 y de los servidores locales con el agente de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Recopile métricas y registros de las instancias de Amazon EC2 y de los servidores locales con el agente de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Uso de métricas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS09-BP04 Establecer referencias de métricas de operaciones
<a name="ops_operations_health_ops_metric_baselines"></a>

 Establezca referencias para las métricas con el fin de proporcionar valores esperados como base para la comparación e identificación de las actividades de las operaciones que están por debajo o por encima de lo esperado. 

 **Patrones de uso no recomendados comunes:** 
+  Le han preguntado cuál es el tiempo previsto para el despliegue. No ha medido el tiempo que tarda en desplegarse y no puede determinar los tiempos previstos. 
+  Le han preguntado cuánto tiempo se tarda en recuperarse de un problema con los servidores de aplicaciones. No tiene información sobre el tiempo de recuperación desde el primer contacto con el cliente. No tiene información sobre el tiempo de recuperación desde la primera identificación de un problema hasta la supervisión. 
+  Se le ha preguntado por cuántas personas del servicio de asistencia se necesitan durante el fin de semana. No tiene ni idea de cuántos casos de asistencia son típicos durante un fin de semana y no puede proporcionar una estimación. 
+  Tiene un objetivo de tiempo de recuperación de quince minutos para restaurar una base de datos perdida, lo cual se definió al desplegar el sistema sin usuarios. Ahora tiene diez mil usuarios y lleva dos años funcionando. No tiene información sobre cómo ha cambiado el tiempo de restauración de su base de datos. 

 **Beneficios de establecer esta práctica recomendada:** al definir los valores de las métricas de referencia, podrá evaluar los valores actuales de las métricas y las tendencias de las mismas para determinar si es necesario adoptar medidas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Descubrir los patrones esperados de actividad de las operaciones: establezca patrones de actividad de las operaciones para determinar cuando el comportamiento está fuera de los valores esperados para que pueda responder apropiadamente si es necesario. 

# OPS09-BP05 Descubrir patrones esperados de actividad para las operaciones
<a name="ops_operations_health_learn_ops_usage_patterns"></a>

 Establezca patrones de actividades de operaciones para identificar actividades anómalas, de modo que pueda responder adecuadamente en caso necesario. 

 **Patrones de uso no recomendados comunes:** 
+  Su tasa de errores en el despliegue ha aumentado sustancialmente en los últimos tiempos. Aborda cada uno de los errores de forma independiente. No se da cuenta de que los errores corresponden a despliegues realizados por un nuevo empleado que no está familiarizado con el sistema de gestión de despliegues. 

 **Beneficios de establecer esta práctica recomendada:** al aprender patrones de comportamiento, puede reconocer comportamientos inesperados y adoptar medidas en caso necesario. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Descubrir los patrones esperados de actividad de las operaciones: establezca patrones de actividad de las operaciones para determinar cuando el comportamiento está fuera de los valores esperados para que pueda responder apropiadamente si es necesario. 

# OPS09-BP06 Alertar cuando los resultados de las operaciones estén en riesgo
<a name="ops_operations_health_ops_outcome_alerts"></a>

 Siempre que los resultados de las operaciones estén en riesgo, se debe generar una alerta y actuar en consecuencia. Los resultados de las operaciones son cualquier actividad que admita una carga de trabajo en producción. Esto incluye todo, desde desplegar nuevas versiones de aplicaciones hasta recuperarse de una interrupción. Los resultados de las operaciones se deben tratar con la misma importancia que los resultados empresariales. 

Los equipos de software deben identificar las métricas y actividades clave de las operaciones y crear alertas para ellas. Las alertas deben ser oportunas y procesables. Si se produce una alerta, debe incluirse una referencia a un runbook o una guía de estrategias correspondiente. Las alertas sin una acción correspondiente pueden conllevar una saturación de alertas.

 **Resultado deseado:** cuando las actividades de las operaciones están en riesgo, se envían alertas para impulsar la acción. Las alertas contienen el contexto de los motivos por los que se produce una alerta e indican una guía de estrategias para investigar o un runbook para mitigarla. En la medida de lo posible, se automatizan los runbooks y se envían notificaciones. 

 **Patrones comunes de uso no recomendados:** 
+ Está investigando un incidente y se están presentando casos de asistencia. Estos casos incumplen el acuerdo de nivel de servicio (SLA), pero no se están generando alertas. 
+ Un despliegue a producción programado para medianoche se retrasa debido a cambios de código de última hora. No se genera ninguna alerta y el despliegue se bloquea.
+ Se produce una interrupción de producción pero no se envían alertas.
+  Su tiempo de despliegue se retrasa sistemáticamente con respecto a las estimaciones. No se toma ninguna medida para investigar. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Las alertas cuando los resultados de las operaciones están en riesgo impulsan su capacidad de prestar asistencia a la carga de trabajo al adelantarse a los problemas. 
+  Los resultados empresariales mejoran gracias a los resultados de las operaciones en buen estado. 
+  Se han mejorado la detección y la reparación de los problemas de las operaciones. 
+  El estado operativo general aumenta. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Se deben definir los resultados de las operaciones para poder generar alertas de ellos. Empiece por definir qué actividades operativas son las más importantes para su organización. ¿Se trata de desplegar a producción en menos de dos horas o de responder a un caso de asistencia en un tiempo determinado? Su organización debe definir las actividades clave de las operaciones y cómo se miden para poder supervisarlas, mejorarlas y generar alertas de ellas. Necesita una ubicación central donde se almacene y analice la carga de trabajo y la telemetría de las operaciones. El mismo mecanismo debe poder emitir una alerta cuando el resultado de una operación esté en peligro. 

 **Ejemplo de cliente** 

 Se ha desencadenado una alarma de CloudWatch durante un despliegue rutinario en AnyCompany Retail. Se ha sobrepasado el plazo de despliegue. Amazon EventBridge ha creado un OpsItem en AWS Systems Manager OpsCenter. El equipo de operaciones en la nube ha utilizado una guía de estrategias para investigar el problema y ha identificado que un cambio de esquema tardaba más de lo previsto. Ha alertado al desarrollador de guardia y ha seguido supervisando el despliegue. Una vez desplegado, el equipo de operaciones en la nube ha resuelto el OpsItem. El equipo analizará el incidente durante una autopsia. 

## Pasos para la aplicación
<a name="implementation-steps"></a>

1. Si no ha identificado los KPI, las métricas ni las actividades de las operaciones, trabaje en la implementación de las prácticas recomendadas anteriores a esta cuestión (OPS09-BP01 a OPS09-BP05). 
   +  Los clientes de Soporte con [Asistencia Enterprise](https://aws.amazon.com/premiumsupport/plans/enterprise/) pueden solicitar el [taller sobre KPI de operaciones](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) a su gerente técnico de cuentas. Este taller de colaboración, que se ofrece sin coste adicional, le ayuda a definir los KPI de las operaciones y las métricas alineadas con los objetivos empresariales. Póngase en contacto con su gerente de cuentas técnicas para obtener más información. 

1.  Una vez que tenga establecidas las actividades de las operaciones, los KPI y las métricas, configure las alertas en su plataforma de observabilidad. Las alertas deben tener una acción asociada, como una guía de estrategias o un runbook. Deben evitarse las alertas sin una acción. 

1.  Con el tiempo, deberá evaluar las métricas de las operaciones, los KPI y las actividades para identificar las áreas de mejora. Capture la retroalimentación de los operadores en los runbooks y guías de estrategias para identificar las áreas de mejora en la respuesta a las alertas. 

1.  Las alertas deben incluir un mecanismo para marcarlas como un falso positivo. Esto debería conllevar una revisión de los umbrales de las métricas. 

 **Nivel de esfuerzo para el plan de implementación:** Medio. Hay varias prácticas recomendadas que deben estar aplicadas antes de implementar esta práctica recomendada. Una vez que se han identificado las actividades de las operaciones y se han establecido los KPI de ellas, deben establecerse las alertas. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP03 Las actividades operativas han identificado a los propietarios responsables de su rendimiento](ops_ops_model_def_activity_owners.md): todas las actividades y resultados de las operaciones deben tener un propietario identificado que sea responsable. Es quien debe recibir la alerta cuando los resultados están en riesgo. 
+  [OPS03-BP02 Los miembros del equipo están capacitados para actuar cuando los resultados están en riesgo](ops_org_culture_team_emp_take_action.md): cuando se produzcan las alertas, su equipo debe tener una agencia para actuar y solucionar el problema. 
+  [OPS09-BP01 Identificar los indicadores clave de rendimiento](ops_operations_health_define_ops_kpis.md): las alertas de los resultados de las operaciones empiezan por identificar los KPI de las operaciones. 
+  [OPS09-BP02 Definir métricas de operaciones](ops_operations_health_design_ops_metrics.md): establezca esta práctica recomendada antes de empezar a generar alertas. 
+  [OPS09-BP03 Recopilar y analizar métricas de operaciones](ops_operations_health_collect_analyze_ops_metrics.md): la recopilación centralizada de las métricas de las operaciones es necesaria para crear alertas. 
+  [OPS09-BP04 Establecer referencias de métricas de operaciones](ops_operations_health_ops_metric_baselines.md): las bases de referencia de las métricas de operaciones proporcionan la capacidad de ajustar las alertas y evitar la saturación. 
+  [OPS09-BP05 Descubrir patrones esperados de actividad para las operaciones](ops_operations_health_learn_ops_usage_patterns.md): puede mejorar la precisión de las alertas si comprende los patrones de actividad de los eventos de las operaciones. 
+  [OPS09-BP08 Validar el logro de resultados y la efectividad de los KPI y las métricas](ops_operations_health_biz_level_view_ops.md): evalúe la consecución de los resultados de las operaciones para asegurarse de que sus indicadores clave de rendimiento y sus métricas son válidos. 
+  [OPS10-BP02 Tener un proceso por alerta](ops_event_response_process_per_alert.md): cada alerta debe tener asociado un runbook o una guía de estrategias y proporcionar el contexto a la persona a la que se alerta. 
+  [OPS11-BP02 Realizar un análisis después del incidente](ops_evolve_ops_perform_rca_process.md): realice un análisis posterior al incidente después de la alerta para identificar las áreas de mejora. 

 **Documentos relacionados:** 
+  [AWS Deployment Pipelines Reference Architecture: Application Pipeline Architecture (Arquitectura de referencia de las canalizaciones de despliegue de AWS: arquitectura de canalización de aplicaciones)](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Getting Started with Agile / DevOps Metrics (GitLab: Introducción a las métricas de Agile/DevOps)](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Vídeos relacionados:** 
+  [Aggregate and Resolve Operational Issues Using AWS Systems Manager OpsCenter (Agregar y resolver problemas operativos mediante AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrate AWS Systems Manager OpsCenter with Amazon CloudWatch Alarms (Integrar AWS Systems Manager OpsCenter con las alarmas de Amazon CloudWatch)](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrate Your Data Sources into AWS Systems Manager OpsCenter Using Amazon EventBridge (Integre sus orígenes de datos en AWS Systems Manager OpsCenter con Amazon EventBridge)](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Ejemplos relacionados:** 
+  [Automate remediation actions for Amazon EC2 notifications and beyond using Amazon EC2 Systems Manager Automation and AWS Health (Automatización de las medidas de corrección para las notificaciones de Amazon EC2, entre otros, mediante la automatización de Amazon EC2 y AWS Health)](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS Management and Governance Tools Workshop - Operations 2022 (Taller de herramientas de administración y gobernanza de AWS - Operaciones 2022)](https://mng.workshop.aws/operations-2022.html) 
+  [Ingesting, analyzing, and visualizing metrics with DevOps Monitoring Dashboard on AWS (Ingesta, análisis y visualización de métricas con el panel de supervisión de DevOps en AWS)](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Servicios relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Soporte Proactive Services - Operations KPI Workshop (Servicios proactivos de Soporte - Taller de KPI de operaciones)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [Eventos de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP07 Alertar cuando se detecten anomalías en las operaciones
<a name="ops_operations_health_ops_anomaly_alerts"></a>

 Emita una alerta cuando se detecten anomalías en las operaciones para poder responder adecuadamente en caso necesario. 

 El análisis de las métricas de operaciones a lo largo del tiempo puede establecer patrones de comportamiento que puede cuantificar lo suficiente como para definir un evento o dar una alarma en respuesta. 

 Una vez entrenada, la función [Detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) se puede usar para [alertar](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) sobre las anomalías detectadas o puede proporcionar valores esperados superpuestos en un [gráfico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) de datos métricos para una comparación continua. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) puede utilizarse para identificar comportamientos anómalos mediante la correlación de eventos, el análisis de registros y la aplicación de machine learning para analizar la telemetría de la carga de trabajo. La [información](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) obtenida se presenta con los datos y recomendaciones pertinentes. 

 **Patrones de uso no recomendados comunes:** 
+  Está aplicando una revisión a su flota de instancias. Ha probado la revisión con éxito en el entorno de pruebas. La revisión está fallando en un gran porcentaje de instancias de su flota. No hace nada. 
+  Observa que hay despliegues a partir del viernes al final del día. Su organización tiene ventanas de mantenimiento predefinidas los martes y los jueves. No hace nada. 

 **Beneficios de establecer esta práctica recomendada:** al comprender los patrones de comportamiento de las operaciones, puede identificar comportamientos inesperados y adoptar medidas en caso necesario. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Bajo 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Alertar cuando se detectan anomalías en las operaciones: emita una alerta cuando se detecten anomalías en las operaciones para poder responder adecuadamente si es necesario. 
  +  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocación de funciones de Lambda utilizando notificaciones de Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [Detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Detecte y reaccione a los cambios en el estado del proceso con Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Invocación de funciones de Lambda utilizando notificaciones de Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP08 Validar el logro de resultados y la efectividad de los KPI y las métricas
<a name="ops_operations_health_biz_level_view_ops"></a>

 Cree una visión a nivel empresarial de sus actividades de operaciones para determinar si está satisfaciendo las necesidades e identificar las áreas que necesitan mejoras para alcanzar los objetivos empresariales. Valide la eficacia de los KPI y las métricas y revíselos si es necesario. 

 AWS también ofrece asistencia para sistemas de análisis de registros de terceros y herramientas de inteligencia comercial a través de las API y SDK del servicio de AWS (por ejemplo, Grafana, Kibana y Logstash). 

 **Patrones de uso no recomendados comunes:** 
+  La frecuencia de sus despliegues ha aumentado con el incremento del número de equipos de desarrollo. El número de despliegues que ha definido es de una vez a la semana. Ha realizado despliegues diarios con regularidad. Cuando hay un problema con su sistema de despliegue y este no es posible, pasa desapercibido durante días. 
+  Cuando su empresa anteriormente prestaba asistencia solo durante el horario comercial principal de lunes a viernes. Ha establecido un objetivo de tiempo de respuesta al siguiente día laborable para los incidentes. Recientemente ha empezado a ofrecer una cobertura de asistencia las 24 horas del día con un objetivo de tiempo de respuesta de dos horas. Su personal nocturno está desbordado y los clientes están descontentos. No hay indicios de que haya problemas con los tiempos de respuesta a incidentes porque está informando con respecto a un objetivo de siguiente día laborable. 

 **Beneficios de establecer esta práctica recomendada:** Al examinar y revisar los indicadores clave de rendimiento y las métricas, comprenderá cómo su carga de trabajo contribuye a la consecución de los resultados de la empresa y podrá identificar los aspectos que deben mejorarse para alcanzar los objetivos empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Bajo 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Validar los resultados obtenidos y la eficacia de los KPI y las métricas: cree una visión a nivel empresarial de las actividades de las operaciones para determinar si está satisfaciendo las necesidades e identificar las áreas que necesitan mejoras para alcanzar los objetivos empresariales. Valide la eficacia de los KPI y las métricas y revíselos si es necesario. 
  +  [Uso de paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [¿Qué es el análisis de registros?](https://aws.amazon.com/log-analytics/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Uso de paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [¿Qué es el análisis de registros?](https://aws.amazon.com/log-analytics/) 

# OPS 10 ¿Cómo administra la carga de trabajo y los eventos de operaciones?
<a name="w2aac19b5b9b9"></a>

 Prepare y valide los procedimientos de respuesta a los eventos para minimizar la interrupción de la carga de trabajo. 

**Topics**
+ [OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Tener un proceso por alerta](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Prioridad de los eventos operativos según el impacto empresarial](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Definir rutas de escalado](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Activar notificaciones push](ops_event_response_push_notify.md)
+ [OPS10-BP06 Comunicar el estado a través de paneles](ops_event_response_dashboards.md)
+ [OPS10-BP07 Automatizar las respuestas a eventos](ops_event_response_auto_event_response.md)

# OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas
<a name="ops_event_response_event_incident_problem_process"></a>

Su organización tiene procesos para gestionar eventos, incidentes y problemas. *Los eventos* son cosas que ocurren en su carga de trabajo pero que podrían no necesitar intervención. *Los incidentes* son eventos que requieren intervención. *Los problemas* son eventos recurrentes que requieren una intervención o que no pueden resolverse. Necesita procesos para mitigar el impacto de estos eventos en su negocio y asegurarse de que responde adecuadamente.

Cuando se producen incidentes y problemas en su carga de trabajo, necesita procesos para gestionarlos. ¿Cómo va a comunicar el estado del evento a las partes interesadas? ¿Quién supervisa la dirección de la respuesta? ¿Cuáles son las herramientas que utiliza para mitigar el evento? Estos son ejemplos de algunas de las preguntas que debe responder para tener un proceso de respuesta sólido. 

Los procesos deben estar documentados en un lugar central y a disposición de cualquier persona involucrada en su carga de trabajo. Si no tiene un wiki central o un almacén de documentos, se puede utilizar un repositorio de control de versiones. Mantendrá estos planes actualizados a medida que sus procesos evolucionen. 

Los problemas son candidatos a la automatización. Estos eventos le restan tiempo a su capacidad de innovar. Empiece por crear un proceso repetible para mitigar el problema. Con el tiempo, céntrese en automatizar la mitigación o en solucionar el problema subyacente. Esto libera tiempo para dedicarlo a hacer mejoras en su carga de trabajo. 

**Resultado deseado:** Su organización tiene un proceso para gestionar eventos, incidentes y problemas. Estos procesos se documentan y almacenan en un lugar central. Se actualizan a medida que cambian los procesos. 

**Patrones comunes de uso no recomendados:** 
+  Se produce un incidente en el fin de semana y el ingeniero de guardia no sabe qué hacer. 
+  Un cliente le envía un correo electrónico diciendo que la aplicación no funciona. Se reinicia el servidor para solucionarlo. Esto ocurre con frecuencia. 
+  Hay un incidente en el que varios equipos trabajan de forma independiente para intentar resolverlo. 
+  Los despliegues ocurren en su carga de trabajo sin registrarse. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Tiene una pista de auditoría de los eventos en su carga de trabajo. 
+  Su tiempo para recuperarse de un incidente disminuye. 
+  Los miembros del equipo pueden resolver incidentes y problemas de manera coherente. 
+  Hay un esfuerzo más consolidado cuando se investiga un incidente. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

La implementación de esta práctica recomendada implica el seguimiento de los eventos de la carga de trabajo. Dispone de procesos para gestionar las incidencias y los problemas. Los procesos se documentan, se comparten y se actualizan con frecuencia. Los problemas se identifican, se priorizan y se solucionan. 

 **Ejemplo de cliente** 

AnyCompany Retail tiene una parte de su wiki interna dedicada a los procesos de gestión de eventos, incidentes y problemas. Todos los eventos se envían a [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html). Los problemas se identifican como OpsItems en [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) y su solución se prioriza, reduciendo la mano de obra no diferenciada. A medida que los procesos cambian, se actualizan en su wiki interna. Utilizan [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) para gestionar los incidentes y coordinar los esfuerzos de mitigación. 

## Pasos para la aplicación
<a name="implementation-steps"></a>

1.  Eventos 
   +  Realice un seguimiento de los eventos que se producen en su carga de trabajo, aunque no sea necesaria la intervención humana. 
   +  Trabaje con las partes interesadas en la carga de trabajo para desarrollar una lista de eventos que deben rastrearse. Algunos ejemplos son los despliegues completados o la aplicación de parches con éxito. 
   +  Puede utilizar servicios como [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) o bien [Amazon Simple Notification Service](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) para generar eventos personalizados para el seguimiento. 

1.  Los incidentes 
   +  Comience por definir el plan de comunicación de incidentes. ¿Qué partes interesadas deben ser informadas? ¿Cómo los mantendrá informados? ¿Quién supervisa los esfuerzos de coordinación? Recomendamos establecer un canal de chat interno para la comunicación y la coordinación. 
   +  Defina rutas de derivación para los equipos que apoyan su carga de trabajo, especialmente si el equipo no tiene una rotación de guardia. En función de su nivel de soporte, también puede registrar un caso con Soporte. 
   +  Cree una guía de estrategias para investigar el incidente. Debe incluir el plan de comunicación y los pasos detallados de la investigación. Incluya la comprobación del [Panel de AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) en su investigación. 
   +  Documente su plan de respuesta a incidentes. Comunique el plan de gestión de incidentes para que los clientes internos y externos comprendan las normas de actuación y lo que se espera de ellos. Forme a los miembros de su equipo en cómo usarlo. 
   +  Los clientes pueden usar [Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) para establecer y gestionar su plan de respuesta a incidentes. 
   +  Los clientes de Enterprise Support pueden solicitar el [Taller de gestión de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) a su gerente técnico de cuentas. Este taller guiado pone a prueba su actual plan de respuesta a incidentes y le ayuda a identificar áreas de mejora. 

1.  Problemas 
   +  Los problemas deben identificarse y seguirse en el sistema ITSM. 
   +  Identifique todos los problemas conocidos y priorícelos según el esfuerzo para solucionarlos y según el impacto en la carga de trabajo.   
![\[Matriz de prioridades de acciones para priorizar los problemas.\]](http://docs.aws.amazon.com/es_es/wellarchitected/2022-03-31/framework/images/impact-effort-chart.png)
   +  Resuelva primero los problemas de alto impacto y bajo esfuerzo. Una vez resueltos estos, pase a los problemas que entran en el cuadrante de bajo impacto y bajo esfuerzo. 
   +  Puede usar [Systems Manager OpsCenter](systems-manager/latest/userguide/OpsCenter.html) para identificar estos problemas, adjuntarles runbooks y hacer un seguimiento de los mismos. 

**Nivel de esfuerzo para el plan de implementación:** Medio Se necesita tanto un proceso como herramientas para implementar esta práctica recomendada. Documente sus procesos y póngalos a disposición de cualquier persona relacionada con la carga de trabajo. Actualícelos con frecuencia. Tiene un proceso para gestionar los problemas y mitigarlos o solucionarlos. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS07-BP03 Uso de runbooks para realizar los procedimientos](ops_ready_to_support_use_runbooks.md): los problemas conocidos necesitan un runbook asociado para que los esfuerzos de mitigación sean coherentes.
+  [OPS07-BP04 Usar guías de estrategias para investigar problemas](ops_ready_to_support_use_playbooks.md): los incidentes deben investigarse utilizando guías de estrategias. 
+  [OPS11-BP02 Realizar un análisis después del incidente](ops_evolve_ops_perform_rca_process.md): realice siempre una autopsia después de recuperarse de un incidente. 

 **Documentos relacionados:** 
+  [Atlassian - Incident management in the age of DevOps (Atlassian: gestión de incidentes en la era de DevOps)](https://www.atlassian.com/incident-management/devops) 
+  [AWS Security Incident Response Guide (Guía de respuesta ante incidentes de seguridad de AWS)](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Incident Management in the Age of DevOps and SRE (Gestión de incidentes en la era de DevOps y SRE)](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management? (PagerDuty: ¿Qué es la gestión de incidentes?)](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2020: Incident management in a distributed organization (Gestión de incidencias en una organización distribuida)](https://www.youtube.com/watch?v=tyS1YDhMVos) 
+  [AWS re:Invent 2021 - Building next-gen applications with event-driven architectures (Creación de aplicaciones de nueva generación con arquitecturas basadas en eventos)](https://www.youtube.com/watch?v=U5GZNt0iMZY) 
+  [AWS Supports You \$1 Exploring the Incident Management Tabletop Exercise (AWS le apoya \$1 Ejercicio práctico de exploración de gestión de incidentes)](https://www.youtube.com/watch?v=0m8sGDx-pRM) 
+  [Administrador de incidentes de AWS Systems Manager - AWS Virtual Workshops (Administrador de incidentes de AWS Systems Manager: talleres virtuales de AWS)](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [AWS What's Next ft. Incident Manager \$1 AWS Events (Novedades de AWS - Incident Manager \$1 Eventos de AWS)](https://www.youtube.com/watch?v=uZL-z7cII3k) 

 **Ejemplos relacionados:** 
+  [AWS Management and Governance Tools Workshop - OpsCenter (Taller de herramientas de administración y gobernanza de AWS - OpsCenter)](https://mng.workshop.aws/ssm/capability_hands-on_labs/opscenter.html) 
+  [AWS Proactive Services – Incident Management Workshop (Servicios proactivos de AWS: taller de gestión de incidencias)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [Building an event-driven application with Amazon EventBridge (Creación de una aplicación basada en eventos con Amazon EventBridge)](https://aws.amazon.com/blogs/compute/building-an-event-driven-application-with-amazon-eventbridge/) 
+  [Building event-driven architectures on AWS (Desarrollo de arquitecturas basadas en eventos en AWS)](https://catalog.us-east-1.prod.workshops.aws/workshops/63320e83-6abc-493d-83d8-f822584fb3cb/en-US/) 

 **Servicios relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) 
+  [Panel de AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS10-BP02 Tener un proceso por alerta
<a name="ops_event_response_process_per_alert"></a>

 Tenga una respuesta bien definida (runbook o guía de estrategia) con un propietario identificado de forma específica para cualquier evento del que se alerte. Esto garantiza respuestas rápidas y eficaces a eventos operativos y previene que los eventos procesables queden ocultos por notificaciones menos importantes. 

 **Patrones de uso no recomendados comunes:** 
+  Su sistema de supervisión le presenta un flujo de conexiones aprobadas junto con otros mensajes. El volumen de mensajes es tan grande que pasa por alto los mensajes de error periódicos que requieren su intervención. 
+  Recibe una alerta de que el sitio web está inactivo. No hay un proceso definido para cuando sucede esto. Se ve obligado a adoptar un enfoque ad hoc para diagnosticar y resolver el problema. El desarrollo de este proceso sobre la marcha alarga el tiempo de recuperación. 

 **Beneficios de establecer esta práctica recomendada:** Al alertar solo cuando es necesario actuar, se evita que las alertas de bajo valor oculten las de alto valor. Al contar con un proceso para cada alerta procesable, permite una respuesta coherente y rápida a los eventos de su entorno. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Procese por alerta: cualquier evento del que se alerte debe tener una respuesta bien definida (runbook o guía de estrategia) con un propietario identificado de manera específica (por ejemplo, un individuo, un equipo o un rol) responsable de una realización correcta. Una respuesta puede llevarse a cabo de forma automática o no (otro equipo puede ejecutarla); sin embargo, el propietario es el responsable de garantizar que el proceso obtenga los resultados esperados. Al contar con estos procesos, se asegura de disponer de respuestas a eventos operativos eficaces y rápidas y, además, podrá prevenir que los eventos procesables queden ocultos por notificaciones menos importantes. Por ejemplo, Auto Scaling puede aplicarse para escalar el front-end de una web, pero el equipo operativo puede ser responsable de garantizar que las normas y los límites de Auto Scaling sean apropiados para las necesidades de la carga de trabajo. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Características de Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Vídeos relacionados:** 
+  [Diseñe un plan de monitoreo](https://www.youtube.com/watch?v=OMmiGETJpfU) 

# OPS10-BP03 Prioridad de los eventos operativos según el impacto empresarial
<a name="ops_event_response_prioritize_events"></a>

 Asegúrese de que, cuando varios eventos requieran una intervención, se aborden primero los más importantes para el negocio. Hay diversos tipos de impactos, como muertes o daños físicos, pérdidas económicas, así como daños a la reputación o confianza. 

 **Antipatrones usuales:** 
+  Recibe una solicitud de soporte para añadir una configuración de impresora para un usuario. Mientras trabaja en el problema, recibe una solicitud de soporte indicando que su sitio web de venta al por menor no funciona. Después de completar la configuración de la impresora para su usuario, comienza a trabajar en el problema del sitio web. 
+  Se le notifica que tanto su sitio web de venta al por menor como su sistema de nóminas no funcionan. No sabes cuál debe tener la máxima prioridad. 

 **Beneficios de establecer esta práctica recomendada:** La priorización de las respuestas a los incidentes con mayor impacto en la empresa permite gestionar dicho impacto. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Prioridad de los eventos operativos según el impacto empresarial: asegúrese de que, cuando varios eventos requieran una intervención, se aborden primero los más importantes para el negocio. Hay diversos tipos de impactos, como muertes o daños físicos, pérdidas económicas, infracciones de normas, así como daños a la reputación o confianza. 

# OPS10-BP04 Definir rutas de escalado
<a name="ops_event_response_define_escalation_paths"></a>

 Defina las rutas de derivación en los runbooks y guías de estrategia, como, por ejemplo, aquello que desencadena una derivación y los procedimientos. Identifique a los titulares de cada acción de forma específica para garantizar respuestas rápidas y eficaces a los eventos operativos. 

 Identifique cuándo se requiere una decisión humana antes de realizar una acción. Trabaje con los responsables de la toma de decisiones para que esa decisión se tome con antelación y la acción se apruebe previamente, para que el tiempo medio de resolución no se prolongue esperando una respuesta. 

 **Antipatrones usuales:** 
+  Su sitio web de venta al por menor no funciona. No comprende el libro de instrucciones para recuperar el sitio. Empieza a llamar a sus colegas con la esperanza de que alguien pueda ayudarle. 
+  Recibe una incidencia de soporte para una aplicación inalcanzable. No tiene permisos para administrar el sistema. No sabe quién lo hace. Se intenta contactar con el propietario del sistema que abrió el incidente y no hay respuesta. No tiene contactos para el sistema y sus colegas no están familiarizados con él. 

 **Beneficios de establecer esta práctica recomendada:** Al definir los escalados, los desencadenantes y los procedimientos de los escalados, se permite la adición sistemática de recursos a un incidente a un ritmo adecuado para el impacto. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Definir rutas de escalado: defina las rutas de escalado en los runbooks y guías de estrategia, como, por ejemplo, aquello que desencadena un escalado y los procedimientos. Por ejemplo, la derivación de un problema de los ingenieros de apoyo a los ingenieros de apoyo senior cuando los runbooks no tengan la respuesta a un problema o cuando haya transcurrido un periodo de tiempo definido previamente. Otro ejemplo sería la derivación de una carga de trabajo de los ingenieros de apoyo senior al equipo de desarrollo cuando las guías de estrategia no puedan identificar qué ruta seguir para solucionar el problema o cuando haya transcurrido un periodo de tiempo definido previamente. Identifique a los titulares de cada acción de forma específica para garantizar respuestas rápidas y eficaces a los eventos operativos. Las derivaciones pueden incluir a terceros. Por ejemplo, a un proveedor de conectividad de red o de software. Las derivaciones pueden incluir a los responsables de la toma de decisiones en lo que respecta a los sistemas afectados autorizados e identificados 

# OPS10-BP05 Activar notificaciones push
<a name="ops_event_response_push_notify"></a>

 Comuníquese directamente con los usuarios (por ejemplo, por correo electrónico o SMS) cuando un evento repercuta en los servicios que utilizan y, de nuevo, cuando estos vuelvan a funcionar con normalidad para que los usuarios puedan tomar las medidas apropiadas. 

 **Patrones de uso no recomendados comunes:** 
+  Su aplicación está experimentando un incidente de denegación de servicio distribuido y lleva días sin responder. No hay ningún mensaje de error. No ha enviado un correo electrónico de notificación. No ha enviado notificaciones de texto. No ha compartido información en las redes sociales. Sus clientes están frustrados y buscan otros vendedores que les den soporte. 
+  El lunes, su aplicación tuvo problemas a raíz de una revisión y estuvo fuera de servicio durante un par de horas. El martes, su aplicación tuvo problemas tras un despliegue de código y no fue confiable durante un par de horas. El miércoles, su aplicación tuvo problemas tras un despliegue de código para mitigar una vulnerabilidad de seguridad asociada a la revisión errónea y no estuvo disponible durante un par de horas. El jueves, sus frustrados clientes empezaron a buscar otro proveedor que pudiera darles soporte. 
+  Su aplicación va a estar fuera de servicio por mantenimiento este fin de semana. No informa a sus clientes. Algunos de sus clientes habían programado actividades que implicaban el uso de su aplicación. Se sienten muy frustrados al descubrir que la aplicación no está disponible. 

 **Beneficios de establecer esta práctica recomendada:** al definir las notificaciones, los desencadenantes de las notificaciones y los procedimientos para las notificaciones, permite a su cliente estar informado y responder cuando le afectan los problemas de su carga de trabajo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Habilitar notificaciones push: comuníquese directamente con los usuarios (por ejemplo, por correo electrónico o SMS) cuando un evento repercuta en los servicios que utilizan y cuando estos vuelvan a funcionar con normalidad para que los usuarios puedan tomar las medidas apropiadas. 
  +  [Funciones de Amazon SES](https://aws.amazon.com/ses/details/) 
  +  [¿Qué es Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 
  +  [Configurar notificaciones de Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Funciones de Amazon SES](https://aws.amazon.com/ses/details/) 
+  [Configurar notificaciones de Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 
+  [¿Qué es Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 

# OPS10-BP06 Comunicar el estado a través de paneles
<a name="ops_event_response_dashboards"></a>

 Proporcione paneles adaptados a las audiencias de destino (por ejemplo, equipos técnicos internos, liderazgo y clientes) para comunicar el estado operativo actual del negocio y facilitar métricas de interés. 

 Puede crear paneles mediante [Amazon CloudWatch Dashboards](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) en las páginas de inicio personalizables en la consola de CloudWatch. Mediante servicios de inteligencia empresarial como [Quick](https://aws.amazon.com/quicksight/) puede crear y publicar paneles interactivos de su carga de trabajo y estado operativo (por ejemplo, índices de pedidos, usuarios conectados y tiempos de transacción). Cree paneles que presenten vistas a nivel de sistema y de empresa de sus métricas. 

 **Patrones de uso no recomendados comunes:** 
+  Ejecuta, a petición, un informe sobre la utilización actual de su aplicación para la administración. 
+  Durante un incidente, cada veinte minutos se pone en contacto con usted un propietario del sistema preocupado por saber si ya está solucionado. 

 **Beneficios de establecer esta práctica recomendada:** Mediante la creación de paneles, posibilita el acceso de autoservicio a la información, lo que permite a sus clientes informarse por sí mismos y determinar si necesitan tomar medidas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Comunique el estado mediante paneles: proporcione paneles adaptados a las audiencias de destino (por ejemplo, equipos técnicos internos, liderazgo y clientes) para comunicar el estado operativo actual del negocio y facilitar métricas de interés. Proporcionar una opción de autoservicio para facilitar información sobre el estado hace que haya menos interrupciones cuando se solicita esta información al equipo operativo. Algunos ejemplos son los paneles de control de Amazon CloudWatch y Panel de AWS Health. 
  +  [Los paneles de CloudWatch crean y usan vistas de métricas personalizadas](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [Los paneles de CloudWatch crean y usan vistas de métricas personalizadas](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

# OPS10-BP07 Automatizar las respuestas a eventos
<a name="ops_event_response_auto_event_response"></a>

 Automatice las respuestas a los eventos para reducir los errores causados por los procesos manuales y garantizar respuestas coherentes y rápidas. 

 Hay varias formas de automatizar las acciones del runbook y de la guía de estrategias en AWS. Para responder a un evento de un cambio de estado en sus recursos de AWS o de sus propios eventos personalizados, debe crear [reglas de CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) para desencadenar respuestas a través de destinos de CloudWatch (por ejemplo, funciones de Lambda, temas de Amazon Simple Notification Service (Amazon SNS), tareas de Amazon ECS y AWS Systems Manager Automation). 

 Para responder a una métrica que cruza un umbral para un recurso (por ejemplo, el tiempo de espera), debe crear [alarmas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) para realizar una o más acciones mediante acciones de Amazon EC2, acciones de Auto Scaling, o para enviar una notificación a un tema de Amazon SNS. Si necesita realizar acciones personalizadas en respuesta a una alarma, invoque a Lambda a través de una notificación de Amazon SNS. Use Amazon SNS para publicar notificaciones de eventos y mensajes de derivación a fin de mantener a las personas informadas. 

 AWS también admite sistemas de terceros a través de las API y los SDK del servicio de AWS. Hay una serie de herramientas de supervisión proporcionados por los socios de AWS y terceros que permiten la supervisión, las notificaciones y las respuestas. Algunas de estas herramientas incluyen New Relic, Splunk, Loggly, SumoLogic y Datadog. 

 Debe tener los procedimientos manuales importantes disponibles para usarlos cuando los procedimientos automatizados fallen. 

 **Antipatrones usuales:** 
+  Un desarrollador comprueba su código. Este evento podría haberse utilizado para iniciar una compilación y luego realizar pruebas, pero en su lugar no ocurre nada. 
+  La aplicación registra un error específico antes de dejar de funcionar. El procedimiento de reinicio de la aplicación se entiende bien y puede programarse. Podría utilizar el evento de registro para invocar un script y reiniciar la aplicación. En cambio, cuando el error se produce a las 3 de la madrugada de un domingo, le despiertan como recurso de guardia, que es responsable de reparar el sistema. 

 **Beneficios de establecer esta práctica recomendada:** Al utilizar respuestas automatizadas a los eventos, se reduce el tiempo de respuesta y se limita la introducción de errores por actividades manuales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Bajo 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Automatizar las respuestas a eventos: automatice las respuestas a los eventos para reducir los errores causados por los procesos manuales y garantizar respuestas coherentes y rápidas. 
  +  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creación de una regla de CloudWatch Events que se desencadena con un evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
  +  [Creación de una regla de CloudWatch Events que se desencadena en una llamada a la API de AWS con AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
  +  [Ejemplos de eventos de CloudWatch Events de los servicios admitidos](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Funciones de Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Ejemplos de eventos de CloudWatch Events de los servicios admitidos](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 
+  [Creación de una regla de CloudWatch Events que se desencadena en una llamada a la API de AWS con AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
+  [Creación de una regla de CloudWatch Events que se desencadena con un evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
+  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Vídeos relacionados:** 
+  [Diseñar un plan de supervisión](https://www.youtube.com/watch?v=OMmiGETJpfU) 

 **Ejemplos relacionados:**