# OPS 4. ¿Cómo implementa la observabilidad en su carga de trabajo?
<a name="ops-04"></a>

Implemente la observabilidad en su carga de trabajo para que pueda comprender su estado y tomar decisiones basadas en datos en función de los requisitos empresariales.

**Topics**
+ [

# OPS04-BP01 Identificación de los indicadores clave de rendimiento
](ops_observability_identify_kpis.md)
+ [

# OPS04-BP02 Implementación de telemetría de aplicaciones
](ops_observability_application_telemetry.md)
+ [

# OPS04-BP03 Implementación de telemetría de la experiencia del usuario
](ops_observability_customer_telemetry.md)
+ [

# OPS04-BP04 Implementación de telemetría de dependencias
](ops_observability_dependency_telemetry.md)
+ [

# OPS04-BP05 Implementación de rastreo distribuido
](ops_observability_dist_trace.md)

# OPS04-BP01 Identificación de los indicadores clave de rendimiento
<a name="ops_observability_identify_kpis"></a>

 La implementación de la observabilidad en su carga de trabajo comienza con la comprensión de su estado y la toma de decisiones basadas en datos en función de los requisitos empresariales. Una de las formas más eficaces de garantizar la alineación entre las actividades de supervisión y los objetivos empresariales consiste en definir y supervisar los indicadores clave de rendimiento (KPI). 

 **Resultado deseado:** prácticas de observabilidad eficientes que están estrechamente alineadas con los objetivos empresariales, lo que garantiza que los esfuerzos de supervisión siempre estén al servicio de resultados comerciales tangibles. 

 **Patrones comunes de uso no recomendados:** 
+  Indicadores clave de rendimiento indefinidos: trabajar sin indicadores clave de rendimiento claros puede llevar a una supervisión excesiva o insuficiente y a la pérdida de señales vitales. 
+  KPI estáticos: no se revisitan ni refinan los KPI a medida que evolucionan la carga de trabajo o los objetivos empresariales. 
+  Desalineación: centrarse en las métricas técnicas que no se correlacionan directamente con los resultados empresariales o que son más difíciles de correlacionar con problemas de la vida real. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Facilidad de identificación de problemas: los KPI empresariales suelen mostrar los problemas con más claridad que las métricas técnicas. Una caída en un KPI empresarial puede identificar un problema de forma más eficaz que analizar numerosas métricas técnicas. 
+  Alineación empresarial: garantiza que las actividades de supervisión respalden directamente los objetivos empresariales. 
+  Eficiencia: priorice los recursos de supervisión y preste atención a las métricas que importan. 
+  Proactividad: detecte y aborde los problemas antes de que tengan implicaciones comerciales más amplias. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Para definir de forma eficaz los KPI de la carga de trabajo: 

1.  **Inicio con los resultados empresariales:** antes de profundizar en las métricas, comprenda los resultados empresariales deseados. ¿Se trata de un aumento de las ventas, una mayor participación de los usuarios o unos tiempos de respuesta más rápidos? 

1.  **Correlación de las métricas técnicas con los objetivos empresariales:** no todas las métricas técnicas tienen un impacto directo en los resultados empresariales. Identifique los que sí lo tienen, pero a menudo es más sencillo identificar un problema mediante un KPI empresarial. 

1.  **Uso de [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html):** utilice CloudWatch para definir y supervisar las métricas que representan sus KPI. 

1.  **Revisión y actualización de los KPI con regularidad**: a medida que su carga de trabajo y su empresa evolucionen, mantenga la relevancia de sus KPI. 

1.  **Implicación de las partes interesadas:** involucre a los equipos técnicos y empresariales en la definición y revisión de los KPI. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+ [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md)
+ [OPS04-BP03 Implementación de telemetría de la experiencia del usuario](ops_observability_customer_telemetry.md)
+ [OPS04-BP04 Implementación de telemetría de dependencias](ops_observability_dependency_telemetry.md)
+ [OPS04-BP05 Implementación de rastreo distribuido](ops_observability_dist_trace.md)

 **Documentos relacionados:** 
+ [AWS Observability Best Practices ](https://aws-observability.github.io/observability-best-practices/)
+ [ CloudWatch User Guide ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [AWS Observability Skill Builder Course ](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability)

 **Videos relacionados:** 
+ [ Developing an observability strategy ](https://www.youtube.com/watch?v=Ub3ATriFapQ)

 **Ejemplos relacionados:** 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US) 

# OPS04-BP02 Implementación de telemetría de aplicaciones
<a name="ops_observability_application_telemetry"></a>

 La telemetría de aplicaciones sirve de base de la observabilidad de su carga de trabajo. Es crucial emitir telemetría que ofrezca información procesable sobre el estado de la aplicación y el logro de los resultados técnicos y empresariales. Desde la solución de problemas hasta la medición del impacto de una nueva característica o la garantía de la alineación con los indicadores clave de rendimiento (KPI) de la empresa, la telemetría de las aplicaciones informa sobre la forma de crear, operar y hacer evolucionar su carga de trabajo. 

 Las métricas, los registros y los rastreos forman los tres pilares principales de la observabilidad. Sirven como herramientas de diagnóstico que describen el estado de la aplicación. Con el tiempo, ayudan a crear puntos de referencia e identificar anomalías. Sin embargo, para garantizar la alineación entre las actividades de supervisión y los objetivos empresariales, es fundamental definir y supervisar los KPI. Los KPI empresariales suelen facilitar la identificación de los problemas en comparación con las métricas técnicas únicamente. 

 Otros tipos de telemetría, como la supervisión de usuarios reales (RUM) y las transacciones sintéticas, complementan estos orígenes de datos principales. La RUM ofrece información sobre las interacciones de los usuarios en tiempo real, mientras que las transacciones sintéticas simulan los posibles comportamientos de los usuarios, lo que ayuda a detectar los cuellos de botella antes de que los usuarios reales los encuentren. 

 **Resultado deseado:** obtenga información útil sobre el rendimiento de su carga de trabajo. Estos conocimientos le permiten tomar decisiones proactivas sobre la optimización del rendimiento, lograr una mayor estabilidad de la carga de trabajo, optimizar los procesos de CI/CD y utilizar los recursos de manera eficaz. 

 **Patrones comunes de uso no recomendados:** 
+  **Observabilidad incompleta:** no incorporar la observabilidad en todos los niveles de la carga de trabajo, lo que resulta en puntos ciegos que pueden ocultar información vital sobre el rendimiento y el comportamiento del sistema. 
+  **Vista de datos fragmentada:** cuando los datos están dispersos en varias herramientas y sistemas, resulta difícil mantener una visión integral del estado y el rendimiento de la carga de trabajo. 
+  **Problemas informados por los usuarios:** una señal de que falta una detección proactiva de los problemas mediante la telemetría y la supervisión de los KPI empresariales. 

 **Beneficios de establecer esta práctica recomendada:** 
+  **Toma de decisiones informadas:** con la información de la telemetría y los KPI empresariales, puede tomar decisiones basadas en datos. 
+  **Mejora de la eficiencia operativa:** el uso de los recursos basada en datos conduce a la rentabilidad. 
+  **Mejora de la estabilidad de la carga de trabajo:** detección y resolución de problemas más rápidas, lo que mejora el tiempo de actividad. 
+  **Procesos de CI/CD simplificados:** la información obtenida de los datos de telemetría facilita el refinamiento de los procesos y la entrega fiable de código. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Para implementar la telemetría de aplicaciones para su carga de trabajo, utilice servicios de AWS como [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) y [AWS X-Ray](https://aws.amazon.com/xray/). Amazon CloudWatch proporciona un conjunto completo de herramientas de supervisión que le permiten observar sus recursos y aplicaciones en entornos en las instalaciones y de AWS. Recopila, sigue y analiza las métricas, consolida y supervisa los datos de registro y responde a los cambios en los recursos, lo que mejora su comprensión de cómo funciona su carga de trabajo. Al mismo tiempo, AWS X-Ray le permite rastrear, analizar y depurar sus aplicaciones, lo que le proporciona una comprensión profunda del comportamiento de su carga de trabajo. Con características como los mapas de servicios, las distribuciones de latencia y la cronología de rastreo, AWS X-Ray proporciona información sobre el rendimiento de su carga de trabajo y los cuellos de botella que le afectan. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Identificación de los datos que hay que recopilar:** determine las métricas, los registros y los rastreos esenciales que podrían ofrecer información sustancial sobre el estado, el rendimiento y el comportamiento de su carga de trabajo. 

1.  **Implementación del [agente de CloudWatch](https://aws.amazon.com/cloudwatch/):** el agente de CloudWatch es fundamental a la hora de obtener métricas y registros del sistema y las aplicaciones de su carga de trabajo y su infraestructura subyacente. El agente de CloudWatch también se puede utilizar para recopilar rastreos de X-Ray o OpenTelemetry y enviarlos a X-Ray. 

1.  **Implementación de la detección de anomalías para los registros y las métricas:** utilice la [detección de anomalías de los Registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) y la [detección de anomalías de métricas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para identificar automáticamente las actividades inusuales en las operaciones de su aplicación. Estas herramientas utilizan algoritmos de machine learning para detectar anomalías y alertar sobre ellas, lo que mejora las capacidades de supervisión y acelera el tiempo de respuesta ante posibles interrupciones o amenazas de seguridad. Configure estas características para administrar de forma proactiva el estado y la seguridad de las aplicaciones. 

1.  **Protección de los datos de registro confidenciales:** utilice la [protección de datos de los Registros de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/mask-sensitive-log-data.html) para ocultar la información confidencial de sus registros. Esta característica ayuda a mantener la privacidad y el cumplimiento mediante la detección automática y el enmascaramiento de los datos confidenciales antes de que se acceda a ellos. Implemente el enmascaramiento de datos para gestionar y proteger de forma segura los datos confidenciales, como la información de identificación personal (PII). 

1.  **Definición y supervisión de los KPI empresariales:** establezca [métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) que se ajusten a los [resultados empresariales](https://aws-observability.github.io/observability-best-practices/guides/operational/business/monitoring-for-business-outcomes/). 

1.  **Instrumentación de su aplicación con AWS X-Ray:** además de implementar el agente de CloudWatch, es fundamental [instrumentar su aplicación](https://docs.aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html) para que emita datos de rastreo. Este proceso puede proporcionar más información sobre el comportamiento y el rendimiento de su carga de trabajo. 

1.  **Estandarización de la recopilación de datos en toda su aplicación:** estandarice las prácticas de recopilación de datos en toda la aplicación. La uniformidad ayuda a correlacionar y analizar los datos y proporciona una vista completa del comportamiento de la aplicación. 

1.  **Implementación de la observabilidad entre cuentas:** mejore la eficiencia de la supervisión entre Cuentas de AWS con la [observabilidad entre cuentas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html). Con esta característica, puede consolidar las métricas, los registros y las alarmas de diferentes cuentas en una sola vista, lo que simplifica la administración y mejora los tiempos de respuesta para los problemas identificados en el entorno de AWS de su organización. 

1.  **Análisis de los datos y actuación en consecuencia:** una vez que la recopilación y la normalización de los datos estén en marcha, utilice [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) para llevar a cabo el análisis de métricas y registros, y [AWS X-Ray](https://aws.amazon.com/xray/features/) para el análisis de rastreos. Este análisis puede proporcionar información crucial sobre el estado, el rendimiento y el comportamiento de su carga de trabajo, lo que guiará su proceso de toma de decisiones. 

 **Nivel de esfuerzo para el plan de implementación:** alto 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Definición de los KPI de la carga de trabajo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP03 Implementación de telemetría de actividades de usuario](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP04 Implementación de telemetría de dependencias](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dependency_telemetry.html) 
+  [OPS04-BP05 Implementación de rastreo distribuido](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 

 **Documentos relacionados:** 
+  [AWS Observability Best Practices](https://aws-observability.github.io/observability-best-practices/) 
+  [CloudWatch User Guide](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [Guía para desarrolladores de AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Instrumentación de los sistemas distribuidos para obtener visibilidad operativa](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility) 
+  [AWS Observability Skill Builder Course](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability) 
+  [Novedades de Amazon CloudWatch](https://aws.amazon.com/about-aws/whats-new/management-and-governance/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23amazon-cloudwatch) 
+  [Novedades de AWS X-Ray](https://aws.amazon.com/about-aws/whats-new/developer-tools/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23aws-x-ray) 

 **Videos relacionados:** 
+  [AWS re:Invent 2022 - Observability best practices at Amazon](https://youtu.be/zZPzXEBW4P8) 
+  [AWS re:Invent 2022 - Developing an observability strategy](https://youtu.be/Ub3ATriFapQ) 

 **Ejemplos relacionados:** 
+  [One Observability Workshop](https://catalog.workshops.aws/observability) 
+  [Biblioteca de soluciones de AWS: Supervisión de aplicaciones con Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch) 

# OPS04-BP03 Implementación de telemetría de la experiencia del usuario
<a name="ops_observability_customer_telemetry"></a>

 Es crucial obtener información detallada sobre las experiencias de los clientes y las interacciones con su aplicación. La supervisión de usuarios reales (RUM) y las transacciones sintéticas sirven como herramientas poderosas para este propósito. La RUM proporciona datos sobre las interacciones reales de los usuarios, lo que ofrece una perspectiva sin filtrar de la satisfacción del usuario, mientras que las transacciones sintéticas simulan las interacciones de los usuarios, lo que ayuda a detectar posibles problemas incluso antes de que afecten a los usuarios reales. 

 **Resultado deseado:** una visión integral de la experiencia del cliente, detección proactiva de problemas y optimización de las interacciones de los usuarios para ofrecer experiencias digitales fluidas. 

 **Patrones comunes de uso no recomendados:** 
+  Aplicaciones sin supervisión de usuarios reales (RUM): 
  +  Retraso en la detección de problemas: sin RUM, es posible que no se dé cuenta de los cuellos de botella o problemas de rendimiento hasta que los usuarios se quejen. Este enfoque reactivo puede provocar la insatisfacción de los clientes. 
  +  Falta de información sobre la experiencia del usuario: no usar RUM significa perder datos cruciales que muestran cómo los usuarios reales interactúan con su aplicación, lo que limita su capacidad de optimizar la experiencia del usuario. 
+  Aplicaciones sin transacciones sintéticas: 
  +  Omisión de casos de periferia: las transacciones sintéticas le ayudan a probar rutas y funciones que los usuarios habituales no suelen utilizar con frecuencia, pero que son fundamentales para determinadas funciones empresariales. Sin ellos, estas rutas podrían funcionar mal y el problema podría pasar desapercibido. 
  +  Comprobación de problemas cuando no se utiliza la aplicación: las pruebas sintéticas periódicas pueden simular momentos en los que los usuarios reales no interactúan activamente con la aplicación, lo que garantiza que el sistema siempre funcione correctamente. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Detección proactiva de problemas: identifique y aborde los posibles problemas antes de que afecten a los usuarios reales. 
+  Experiencia de usuario optimizada: los comentarios continuos de la RUM ayudan a refinar y mejorar la experiencia general del usuario. 
+  Información sobre el rendimiento de los dispositivos y navegadores: comprenda el rendimiento de su aplicación en varios dispositivos y navegadores, lo que permitirá una mayor optimización. 
+  Flujos de trabajo empresariales validados: las transacciones sintéticas periódicas garantizan que las funcionalidades básicas y las rutas cruciales permanezcan operativas y eficientes. 
+  Mejora del rendimiento de las aplicaciones: utilice la información recopilada a partir de datos de usuarios reales para mejorar la capacidad de respuesta y la fiabilidad de las aplicaciones. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Para aprovechar RUM y las transacciones sintéticas para la telemetría de la actividad del usuario, AWS ofrece servicios como [Amazon CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) y [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). Las métricas, los registros y los rastreos, junto con los datos de actividad de los usuarios, proporcionan una vista completa tanto del estado operativo de la aplicación como de la experiencia del usuario. 

### Pasos para la implementación
<a name="implementation-steps"></a>

1.  **Implementación de Amazon CloudWatch RUM:** integre su aplicación con CloudWatch RUM para recopilar, analizar y presentar datos de usuarios reales. 

   1.  Utilice la [biblioteca de JavaScript de CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) para integrar la RUM con su aplicación. 

   1.  Configure paneles para visualizar y supervisar los datos de los usuarios reales. 

1.  **Configuración de CloudWatch Synthetics:** cree canarios, o rutinas con scripts, que simulen las interacciones de los usuarios con su aplicación. 

   1.  Defina los flujos de trabajo y las rutas de las aplicaciones fundamentales. 

   1.  Diseñe canarios controlados por [scripts de CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) para simular las interacciones de los usuarios en estas rutas. 

   1.  Programe y supervise los canarios para que se ejecuten a intervalos específicos, lo que garantiza controles de rendimiento coherentes. 

1.  **Análisis y acción en consecuencia:** utilice los datos de la RUM y las transacciones sintéticas para obtener información y tomar medidas correctivas cuando se detecten anomalías. Utilice paneles y alarmas de CloudWatch para mantenerse informado. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS04-BP04 Implementación de telemetría de dependencias](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementación de rastreo distribuido](ops_observability_dist_trace.md) 

 **Documentos relacionados:** 
+ [ Guía de Amazon CloudWatch RUM ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html)
+ [ Guía de Amazon CloudWatch Synthetics ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)

 **Videos relacionados:** 
+ [ Optimize applications through end user insights with Amazon CloudWatch RUM ](https://www.youtube.com/watch?v=NMaeujY9A9Y)
+ [AWS on Air ft. Real-User Monitoring for Amazon CloudWatch ](https://www.youtube.com/watch?v=r6wFtozsiVE)

 **Ejemplos relacionados:** 
+ [ One Observability Workshop ](https://catalog.workshops.aws/observability/en-US/intro)
+ [ Git Repository for Amazon CloudWatch RUM Web Client ](https://github.com/aws-observability/aws-rum-web)
+ [ Using Amazon CloudWatch Synthetics to measure page load time ](https://github.com/aws-samples/amazon-cloudwatch-synthetics-page-performance)

# OPS04-BP04 Implementación de telemetría de dependencias
<a name="ops_observability_dependency_telemetry"></a>

 La telemetría de dependencias es esencial para supervisar el estado y el rendimiento de los servicios y componentes externos de los que depende su carga de trabajo. Proporciona información valiosa sobre la accesibilidad, los tiempos de espera y otros eventos cruciales relacionados con dependencias como DNS, bases de datos o API de terceros. Al instrumentar su aplicación para que emita métricas, registros y rastreos sobre estas dependencias, entenderá más claramente cuáles son los posibles cuellos de botella, problemas de rendimiento o errores que podrían afectar a su carga de trabajo. 

 **Resultado deseado:** asegúrese de que las dependencias en las que se basa su carga de trabajo funcionan según lo previsto, lo que le permitirá abordar los problemas de forma proactiva y garantizar un rendimiento óptimo de la carga de trabajo. 

 **Patrones comunes de uso no recomendados:** 
+  **Omisión de las dependencias externas:** centrarse únicamente en las métricas internas de las aplicaciones y descuidar las métricas relacionadas con las dependencias externas. 
+  **Falta de supervisión proactiva:** esperar a que surjan problemas en lugar de supervisar continuamente el estado y el rendimiento de la dependencia. 
+  **Supervisión en silos:** uso de numerosas herramientas de supervisión dispares que pueden generar vistas fragmentadas e incoherentes del estado de la dependencia. 

 **Beneficios de establecer esta práctica recomendada:** 
+  **Mejora de la fiabilidad de la carga de trabajo:** al garantizar que las dependencias externas estén siempre disponibles y funcionen de manera óptima. 
+  **Detección y resolución de problemas más rápidas:** identificar y abordar de forma proactiva los problemas relacionados con las dependencias antes de que afecten a la carga de trabajo. 
+  **Panorámica completa:** obtener una visión integral de los componentes internos y externos que influyen en el estado de la carga de trabajo. 
+  **Mejora de la escalabilidad de la carga de trabajo:** mediante la comprensión de los límites de escalabilidad y las características de rendimiento de las dependencias externas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Para implementar la telemetría de dependencias, empiece por identificar los servicios, la infraestructura y los procesos de los que depende su carga de trabajo. Cuantifique qué aspecto tienen las buenas condiciones cuando esas dependencias funcionan según lo esperado y, a continuación, determine qué datos se necesitan para medirlas. Con esa información, puede crear paneles y alertas que proporcionen información a sus equipos de operaciones sobre el estado de esas dependencias. Use herramientas de AWS para detectar y cuantificar el efecto cuando las dependencias no pueden satisfacer las necesidades. Revisite su estrategia para que tenga en cuenta los cambios en las prioridades, los objetivos y los conocimientos adquiridos. 

### Pasos para la implementación
<a name="implementation-steps"></a>

 Para implementar la telemetría de dependencias de manera eficaz: 

1.  **Identificación de las dependencias externas:** colabore con las partes interesadas para identificar las dependencias externas de las que depende su carga de trabajo. Las dependencias externas pueden abarcar servicios como bases de datos externas, API de terceros, rutas de conectividad de red a otros entornos y servicios de DNS. El primer paso para lograr una telemetría de dependencias eficaz es comprender a la perfección cuáles son esas dependencias. 

1.  **Desarrollo de una estrategia de supervisión:** una vez que tenga una idea clara de sus dependencias externas, diseñe una estrategia de supervisión adaptada a ellas. Esto implica comprender la importancia de cada dependencia, su comportamiento esperado y cualquier acuerdo u objetivo de nivel de servicio (SLA o SLT) asociado. Configure alertas proactivas que le notifiquen los cambios de estado o las desviaciones del rendimiento. 

1.  **Uso de la [supervisión de la red](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Network-Monitoring-Sections.html):** utilice [Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) y [Network Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/what-is-network-monitor.html), que proporcionan información completa sobre las condiciones globales de Internet y la red. Estas herramientas le ayudan a conocer los cortes, interrupciones o degradaciones del rendimiento que afectan a sus dependencias externas y responder a ellos. 

1.  **Manténgase informado con [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/):** AWS Health es la fuente autorizada de información sobre el estado de los recursos de Nube de AWS. Use AWS Health para visualizar y recibir notificaciones sobre cualquier evento de servicio actual y cambios futuros, como los eventos del ciclo de vida planificados, de modo que pueda tomar medidas para mitigar los impactos. 

   1.  [Cree notificaciones de eventos de AWS Health adaptadas al propósito](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) para el correo electrónico y los canales de chat a través de [AWS User Notifications](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e intégrelas mediante programación con [las herramientas de supervisión y alerta a través de Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o la [API de AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planifique y realice un seguimiento del progreso de los eventos de estado que requieran una acción mediante la integración con herramientas de administración de cambios o ITSM (como [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) o [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) que ya pueda utilizar a través de Amazon EventBridge o la API de AWS Health. 

   1.  Si usa AWS Organizations, habilite la [vista de organización para AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) a fin de agregar eventos de AWS Health en todas las cuentas. 

1.  **Instrumentación de su aplicación con [AWS X-Ray](https://aws.amazon.com/xray/):** AWS X-Ray proporciona información sobre el rendimiento de las aplicaciones y sus dependencias subyacentes. Al rastrear las solicitudes de principio a fin, puede identificar cuellos de botella o errores en los servicios o componentes externos en los que se basa su aplicación. 

1.  **Uso de [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/):** este servicio basado en machine learning identifica problemas operativos, predice cuándo pueden producirse problemas críticos y recomienda medidas concretas. Tiene un valor incalculable para obtener información sobre las dependencias y determinar que no son el origen de los problemas operativos. 

1.  **Supervisión periódica:** supervise continuamente las métricas y los registros relacionados con las dependencias externas. Configure alertas en caso de que se produzca un comportamiento inesperado o una degradación del rendimiento. 

1.  **Validación después de los cambios:** siempre que se produzca una actualización o un cambio en alguna de las dependencias externas, valide su rendimiento y compruebe su conformidad con los requisitos de la aplicación. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Definición de los KPI de la carga de trabajo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_application_telemetry.html) 
+  [OPS04-BP03 Implementación de telemetría de actividades de usuario](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP05 Implementación de rastreo distribuido](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 
+  [OP08-BP04 Creación de alertas procesables](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_alerts.html) 

 **Documentos relacionados:** 
+  [Amazon Personal Panel de estado User Guide](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [AWS Internet Monitor User Guide](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) 
+  [Guía para desarrolladores de AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [AWS DevOps Guru User Guide](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 

 **Videos relacionados:** 
+  [Visibility into how internet issues impact app performance](https://www.youtube.com/watch?v=Kuc_SG_aBgQ) 
+  [Introduction to Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY) 
+  [Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA) 

 **Ejemplos relacionados:** 
+  [AWS Health Aware](https://github.com/aws-samples/aws-health-aware/) 
+  [Using Tag-Based Filtering to Manage AWS Health Monitoring and Alerting at Scale](https://aws.amazon.com/blogs/mt/using-tag-based-filtering-to-manage-health-monitoring-and-alerting-at-scale/) 

# OPS04-BP05 Implementación de rastreo distribuido
<a name="ops_observability_dist_trace"></a>

 El rastreo distribuido ofrece una forma de supervisar y visualizar las solicitudes a medida que atraviesan varios componentes de un sistema distribuido. Al obtener datos de rastreo de numerosos orígenes y analizarlos en una vista unificada, los equipos pueden comprender mejor cómo fluyen las solicitudes, dónde existen los cuellos de botella y dónde deben centrarse los esfuerzos de optimización. 

 **Resultado deseado:** obtenga una visión integral de las solicitudes que fluyen por su sistema distribuido, lo que permite una depuración precisa, un rendimiento optimizado y una mejor experiencia del usuario. 

 **Patrones comunes de uso no recomendados:** 
+  Instrumentación incoherente: no todos los servicios de un sistema distribuido están instrumentados para el rastreo. 
+  Hacer caso omiso de la latencia: centrarse únicamente en los errores y no tener en cuenta la latencia o las degradaciones graduales del rendimiento. 

 **Beneficios de establecer esta práctica recomendada:** 
+ Información general completa del sistema: visualización de toda la ruta de las solicitudes, desde la entrada hasta la salida.
+  Depuración mejorada: identificación rápida de dónde se producen errores o problemas de rendimiento. 
+  Mejora de la experiencia del usuario: supervisión y optimización en función de los datos reales del usuario, lo que garantiza que el sistema satisfaga las demandas de la vida real. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Comience por identificar todos los elementos de la carga de trabajo que requieren instrumentación. Una vez contabilizados todos los componentes, utilice herramientas como AWS X-Ray y OpenTelemetry para recopilar datos y analizarlos con herramientas como X-Ray y Amazon CloudWatch ServiceLens Map. Lleve a cabo revisiones periódicas con los desarrolladores y complemente estas conversaciones con herramientas como Amazon DevOps Guru, X-Ray Analytics y X-Ray Insights para sacar a la luz resultados más profundos. Establezca alertas a partir de los datos de rastreo para notificar cuando los resultados, tal como se definen en el plan de supervisión de la carga de trabajo, estén en peligro. 

### Pasos para la implementación
<a name="implementation-steps"></a>

 Implementación del rastreo distribuido de manera eficaz: 

1.  **Incorporación de [AWS X-Ray](https://aws.amazon.com/xray/):** integre X-Ray en su aplicación para obtener información sobre su comportamiento, comprender su rendimiento e identificar los cuellos de botella. Utilice X-Ray Insights para el análisis automático de rastreos. 

1.  **Instrumentación de sus servicios:** compruebe que todos los servicios, desde una función de [AWS Lambda](https://aws.amazon.com/lambda/) a una [instancia de EC2](https://aws.amazon.com/ec2/), envíen datos de rastreo. Cuantos más servicios instrumente, más clara será la vista de principio a fin. 

1.  **Integración del seguimiento de [CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) y [Synthetic Monitoring](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html):** integre el CloudWatch RUM y el Synthetic Monitoring con X-Ray. Esto permite recoger experiencias de usuario de la vida real y simular las interacciones de los usuarios para identificar posibles problemas. 

1.  **Uso del [agente de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html):** el agente puede enviar rastreos tanto de X-Ray como de OpenTelemetry, lo que mejora la profundidad de la información obtenida. 

1.  **Uso de [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/):** DevOps Guru utiliza datos de X-Ray, CloudWatch, AWS Config y AWS CloudTrail para ofrecer recomendaciones prácticas. 

1.  **Análisis de los rastreos:** revise periódicamente los datos de rastreo para detectar patrones, anomalías o cuellos de botella que podrían afectar al rendimiento de su aplicación. 

1.  **Configuración de alertas:** configure las alarmas en [CloudWatch](https://aws.amazon.com/cloudwatch/) para detectar patrones inusuales o latencias prolongadas, lo que permite abordar los problemas de forma proactiva. 

1.  **Mejora continua:** revisite su estrategia de rastreo a medida que se agregan o modifiquen servicios para recoger todos los puntos de datos pertinentes. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementación de telemetría de la experiencia del usuario](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementación de telemetría de dependencias](ops_observability_dependency_telemetry.md) 

 **Documentos relacionados:** 
+ [Guía para desarrolladores de AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ [ Guía del usuario del agente de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [ Amazon DevOps Guru User Guide ](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)

 **Videos relacionados:** 
+ [ Use AWS X-Ray Insights ](https://www.youtube.com/watch?v=tl8OWHl6jxw)
+ [AWS on Air ft. Observability: Amazon CloudWatch and AWS X-Ray](https://www.youtube.com/watch?v=qBDBnPkZ-KI)

 **Ejemplos relacionados:** 
+ [ Instrumenting your application for AWS X-Ray](https://aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html)