# OPS 4. Comment mettre en œuvre l’observabilité dans votre charge de travail ?
<a name="ops-04"></a>

Intégrez l’observabilité à votre charge de travail afin de comprendre son état et de prendre des décisions basées sur les données en fonction des exigences de l’entreprise.

**Topics**
+ [

# OPS04-BP01 Identifier les indicateurs de performance clés
](ops_observability_identify_kpis.md)
+ [

# OPS04-BP02 Implémenter la télémétrie des applications
](ops_observability_application_telemetry.md)
+ [

# OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur
](ops_observability_customer_telemetry.md)
+ [

# OPS04-BP04 Mise en œuvre de la télémétrie des dépendances
](ops_observability_dependency_telemetry.md)
+ [

# OPS04-BP05 Mettre en œuvre le traçage distribué
](ops_observability_dist_trace.md)

# OPS04-BP01 Identifier les indicateurs de performance clés
<a name="ops_observability_identify_kpis"></a>

 La mise en œuvre de l’observabilité dans votre charge de travail commence par la compréhension de son état et par la prise de décisions basées sur les données en fonction des exigences de l’entreprise. L'un des moyens les plus efficaces de garantir l'alignement entre les activités de surveillance et les objectifs commerciaux consiste à définir et à suivre des indicateurs de performance clés (KPIs). 

 **Résultat escompté :** pratiques d’observabilité efficaces qui sont étroitement alignées sur les objectifs commerciaux, garantissant que les efforts de surveillance sont toujours au service de résultats commerciaux tangibles. 

 **Anti-modèles courants :** 
+  Non défini KPIs : le fait de travailler sans clarté KPIs peut entraîner une surveillance trop importante ou insuffisante, ce qui peut entraîner l'absence de signaux vitaux. 
+  Statique KPIs : ne pas revoir ou affiner au KPIs fur et à mesure de l'évolution de la charge de travail ou des objectifs commerciaux. 
+  Désalignement : se concentrer sur des métriques techniques qui ne sont pas directement corrélées aux résultats commerciaux ou qui sont plus difficiles à corréler aux problèmes réels. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Facilité d'identification des problèmes : les entreprises identifient KPIs souvent les problèmes plus clairement que les indicateurs techniques. Une baisse d'activité KPI permet d'identifier un problème plus efficacement que de passer au crible de nombreux indicateurs techniques. 
+  Cohérence des activités : garantit que les activités de surveillance soutiennent directement les objectifs commerciaux. 
+  Efficacité : la priorité est donnée à la surveillance des ressources et l’attention est concentrée sur les métriques déterminantes. 
+  Proactivité : identifiez et traitez les problèmes avant qu’ils n’aient des implications commerciales plus larges. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour définir efficacement la charge de travail KPIs : 

1.  **Commencement par les résultats commerciaux :** avant de vous plonger dans les métriques, déterminez les résultats commerciaux souhaités. S’agit-il d’une augmentation des ventes, d’un engagement plus élevé des utilisateurs ou d’une réduction des temps de réponse ? 

1.  **Corrélation des métriques techniques avec les objectifs commerciaux :** les métriques techniques n’ont pas toutes un impact direct sur les résultats commerciaux. Identifiez ceux qui le font, mais il est souvent plus simple d'identifier un problème dans le cadre d'une entrepriseKPI. 

1.  **Utilisez [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) :** Employ CloudWatch pour définir et surveiller les indicateurs qui représentent votreKPIs. 

1.  **Révision et mise à jour régulières KPIs :** au fur et à mesure de l'évolution de votre charge de travail et de votre activité, restez KPIs pertinent. 

1.  **Impliquer les parties prenantes :** Impliquer les équipes techniques et commerciales dans la définition et la révisionKPIs. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+ [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md)
+ [OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur](ops_observability_customer_telemetry.md)
+ [OPS04-BP04 Mise en œuvre de la télémétrie des dépendances](ops_observability_dependency_telemetry.md)
+ [OPS04-BP05 Mettre en œuvre le traçage distribué](ops_observability_dist_trace.md)

 **Documents connexes :** 
+ [AWS Meilleures pratiques en matière d'observabilité](https://aws-observability.github.io/observability-best-practices/)
+ [ CloudWatch Guide de l'utilisateur](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [AWS Cours de renforcement des compétences en observabilité](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability)

 **Vidéos connexes :** 
+ [Developing an observability strategy](https://www.youtube.com/watch?v=Ub3ATriFapQ)

 **Exemples connexes :** 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US) 

# OPS04-BP02 Implémenter la télémétrie des applications
<a name="ops_observability_application_telemetry"></a>

 La télémétrie de l’application est la pierre angulaire de l’observabilité de votre charge de travail. Il est essentiel de diffuser des données télémétriques fournissant des informations exploitables sur l’état de votre application et sur son taux de réussite par rapport aux résultats techniques et commerciaux. Qu'il s'agisse de résoudre des problèmes, de mesurer l'impact d'une nouvelle fonctionnalité ou de garantir l'alignement sur les indicateurs de performance clés de l'entreprise (KPIs), la télémétrie des applications vous permet de créer, d'exploiter et de faire évoluer votre charge de travail. 

 Les métriques, les journaux et les données de suivi constituent les trois principaux piliers de l’observabilité. Ils servent d’outils de diagnostic qui décrivent l’état de votre application. Au fil du temps, ils contribuent à créer des points de référence et à identifier les anomalies. Cependant, pour garantir l'alignement entre les activités de surveillance et les objectifs commerciaux, il est essentiel de les définir et de les surveillerKPIs. KPIsLes entreprises facilitent souvent l'identification des problèmes par rapport aux seuls indicateurs techniques. 

 D'autres types de télémétrie, tels que la surveillance des utilisateurs réels (RUM) et les transactions synthétiques, complètent ces sources de données principales. RUMfournit des informations sur les interactions des utilisateurs en temps réel, tandis que les transactions synthétiques simulent les comportements potentiels des utilisateurs, aidant ainsi à détecter les goulets d'étranglement avant que les utilisateurs réels ne les rencontrent. 

 **Résultat escompté :** obtenez des informations exploitables sur les performances de votre charge de travail. Ces informations vous permettront de prendre des décisions proactives concernant l’optimisation des performances, d’accroître la stabilité de la charge de travail, de rationaliser les processus CI/CD et d’utiliser efficacement les ressources. 

 **Anti-modèles courants :** 
+  **Observabilité incomplète :** le fait de négliger d’intégrer l’observabilité à chaque niveau de la charge de travail entraîne des angles morts susceptibles de masquer des informations essentielles sur les performances et le comportement du système. 
+  **Vue fragmentée des données :** lorsque les données sont dispersées entre plusieurs outils et systèmes, il devient difficile de conserver une vision globale de l’état et des performances de la charge de travail. 
+  **Problèmes signalés par les utilisateurs :** cela indique que la détection proactive des problèmes par le biais de la télémétrie et de la KPI surveillance des activités fait défaut. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Prise de **décision éclairée :** grâce aux informations issues de la télémétrie et des activités commercialesKPIs, vous pouvez prendre des décisions basées sur les données. 
+  **Efficacité opérationnelle améliorée :** l’utilisation des ressources axée sur les données est source de rentabilité. 
+  **Stabilité accrue de la charge de travail :** détection et résolution plus rapides des problèmes, ce qui améliore la disponibilité. 
+  **Processus CI/CD rationalisés :** les informations issues des données de télémétrie facilitent l’affinement des processus et la livraison fiable du code. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour implémenter la télémétrie des applications pour votre charge de travail, utilisez AWS des services tels qu'[Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) et. [AWS X-Ray](https://aws.amazon.com/xray/) Amazon CloudWatch fournit une suite complète d'outils de surveillance, qui vous permet d'observer vos ressources et vos applications dans AWS et sur site. Il collecte, suit et analyse les métriques, consolide et surveille les données des journaux, et répond à l’évolution de vos ressources, vous permettant ainsi de mieux comprendre le fonctionnement de votre charge de travail. En tandem, vous AWS X-Ray permet de suivre, d'analyser et de déboguer vos applications, ce qui vous permet de mieux comprendre le comportement de votre charge de travail. Des fonctionnalités telles que les cartes de service, les distributions de latence et les chronologies de suivi AWS X-Ray fournissent des informations sur les performances de votre charge de travail et les obstacles qui l'affectent. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Identification des données à collecter :** déterminez les métriques, les journaux et les données de suivi essentiels qui fourniraient des informations substantielles sur l’état, les performances et le comportement de votre charge de travail. 

1.  **Déployez l'[CloudWatchagent](https://aws.amazon.com/cloudwatch/) :** l' CloudWatch agent joue un rôle essentiel dans l'obtention de métriques et de journaux du système et des applications à partir de votre charge de travail et de son infrastructure sous-jacente. L' CloudWatch agent peut également être utilisé pour collecter OpenTelemetry ou radiographier des traces et les envoyer à X-Ray. 

1.  **Mettez en œuvre la détection des anomalies pour les journaux et les métriques :** utilisez la détection [CloudWatch des anomalies des journaux et la détection CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) [des anomalies des métriques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pour identifier automatiquement les activités inhabituelles dans les opérations de votre application. Ces outils utilisent des algorithmes de machine learning pour détecter les anomalies et émettre des alertes en cas d’anomalie, ce qui améliore vos capacités de surveillance et accélère le temps de réponse en cas de perturbations ou de menaces de sécurité potentielles. Configurez ces fonctionnalités pour gérer de manière proactive l’intégrité et la sécurité des applications. 

1.  **Sécurisez les données de journal sensibles :** utilisez la [protection des données Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/mask-sensitive-log-data.html) pour masquer les informations sensibles contenues dans vos journaux. Cette fonctionnalité permet de préserver la confidentialité et la conformité grâce à la détection automatique et au masquage des données sensibles avant leur accès. Mettez en œuvre le masquage des données pour gérer et protéger en toute sécurité les informations sensibles telles que les informations personnelles identifiables (PII). 

1.  **Définissez et surveillez les activités KPIs :** établissez [des indicateurs personnalisés](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) qui correspondent aux [résultats de votre entreprise](https://aws-observability.github.io/observability-best-practices/guides/operational/business/monitoring-for-business-outcomes/). 

1.  **Instrumentez votre application avec AWS X-Ray :** Outre le déploiement de l' CloudWatchagent, il est essentiel d'[instrumenter votre application](https://docs.aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html) pour émettre des données de trace. Ce processus peut fournir des informations supplémentaires sur le comportement et les performances de votre charge de travail. 

1.  **Standardisation de la collecte de données dans l’ensemble de votre application :** standardisez les pratiques de collecte de données dans l’ensemble de votre application. L’uniformité facilite la corrélation et l’analyse des données, fournissant ainsi une vue complète du comportement de votre application. 

1.  **Mettez en œuvre l'observabilité entre comptes :** améliorez l'efficacité de la surveillance sur plusieurs comptes grâce à l'observabilité entre comptes Comptes AWS [Amazon CloudWatch .](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) Grâce à cette fonctionnalité, vous pouvez consolider les métriques, les journaux et les alarmes de différents comptes en une seule vue, ce qui simplifie la gestion et améliore les temps de réponse aux problèmes identifiés dans l' AWS environnement de votre entreprise. 

1.  **Analysez les données et agissez en conséquence :** une fois que la collecte et la normalisation des données sont en place, utilisez [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) pour l'analyse des métriques et des journaux, ainsi que [AWS X-Ray](https://aws.amazon.com/xray/features/)pour l'analyse des traces. Une telle analyse peut fournir des informations cruciales sur l’état, les performances et le comportement de votre charge de travail, orientant ainsi votre processus décisionnel. 

 **Niveau d’effort du plan d’implémentation :** élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Définir la charge de travail KPIs](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP03 Implémenter la télémétrie de l'activité des utilisateurs](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP04 Implémenter la télémétrie des dépendances](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dependency_telemetry.html) 
+  [OPS04-BP05 Mettre en œuvre la traçabilité des transactions](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 

 **Documents connexes :** 
+  [Bonnes pratiques AWS en matière d’observabilité](https://aws-observability.github.io/observability-best-practices/) 
+  [Guide de l’utilisateur CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [AWS X-Ray Manuel du développeur](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Instrumentation des systèmes distribués au profit de la visibilité opérationnelle](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility) 
+  [Cours de renforcement des compétences en observabilitéAWS](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability) 
+  [Nouveautés d'Amazon CloudWatch](https://aws.amazon.com/about-aws/whats-new/management-and-governance/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23amazon-cloudwatch) 
+  [Quoi de neuf avec AWS X-Ray](https://aws.amazon.com/about-aws/whats-new/developer-tools/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23aws-x-ray) 

 **Vidéos connexes :** 
+  [AWS re:Invent 2022 - Meilleures pratiques en matière d'observabilité sur Amazon](https://youtu.be/zZPzXEBW4P8) 
+  [AWS re:Invent 2022 - Élaboration d'une stratégie d'observabilité](https://youtu.be/Ub3ATriFapQ) 

 **Exemples associés :** 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability) 
+  [AWS Bibliothèque de solutions : surveillance des applications avec Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch) 

# OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur
<a name="ops_observability_customer_telemetry"></a>

 Il est essentiel d’obtenir des informations approfondies sur les expériences des clients et leurs interactions avec votre application. La surveillance des utilisateurs réels (RUM) et les transactions synthétiques constituent de puissants outils à cette fin. RUMfournit des données sur les interactions réelles des utilisateurs, offrant une perspective non filtrée de la satisfaction des utilisateurs, tandis que les transactions synthétiques simulent les interactions des utilisateurs, aidant à détecter les problèmes potentiels avant même qu'ils n'affectent les utilisateurs réels. 

 **Résultat escompté :**une vision globale de l’expérience client, une détection proactive des problèmes et une optimisation des interactions avec les utilisateurs pour proposer des expériences numériques fluides. 

 **Anti-modèles courants :** 
+  Applications sans véritable surveillance des utilisateurs (RUM) : 
  +  Détection différée des problèmes : sans celaRUM, vous ne vous rendrez peut-être pas compte de l'existence de problèmes ou de problèmes de performances tant que les utilisateurs ne se seront pas plaints. Cette approche réactive peut entraîner l’insatisfaction des clients. 
  +  Manque d'informations sur l'expérience utilisateur : si vous RUM ne l'utilisez pas, vous perdez des données cruciales qui montrent comment les utilisateurs réels interagissent avec votre application, ce qui limite votre capacité à optimiser l'expérience utilisateur. 
+  Applications sans transactions synthétiques : 
  +  Cas marginaux manqués : les transactions synthétiques vous aident à tester des chemins et des fonctions qui ne sont pas toujours fréquemment utilisés par les utilisateurs ordinaires, mais qui sont essentiels à certaines fonctions commerciales. Sans ces transactions synthétiques, ces chemins pourraient mal fonctionner et passer inaperçus. 
  +  Recherche de problèmes lorsque l’application n’est pas utilisée : des tests synthétiques réguliers permettent de simuler les situations où les utilisateurs réels n’interagissent pas activement avec votre application, garantissant ainsi le bon fonctionnement du système. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Détection proactive des problèmes : identifiez et résolvez les problèmes potentiels avant qu’ils n’affectent les utilisateurs réels. 
+  Expérience utilisateur optimisée : le feedback continu RUM permet d'affiner et d'améliorer l'expérience utilisateur globale. 
+  Informations sur les performances de l’appareil et du navigateur : comprenez le fonctionnement de votre application sur différents appareils et navigateurs, afin de l’affiner davantage. 
+  Flux de travail validés : des transactions synthétiques régulières garantissent que les fonctionnalités de base et les chemins critiques restent opérationnels et efficaces. 
+  Performances améliorées des applications : exploitez les informations recueillies à partir de données sur les utilisateurs réels pour améliorer la réactivité et la fiabilité des applications. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour exploiter RUM et synthétiser les transactions à des fins de télémétrie de l'activité des utilisateurs, AWS propose des services tels qu'Amazon et [ CloudWatch RUMAmazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) [Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). Les métriques, les journaux et les données de suivi, associés aux données d’activité des utilisateurs, fournissent une vue complète de l’état de fonctionnement de l’application et de l’expérience utilisateur. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Déployez Amazon CloudWatch RUM :** intégrez votre application CloudWatch RUM pour collecter, analyser et présenter des données utilisateur réelles. 

   1.  Utilisez la [CloudWatch RUM JavaScript bibliothèque](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) pour l'intégrer RUM à votre application. 

   1.  Configurez des tableaux de bord pour visualiser et surveiller les données sur les utilisateurs réels. 

1.  **Configurer CloudWatch Synthetics** : créez des canaris, ou des routines scriptées, qui simulent les interactions des utilisateurs avec votre application. 

   1.  Définissez les flux de travail et les chemins d’application critiques. 

   1.  Concevez des canaris à l'aide [CloudWatch de scripts Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) pour simuler les interactions des utilisateurs sur ces trajectoires. 

   1.  Planifiez et surveillez les scripts canary pour qu’ils fonctionnent à des intervalles spécifiés, afin de garantir des contrôles de performance cohérents. 

1.  **Analysez les données et agissez en fonction de celles-ci :** utilisez les données issues RUM des transactions synthétiques pour obtenir des informations et prendre des mesures correctives lorsque des anomalies sont détectées. Utilisez des CloudWatch tableaux de bord et des alarmes pour rester informé. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS04-BP04 Mise en œuvre de la télémétrie des dépendances](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Mettre en œuvre le traçage distribué](ops_observability_dist_trace.md) 

 **Documents connexes :** 
+ [ CloudWatch RUMGuide Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html)
+ [Guide Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)

 **Vidéos connexes :** 
+ [Optimisez les applications grâce aux informations sur les utilisateurs finaux avec Amazon CloudWatch RUM](https://www.youtube.com/watch?v=NMaeujY9A9Y)
+ [AWS sur Air ft. Surveillance des utilisateurs réels pour Amazon CloudWatch](https://www.youtube.com/watch?v=r6wFtozsiVE)

 **Exemples connexes :** 
+ [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro)
+ [Référentiel Git pour Amazon CloudWatch RUM Web Client](https://github.com/aws-observability/aws-rum-web)
+ [Utilisation d'Amazon CloudWatch Synthetics pour mesurer le temps de chargement des pages](https://github.com/aws-samples/amazon-cloudwatch-synthetics-page-performance)

# OPS04-BP04 Mise en œuvre de la télémétrie des dépendances
<a name="ops_observability_dependency_telemetry"></a>

 La télémétrie des dépendances est essentielle pour surveiller l’état et les performances des services et composants externes sur lesquels repose votre charge de travail. Elle fournit des informations précieuses sur l’accessibilité, les délais d’attente et d’autres événements critiques liés aux dépendances comme le DNS, les bases de données ou les API tierces. Lorsque vous instrumentez votre application de sorte à émettre des métriques, des journaux et des données de suivi concernant ces dépendances, vous identifiez plus facilement les goulets d’étranglement potentiels, les problèmes de performances ou les défaillances susceptibles d’avoir un impact sur votre charge de travail. 

 **Résultat escompté :** assurez-vous que les dépendances sur lesquelles repose votre charge de travail fonctionnent comme prévu, ce qui vous permet de résoudre les problèmes de manière proactive et de garantir des performances de charge de travail optimales. 

 **Anti-modèles courants :** 
+  **Omission des dépendances externes :** se concentrer uniquement sur les métriques internes des applications tout en négligeant les métriques liées aux dépendances externes. 
+  **Absence de surveillance proactive :** attendre l’apparition de problèmes au lieu de surveiller en permanence l’état et les performances des dépendances. 
+  **Surveillance cloisonnée :** utiliser des outils de surveillance divers et variés qui peuvent donner lieu à des visions fragmentées et incohérentes de l’état des dépendances. 

 **Avantages liés au respect de cette bonne pratique :** 
+  **Fiabilité améliorée de la charge de travail :** en garantissant que les dépendances externes sont constamment disponibles et fonctionnent de manière optimale. 
+  **Détection et résolution plus rapides des problèmes :** en identifiant et en résolvant de manière proactive les problèmes liés aux dépendances avant qu’ils n’affectent la charge de travail. 
+  **Vue globale :** grâce à une visibilité complète des composants internes et externes qui influencent l’état de la charge de travail. 
+  **Meilleure capacité de mise à l’échelle de la charge de travail :** grâce à une meilleure compréhension des limites de la capacité de mise à l’échelle et des caractéristiques de performance des dépendances externes. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Mettez en œuvre la télémétrie des dépendances en commençant par identifier les services, l’infrastructure et les processus sur lesquels repose votre charge de travail. Quantifiez ce à quoi les conditions favorables ressemblent lorsque ces dépendances fonctionnent comme prévu, puis déterminez les données nécessaires pour les mesurer. Ces informations vous permettront de créer des tableaux de bord et des alertes qui fourniront à vos équipes opérationnelles des informations sur l’état de ces dépendances. Utilisez les outils AWS pour découvrir et quantifier les impacts lorsque les dépendances ne répondent pas aux besoins. Revoyez continuellement votre stratégie en tenant compte de l’évolution des priorités, des objectifs et des connaissances acquises. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Pour implémenter efficacement la télémétrie des dépendances : 

1.  **Identification des dépendances externes :** collaborez avec les parties prenantes pour identifier les dépendances externes sur lesquelles repose votre charge de travail. Les dépendances externes peuvent inclure des services tels que des bases de données externes, des API tierces, des routes de connectivité réseau vers d’autres environnements et des services DNS. La première étape à suivre pour assurer l’efficacité de la télémétrie des dépendances consiste à comprendre parfaitement ce que sont ces dépendances. 

1.  **Élaboration d’une stratégie de suivi :** une fois que vous avez une idée précise de vos dépendances externes, élaborez une stratégie de surveillance qui leur est adaptée. Cela implique de comprendre le caractère critique de chaque dépendance, son comportement attendu et tous les contrats ou tous les objectifs de niveau de service associés (SLA ou SLT). Configurez des alertes proactives pour vous informer des changements d’état ou des écarts de performance. 

1.  **Utilisation de la [surveillance du réseau](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Network-Monitoring-Sections.html) :** utilisez [Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) et [Network Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/what-is-network-monitor.html), qui fournissent des informations complètes sur l’état mondial de l’Internet et du réseau. Ces outils vous aident à comprendre les pannes, les interruptions ou les dégradations de performances qui affectent vos dépendances externes et à y répondre. 

1.  **Restez informé avec [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/) :** AWS Health est la source d’informations faisant autorité sur l’intégrité de vos ressources AWS Cloud. Utilisez AWS Health pour visualiser et recevoir des notifications sur les événements de service en cours et les changements à venir, tels que les événements de cycle de vie planifiés, afin que vous puissiez prendre des mesures pour atténuer les impacts. 

   1.  [Créez des notifications d’événements AWS Health spécialement adaptées](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) aux e-mails et aux canaux de discussion via [Notifications des utilisateurs AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) et intégrez-les de manière programmatique à [vos outils de surveillance et d’alerte via Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou l’[API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planifiez et suivez l’évolution des événements d’intégrité qui nécessitent une action en intégrant des outils de gestion des modifications ou des outils ITSM (tels que [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) ou [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) que vous utilisez peut-être déjà via Amazon EventBridge ou l’API AWS Health. 

   1.  Si vous utilisez AWS Organizations, activez la [vue de l’organisation pour AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) afin d’agréger les événements AWS Health sur l’ensemble des comptes. 

1.  **Instrumentation de votre application avec [AWS X-Ray](https://aws.amazon.com/xray/) :** AWS X-Ray fournit des informations sur les performances des applications et de leurs dépendances sous-jacentes. En suivant les requêtes du début à la fin, vous pouvez identifier les goulets d’étranglement ou les défaillances des services ou composants externes sur lesquels repose votre application. 

1.  **Utilisation d’[Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) :** ce service basé sur le machine learning identifie les problèmes opérationnels, prédit quand des problèmes critiques peuvent survenir et recommande des mesures spécifiques à prendre. Il s’agit d’un outil inestimable qui permet de mieux comprendre les dépendances et de déterminer qu’elles ne sont pas à l’origine de problèmes opérationnels. 

1.  **Surveillance régulière :** surveillez en permanence les métriques et les journaux liés aux dépendances externes. Configurez des alertes en cas de comportement inattendu ou de dégradation des performances. 

1.  **Validation après les modifications :** chaque fois qu’une dépendance externe est mise à jour ou modifiée, validez ses performances et vérifiez qu’elle correspond aux exigences de votre application. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Définition des indicateurs de rendement clés de la charge de travail](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP02 Mise en œuvre de la télémétrie de l’application](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_application_telemetry.html) 
+  [OPS04-BP03 Mise en œuvre de la télémétrie pour l’activité des utilisateurs](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP05 Mise en œuvre de la traçabilité des transactions](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 
+  [OP08-BP04 Création d’alertes exploitables](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_alerts.html) 

 **Documents connexes :** 
+  [Guide de l’utilisateur d’Amazon Personal Tableau de bord Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Guide de l’utilisateur d’AWS Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) 
+  [Guide du développeur AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Guide de l’utilisateur d’AWS DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 

 **Vidéos connexes :** 
+  [Visibility into how internet issues impact app performance](https://www.youtube.com/watch?v=Kuc_SG_aBgQ) 
+  [Présentation d’Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY) 
+  [Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA) 

 **Exemples connexes :** 
+  [AWS Health Aware](https://github.com/aws-samples/aws-health-aware/) 
+  [Utilisation du filtrage basé sur des balises pour gérer la surveillance et les alertes AWS Health à l’échelle](https://aws.amazon.com/blogs/mt/using-tag-based-filtering-to-manage-health-monitoring-and-alerting-at-scale/) 

# OPS04-BP05 Mettre en œuvre le traçage distribué
<a name="ops_observability_dist_trace"></a>

 Le suivi distribué permet de surveiller et de visualiser les requêtes lorsqu’elles traversent les différents composants d’un système distribué. En capturant les données de suivi provenant de plusieurs sources et en les analysant dans une vue unifiée, les équipes peuvent mieux comprendre le flux des requêtes, les endroits où les goulots d’étranglement ont lieu et les domaines dans lesquels les efforts d’optimisation doivent se concentrer. 

 **Résultat escompté :** bénéficiez d’une vue globale des requêtes circulant dans votre système distribué, ce qui permet un débogage précis, des performances optimisées et une meilleure expérience utilisateur. 

 **Anti-modèles courants :** 
+  Instrumentation incohérente : les services d’un système distribué ne sont pas tous instrumentés pour le suivi. 
+  Ignorer la latence : se concentrer uniquement sur les erreurs et ne pas tenir compte de la latence ou de la dégradation progressive des performances. 

 **Avantages liés au respect de cette bonne pratique :** 
+ Vue d’ensemble complète du système : visualisation du parcours complet des requêtes, de l’entrée à la sortie.
+  Débogage amélioré : identification rapide des défaillances ou des problèmes de performance. 
+  Expérience utilisateur améliorée : surveillance et optimisation basées sur des données sur les utilisateurs réels, afin de garantir que le système répond aux exigences du monde réel. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Commencez par identifier tous les éléments de votre charge de travail qui nécessitent de l’instrumentation. Une fois que tous les composants sont pris en compte, utilisez des outils tels que AWS X-Ray et OpenTelemetry pour collecter des données de trace à des fins d'analyse avec des outils tels que X-Ray et Amazon CloudWatch ServiceLens Map. Participez à des évaluations régulières avec les développeurs et complétez ces discussions avec des outils tels qu'Amazon DevOps Guru, X-Ray Analytics et X-Ray Insights pour vous aider à découvrir des résultats plus approfondis. Définissez des alertes à partir des données de suivi pour envoyer une notification lorsque les résultats, tels que décrits dans le plan de surveillance de la charge de travail, sont menacés. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Pour mettre en œuvre efficacement le suivi distribué : 

1.  **Adoption de [AWS X-Ray](https://aws.amazon.com/xray/) :** intégrez X-Ray à votre application pour mieux comprendre son comportement, interpréter ses performances et identifier les goulots d’étranglement. Utilisez X-Ray Insights pour l’analyse automatique des données de suivi. 

1.  **Instrumentez vos services :** vérifiez que chaque service, qu'il s'agisse d'une [AWS Lambda](https://aws.amazon.com/lambda/)fonction ou d'une [EC2instance](https://aws.amazon.com/ec2/), envoie des données de suivi. Plus vous instrumentez de services, plus la end-to-end vue est claire. 

1.  **Intégrez la [surveillance des utilisateurs CloudWatch réels](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) et la [surveillance synthétique](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) :** intégrez la surveillance des utilisateurs réels (RUM) et la surveillance synthétique avec X-Ray. Cela permet de capturer des expériences utilisateur réelles et de simuler les interactions des utilisateurs afin d’identifier les problèmes potentiels. 

1.  **Utiliser l'[CloudWatch agent](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) :** l'agent peut envoyer des traces à partir de X-Ray ou OpenTelemetry pour améliorer la profondeur des informations obtenues. 

1.  **Utilisez [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) :** DevOps Guru utilise les données de X-Ray CloudWatch, AWS Config, et AWS CloudTrail pour fournir des recommandations exploitables. 

1.  **Analyse des traces :** passez régulièrement en revue les données de suivi pour identifier les tendances, les anomalies ou les goulots d’étranglement susceptibles d’avoir un impact sur les performances de votre application. 

1.  **Configurez des alertes :** configurez les alarmes en fonction [CloudWatch](https://aws.amazon.com/cloudwatch/)de modèles inhabituels ou de latences prolongées, ce qui permet de résoudre les problèmes de manière proactive. 

1.  **Amélioration continue :** revoyez votre stratégie de suivi au fur et à mesure que des services sont ajoutés ou modifiés afin de capturer tous les points de données pertinents. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Mise en œuvre de la télémétrie des dépendances](ops_observability_dependency_telemetry.md) 

 **Documents connexes :** 
+ [AWS X-Ray Guide du développeur](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ [Guide de CloudWatch l'utilisateur d'Amazon Agent](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Guide de l'utilisateur Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)

 **Vidéos connexes :** 
+ [Utilisez AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw)
+ [AWS sur Air ft. Observabilité : Amazon CloudWatch ](https://www.youtube.com/watch?v=qBDBnPkZ-KI) et AWS X-Ray

 **Exemples connexes :** 
+ [Instrumentation de votre application pour AWS X-Ray](https://aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html)