# OPS 8. Comment exploiter l’observabilité de la charge de travail dans l’organisation ?
<a name="ops-08"></a>

Garantissez un état optimal de la charge de travail en tirant parti de l’observabilité. Utilisez des métriques, des journaux et des données de suivi pertinents pour obtenir une vue complète des performances de votre charge de travail et résoudre les problèmes de manière efficace.

**Topics**
+ [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md)
+ [OPS08-BP02 Analyser les journaux de charge de travail](ops_workload_observability_analyze_workload_logs.md)
+ [OPS08-BP03 Analyser les traces de charge de travail](ops_workload_observability_analyze_workload_traces.md)
+ [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md)
+ [OPS08-BP05 Création de tableaux de bord](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Analyser les métriques de charge de travail
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 Après avoir implémenté la télémétrie des applications, analysez régulièrement les métriques collectées. Bien que la latence, les requêtes, les erreurs et la capacité (ou les quotas) fournissent des informations sur les performances du système, il est essentiel de donner la priorité à l’examen des métriques liées aux résultats commerciaux. Vous vous assurez ainsi de prendre des décisions basées sur des données conformes aux objectifs de votre entreprise. 

 **Résultat escompté :** informations précises sur les performances des charges de travail afin de prendre des décisions éclairées par les données, garantissant ainsi l’alignement avec les objectifs de votre entreprise. 

 **Anti-modèles courants :** 
+  Analyse des métriques de manière isolée sans tenir compte de leur impact sur les résultats commerciaux. 
+  Se fier de manière excessive aux métriques techniques tout en mettant de côté les métriques commerciales. 
+  Examen rare des métriques, ce qui vous fait passer à côté de possibilités de prise de décision en temps réel. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Meilleure compréhension de la corrélation entre les performances techniques et les résultats commerciaux. 
+  Processus décisionnel amélioré grâce à des données en temps réel. 
+  Identification et atténuation proactives des problèmes avant qu’ils n’affectent les résultats commerciaux. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Tirez parti d'outils tels CloudWatch qu'Amazon pour effectuer des analyses métriques. AWS des services tels que la détection des CloudWatch anomalies et Amazon DevOps Guru peuvent être utilisés pour détecter des anomalies, en particulier lorsque les seuils statiques sont inconnus ou lorsque les modèles de comportement sont plus adaptés à la détection d'anomalies. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Analyser et revoir :** examinez et interprétez régulièrement les données relatives à votre charge de travail. 

   1.  Donnez la priorité aux métriques liées aux résultats commerciaux par rapport aux métriques purement techniques. 

   1.  Comprenez l’importance des pics, des baisses ou des tendances dans vos données. 

1.  **Utilisez Amazon CloudWatch :** utilisez Amazon CloudWatch pour une vue centralisée et une analyse approfondie. 

   1.  Configurez CloudWatch des tableaux de bord pour visualiser vos indicateurs et les comparer au fil du temps. 

   1.  Utilisez les [percentiles CloudWatch](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) pour avoir une vision claire de la distribution métrique, ce qui peut aider à définir SLAs et à comprendre les valeurs aberrantes. 

   1.  Configurez la [détection des CloudWatch anomalies](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pour identifier les modèles inhabituels sans vous fier à des seuils statiques. 

   1.  Mettez en [CloudWatch œuvre l'observabilité entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) pour surveiller et dépanner les applications qui couvrent plusieurs comptes au sein d'une même région. 

   1.  Utilisez [CloudWatch Metric Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) pour interroger et analyser les données métriques de différents comptes et régions, afin d'identifier les tendances et les anomalies. 

   1.  Appliquez [les mathématiques CloudWatch métriques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) pour transformer, agréger ou effectuer des calculs sur vos indicateurs afin d'obtenir des informations plus approfondies. 

1.  **Utilisez Amazon DevOps Guru :** intégrez [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) pour sa détection des anomalies améliorée par le machine learning afin d'identifier les premiers signes de problèmes opérationnels pour vos applications sans serveur et de les corriger avant qu'ils n'affectent vos clients. 

1.  **Optimisation sur la base des informations recueillies :** prenez des décisions éclairées grâce à l’analyse de vos métriques afin d’ajuster et d’améliorer vos charges de travail. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 

 **Documents connexes :** 
+ [The Wheel Blog : souligner l’importance de revoir continuellement les métriques](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [Importance des centiles](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [En utilisant AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ CloudWatch observabilité entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [Interrogez vos indicateurs avec CloudWatch Metrics Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Vidéos connexes :** 
+ [Activer l'observabilité entre comptes sur Amazon CloudWatch](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [Présentation d'Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [Analysez continuellement les métriques à l'aide de AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Exemples connexes :** 
+ [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro)
+ [Obtenir des informations sur les opérations AIOps grâce à Amazon DevOps Guru](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Analyser les journaux de charge de travail
<a name="ops_workload_observability_analyze_workload_logs"></a>

 L’analyse régulière des journaux de charge de travail est essentielle pour mieux comprendre les aspects opérationnels de votre application. En analysant, en visualisant et en interprétant efficacement les données des journaux, vous pouvez optimiser en permanence les performances et la sécurité des applications. 

 **Résultat escompté :** informations détaillées sur le comportement et le fonctionnement des applications grâce à une analyse approfondie des journaux, garantissant une détection et une atténuation proactives des problèmes. 

 **Anti-modèles courants :** 
+  Négliger l’analyse des journaux jusqu’à ce qu’un problème critique survienne. 
+  Ne pas utiliser la suite complète d’outils disponibles pour l’analyse des journaux, ce qui fait passer à côté d’informations critiques. 
+  Se fier uniquement à l’examen manuel des journaux sans tirer parti des fonctionnalités d’automatisation et de requête. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Identification proactive des goulots d’étranglement opérationnels, des menaces de sécurité et d’autres problèmes potentiels. 
+  Utilisation efficace des données de journal pour une optimisation continue des applications. 
+  Meilleure compréhension du comportement des applications, ce qui aide au débogage et au dépannage. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) est un puissant outil d'analyse des journaux. Des fonctionnalités intégrées telles que CloudWatch Logs Insights et Contributor Insights rendent le processus d'obtention d'informations pertinentes à partir des journaux intuitif et efficace. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Configuration ** CloudWatch des journaux** : configurez les applications et les services pour envoyer les journaux aux CloudWatch journaux. 

1.  **Utilisez la détection des anomalies dans les journaux : utilisez la détection** des [anomalies d'Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) pour identifier automatiquement les modèles de journalisation inhabituels et vous avertir en cas d'anomalie. Cet outil vous permet de gérer de manière proactive les anomalies dans vos journaux et de détecter rapidement les problèmes potentiels. 

1.  **Configurer CloudWatch Logs Insights** : utilisez [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) pour rechercher et analyser de manière interactive les données de vos journaux. 

   1.  Créez des requêtes pour extraire des modèles, visualiser les données des journaux et obtenir des informations exploitables. 

   1.  Utilisez l'[analyse des modèles de CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html) pour analyser et visualiser les modèles de journaux fréquents. Cette fonctionnalité vous permet de comprendre les tendances opérationnelles courantes et les valeurs aberrantes potentielles dans les données de vos journaux. 

   1.  Utilisez [CloudWatch Logs compare (diff)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html) pour effectuer une analyse différentielle entre différentes périodes ou entre différents groupes de journaux. Utilisez cette fonctionnalité pour identifier les changements et évaluer leur impact sur les performances ou le comportement de votre système. 

1.  **Surveillez les journaux en temps réel avec Live Tail :** utilisez [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) pour consulter les données des journaux en temps réel. Vous pouvez surveiller activement les activités opérationnelles de votre application au fur et à mesure qu’elles se produisent, ce qui fournit une visibilité immédiate sur les performances du système et les problèmes potentiels. 

1.  **Tirez parti des informations sur** les [CloudWatchcontributeurs : utilisez les informations sur](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) les contributeurs pour identifier les meilleurs intervenants dans des domaines à forte cardinalité, tels que les adresses IP ou les agents utilisateurs. 

1.  ** CloudWatch Implémenter les filtres métriques CloudWatch ** [des journaux : configurez les filtres métriques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) des journaux pour convertir les données des journaux en indicateurs exploitables. Cela vous permettra de définir des alarmes ou d’analyser davantage les modèles. 

1.  **Mettez en œuvre l'[observabilité CloudWatch entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) :** surveillez et dépannez les applications qui couvrent plusieurs comptes au sein d'une région. 

1.  **Révision et perfectionnement réguliers :** passez régulièrement en revue vos stratégies d’analyse des journaux afin de recueillir toutes les informations pertinentes et d’optimiser en permanence les performances des applications. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 

 **Documents connexes :** 
+  [Analyse des données de journal avec CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Utilisation de CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [Création et gestion de filtres CloudWatch Log Metric](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Vidéos connexes :** 
+  [Analysez les données des CloudWatch journaux avec Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Utilisez CloudWatch Contributor Insights pour analyser les données à haute cardinalité](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Exemples connexes :** 
+  [CloudWatch Enregistre les exemples de requêtes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Analyser les traces de charge de travail
<a name="ops_workload_observability_analyze_workload_traces"></a>

 L’analyse des données de suivi est essentielle pour obtenir une vue complète du parcours opérationnel d’une application. En visualisant et en comprenant les interactions entre les différents composants, il est possible d’affiner les performances, d’identifier les goulots d’étranglement et d’améliorer l’expérience utilisateur. 

 **Résultat escompté :** vous bénéficiez d’une visibilité claire sur les opérations distribuées de votre application, ce qui permet de résoudre les problèmes plus rapidement et d’améliorer l’expérience utilisateur. 

 **Anti-modèles courants :** 
+  Négliger les données de suivi, en s’appuyant uniquement sur les journaux et les métriques. 
+  Aucune corrélation entre les données de suivi et les journaux associés. 
+  Ignorer les métriques dérivées des données de suivi, telles que la latence et les taux de défaillance. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Améliorez le dépannage et réduisez le délai moyen de résolution (MTTR). 
+  Obtenez des informations exploitables sur les dépendances et leur impact. 
+  Accélérez l’identification et la résolution des problèmes de performance. 
+  Tirez parti des métriques dérivées des données de suivi pour une prise de décision éclairée. 
+  Améliorez les expériences utilisateur grâce à des interactions optimisées entre les composants. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) propose une suite complète pour l’analyse des données de suivi. Il fournit une vue globale des interactions entre les services, surveille les activités des utilisateurs et détecte les problèmes de performance. Des fonctionnalités telles que ServiceLens X-Ray Insights, X-Ray Analytics et Amazon DevOps Guru améliorent la profondeur des informations exploitables dérivées des données de trace. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Les étapes suivantes proposent une approche structurée pour mettre en œuvre efficacement l'analyse des données de trace à l'aide de AWS services : 

1.  **Intégrer AWS X-Ray** : assurez-vous que X-Ray est intégré à vos applications pour capturer les données de suivi. 

1.  **Analyse des métriques X-Ray** : explorez les métriques dérivées des traces X-Ray, telles que la latence, les taux de demandes, les taux d’erreur et la distribution des temps de réponse, en utilisant la [carte des services](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view) pour surveiller l’état de santé des applications. 

1.  **Utilisation ServiceLens** : Tirez parti de la [ServiceLenscarte](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html) pour améliorer l'observabilité de vos services et applications. Cela permet une visualisation intégrée des données de suivi, des métriques, des journaux, des alarmes et d’autres informations liées à l’état. 

1.  **Activation de X-Ray Insights** : 

   1.  Activez [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) pour détecter automatiquement les anomalies dans les traces. 

   1.  Examinez les informations pour identifier les tendances et en déterminer les causes racines, telles que l’augmentation des taux de défaillance ou des latences. 

   1.  Consultez la chronologie des informations pour une analyse temporelle des problèmes détectés. 

1.  **Utilisation de X-Ray Analytics** : [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) vous permet d’explorer en profondeur les données de trace, d’identifier des modèles et d’en extraire des informations. 

1.  **Utilisation de groupes dans X-Ray** : créez des groupes dans X-Ray pour filtrer les données de suivi en fonction de critères tels qu’une latence élevée, afin de permettre une analyse plus ciblée. 

1.  **Intégrez Amazon DevOps Guru** : faites appel à [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) pour tirer parti des modèles d'apprentissage automatique qui détectent les anomalies opérationnelles dans les traces. 

1.  **Utilisez CloudWatch des synthetics : utilisez des** synthetics pour créer des [CloudWatchcanaris afin de surveiller en permanence](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) vos points de terminaison et vos flux de travail. Ces scripts canary peuvent s’intégrer à X-Ray pour fournir des données de suivi permettant une analyse approfondie des applications testées. 

1.  **Utilisez Real User Monitoring (RUM)** : avec [AWS X-Ray et CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html), vous pouvez analyser et déboguer le chemin de la demande en commençant par les utilisateurs finaux de votre application via les services AWS gérés en aval. Cela vous permet d’identifier les tendances de latence et les erreurs qui ont un impact sur les utilisateurs finaux. 

1.  **Corrélation avec les journaux** : corrélez les [données de suivi avec les journaux associés](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) dans la vue de suivi de X-Ray pour obtenir une perspective détaillée du comportement des applications. Cela vous permet de visualiser les événements de journal directement associés aux transactions suivies. 

1.  **Mettez en œuvre l'[observabilité CloudWatch entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) :** surveillez et dépannez les applications qui couvrent plusieurs comptes au sein d'une même région. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analyser les journaux de charge de travail](ops_workload_observability_analyze_workload_logs.md) 

 **Documents connexes :** 
+  [Utilisation ServiceLens pour surveiller l'état de santé des applications](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Exploration des données de suivi grâce à X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Détection des anomalies dans les données de suivi grâce à X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Surveillance continue avec CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **Vidéos connexes :** 
+  [Analysez et déboguez des applications à l'aide d'Amazon CloudWatch Synthetics & AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Use AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Exemples connexes :** 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Implémentation de X-Ray avec AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [CloudWatchModèles Synthetics Canary](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Création d’alertes exploitables
<a name="ops_workload_observability_create_alerts"></a>

 Il est crucial de détecter rapidement les écarts de comportement de votre application et d’y réagir rapidement. Il est particulièrement important de savoir quand les résultats basés sur les indicateurs de rendement clés (KPI) sont menacés ou lorsque des anomalies inattendues surviennent. Le fait de baser les alertes sur les KPI garantit que les signaux que vous recevez sont directement liés à l’impact commercial ou opérationnel. Cette approche des alertes exploitables favorise les réponses proactives et contribue à maintenir les performances et la fiabilité du système. 

 **Résultat escompté :** vous recevez des alertes opportunes, pertinentes et exploitables qui permettent d’identifier et d’atténuer rapidement les problèmes potentiels, en particulier lorsque les résultats basés sur les KPI sont menacés. 

 **Anti-modèles courants :** 
+  Configurer un trop grand nombre d’alertes non critiques, ce qui entraîne de la lassitude. 
+  Ne pas hiérarchiser les alertes en fonction des KPI, ce qui complique la compréhension de l’impact commercial des problèmes. 
+  Négliger de traiter les causes profondes, ce qui entraîne des alertes répétitives pour le même problème. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réduction de la lassitude liée aux alertes grâce à des alertes pertinentes et exploitables. 
+  Disponibilité et fiabilité du système améliorées grâce à la détection et à l’atténuation proactives des problèmes. 
+  Collaboration d’équipe améliorée et résolution plus rapide des problèmes grâce à l’intégration à des outils connus d’alerte et de communication. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour créer un mécanisme d’alerte efficace, il est essentiel d’utiliser des métriques, des journaux et des données de suivi qui signalent les risques liés aux résultats basés sur les KPI ou les anomalies détectées. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Détermination des indicateurs de rendement clés (KPI)** : identifiez les KPI de votre application. Les alertes doivent être liées à ces KPI afin de refléter avec précision l’impact commercial. 

1.  **Mise en œuvre de la détection des anomalies :** 
   +  **Utilisation de la détection des anomalies Amazon CloudWatch :** configurez la [détection des anomalies Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pour détecter automatiquement les modèles inhabituels, ce qui vous permet de générer des alertes uniquement pour les anomalies réelles. 
   +  **Utilisation de AWS X-Ray Insights :** 

     1.  Configurez [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) pour détecter les anomalies dans les données de trace. 

     1.  Configurez [les notifications pour que X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) soit alerté des problèmes détectés. 
   +  **Intégration à Amazon DevOps Guru** : 

     1.  Tirez parti d’[Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) pour ses fonctionnalités de machine learning permettant de détecter les anomalies opérationnelles avec des données existantes. 

     1.  Accédez aux [paramètres de notification](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) dans DevOps Guru pour configurer des alertes d’anomalie. 

1.  **Mise en place d’alertes exploitables :** concevez des alertes qui fournissent des informations adéquates pour une action immédiate. 

   1.  Surveillez [les événements AWS Health à l’aide des règles Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou intégrez-les par programmation à l’API AWS Health pour automatiser les actions lorsque vous recevez des événements AWS Health. Il peut s’agir d’actions générales, telles que l’envoi de tous les messages relatifs aux événements du cycle de vie planifiés vers une interface de discussion, ou d’actions spécifiques, telles que le lancement d’un flux de travail dans un outil de gestion des services informatiques. 

1.  **Réduction de la fatigue liée aux alertes** : minimisez les alertes non critiques. Lorsque les équipes sont submergées par de nombreuses alertes insignifiantes, elles peuvent finir par ignorer des problèmes critiques, ce qui diminue l’efficacité globale du mécanisme d’alerte. 

1.  **Configuration d’alarmes composites** : utilisez les [alarmes composites Amazon CloudWatch](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) pour consolider plusieurs alarmes. 

1.  **Intégration aux outils d’alerte** : intégrez des outils tels qu’[Ops Genie et [PagerDuty](https://www.pagerduty.com/)](https://www.atlassian.com/software/opsgenie). 

1.  **Engagement de Amazon Q Developer dans les applications de chat** : intégrez [Amazon Q Developer dans les applications de chat](https://aws.amazon.com/chatbot/) pour relayer les alertes vers Amazon Chime, Microsoft Teams et Slack. 

1.  **Alerte basée sur les journaux** : utilisez les [filtres métriques des journaux](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) dans CloudWatch pour créer des alarmes basées sur des événements de journal spécifiques. 

1.  **Révision et itération :** révisez et affinez régulièrement les configurations des alertes. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Mise en œuvre de la télémétrie des dépendances](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Mettre en œuvre le traçage distribué](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analyser les journaux de charge de travail](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analyser les traces de charge de travail](ops_workload_observability_analyze_workload_traces.md) 

 **Documents connexes :** 
+  [Utilisation d’alarmes Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Création d’une alerte composite](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Création d’une alerte CloudWatch basée sur une détection d’anomalie](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [Notifications de DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [Notifications relatives aux rayons X](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Surveiller, gérer et dépanner vos ressources AWS grâce au ChatOps interactif](https://aws.amazon.com/chatbot/) 
+  [Guide d’intégration d’Amazon CloudWatch \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Intégration d’Opsgenie à l’aide d’Amazon CloudWatch Logs](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Vidéos connexes :** 
+  [Create Composite Alarms in Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Amazon Q Developer in chat applications Overview](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Mutative Commands in Amazon Q Developer in chat applications](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Exemples connexes :** 
+  [Alarmes, gestion des incidents et remédiation dans le nuage avec Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutoriel : création d’une règle Amazon EventBridge qui envoie des notifications à Amazon Q Developer dans les applications de chat](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Création de tableaux de bord
<a name="ops_workload_observability_create_dashboards"></a>

 Les tableaux de bord offrent une vue centrée sur l’humain des données télémétriques de vos charges de travail. Bien qu’ils fournissent une interface visuelle essentielle, ils ne doivent pas remplacer les mécanismes d’alerte, mais les compléter. Lorsqu’ils sont conçus avec soin, ils peuvent non seulement fournir des informations rapides sur l’état et les performances du système, mais ils peuvent également présenter aux parties prenantes des informations en temps réel sur les résultats commerciaux et l’impact des problèmes. 

 **Résultat escompté :** 

 Informations claires et exploitables sur l’état du système et de l’entreprise à l’aide de représentations visuelles. 

 **Anti-modèles courants :** 
+  Tableaux de bord trop compliqués avec trop de métriques. 
+  Utilisation de tableaux de bord sans alertes pour détecter les anomalies. 
+  Pas de mise à jour des tableaux de bord à mesure que les charges de travail évoluent. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Visibilité immédiate sur les métriques critiques du système et les KPI. 
+  Amélioration de la communication et de la compréhension avec les parties prenantes. 
+  Aperçu rapide de l’impact des problèmes opérationnels. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 **Tableaux de bord centrés sur l’entreprise** 

 Les tableaux de bord adaptés aux indicateurs de rendement clés de l’entreprise mobilisent un plus large éventail de parties prenantes. Bien que ces personnes ne soient pas intéressées par les métriques du système, elles souhaitent comprendre les implications commerciales de ces chiffres. Un tableau de bord centré sur l’entreprise garantit que toutes les métriques techniques et opérationnelles surveillées et analysées sont synchronisées avec les objectifs globaux de l’entreprise. Cet alignement apporte de la clarté et garantit que tout le monde est d’accord sur ce qui est essentiel et sur ce qui ne l’est pas. En outre, les tableaux de bord qui mettent en évidence les KPI commerciaux ont tendance à être plus exploitables. Les parties prenantes peuvent rapidement comprendre l’état des opérations, les domaines nécessitant une attention particulière et l’impact potentiel sur les résultats commerciaux. 

 Dans cette optique, lors de la création de vos tableaux de bord, assurez-vous qu’il existe un juste milieu entre les métriques techniques et les KPI commerciaux. Les deux sont essentiels, mais ils s’adressent à des publics différents. Idéalement, vous devriez disposer de tableaux de bord offrant une vue globale de l’état et des performances du système tout en mettant l’accent sur les principaux résultats commerciaux et leurs implications. 

 Les tableaux de bord Amazon CloudWatch sont des pages d’accueil personnalisables de la console CloudWatch que vous pouvez utiliser pour surveiller vos ressources dans une seule vue, y compris les ressources réparties sur différentes Régions AWS. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Création d’un tableau de bord de base :** [créez un nouveau tableau de bord dans CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html) en lui attribuant un nom descriptif. 

1.  **Utilisez les widgets Markdown :** avant de vous plonger dans les métriques, [utilisez les widgets Markdown](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html) pour ajouter du contexte textuel en haut de votre tableau de bord. Ce texte doit expliquer ce que couvre le tableau de bord et l’importance des métriques représentées. Il peut également contenir des liens vers d’autres tableaux de bord et outils de résolution des problèmes. 

1.  **Création de variables de tableau de bord :** [incorporez des variables de tableau de bord](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html) le cas échéant pour permettre des vues de tableau de bord dynamiques et flexibles. 

1.  **Création de widgets de mesure :** [ajoutez des widgets de mesure](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html) pour visualiser les différentes métriques émises par votre application, en personnalisant ces widgets pour représenter efficacement l’état du système et les résultats commerciaux. 

1.  **Requêtes Log Insights :** utilisez [CloudWatch Log Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) pour obtenir des indicateurs exploitables à partir de vos journaux et afficher ces informations sur votre tableau de bord. 

1.  **Configuration d’alarmes :** intégrez les [alarmes CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) à votre tableau de bord pour obtenir un aperçu rapide des indicateurs dépassant leurs seuils. 

1.  **Utilisation d’informations sur les contributeurs :** intégrez [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) pour analyser les champs à haute cardinalité et mieux comprendre les principaux contributeurs de votre ressource. 

1.  **Conception de widgets personnalisés :** pour des besoins spécifiques qui ne sont pas satisfaits par les widgets standard, pensez à créer des [widgets personnalisés](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html). Ils peuvent être extraits de différentes sources de données ou représenter les données de manière unique. 

1.  **Utilisez AWS Health :** AWS Health est la source d’informations faisant autorité sur l’intégrité de vos ressources AWS Cloud. Utilisez [Tableau de bord AWS Health](https://health.aws.amazon.com/health/status) immédiatement ou utilisez les données AWS Health de vos propres tableaux de bord et outils afin de disposer des bonnes informations pour prendre des décisions éclairées. 

1.  **Répéter et affiner :** au fur et à mesure que votre application évolue, revoyez régulièrement votre tableau de bord pour vous assurer de sa pertinence. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analyser les journaux de charge de travail](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analyser les traces de charge de travail](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 

 **Documents connexes :** 
+  [Création de tableaux de bord pour une visibilité opérationnelle](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Utilisation des tableaux de bord Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **Vidéos connexes :** 
+  [Create Cross Account & Cross Region CloudWatch Dashboards](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 - Gain enterprise visibility with AWS Cloud operation dashboards](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Exemples connexes :** 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Surveillance des applications avec Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [Tableaux de bord et informations sur les événements AWS Health](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualisation des événements AWS Health à l’aide d’Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/)