

# Gestion
<a name="a-operate"></a>

**Topics**
+ [

# OPS 8. Comment exploiter l’observabilité de la charge de travail dans l’organisation ?
](ops-08.md)
+ [

# OPS 9. Comment comprendre l’état de vos opérations ?
](ops-09.md)
+ [

# OPS 10. Comment gérer les événements relatifs à la charge de travail et aux opérations ?
](ops-10.md)

# OPS 8. Comment exploiter l’observabilité de la charge de travail dans l’organisation ?
<a name="ops-08"></a>

Garantissez un état optimal de la charge de travail en tirant parti de l’observabilité. Utilisez des métriques, des journaux et des données de suivi pertinents pour obtenir une vue complète des performances de votre charge de travail et résoudre les problèmes de manière efficace.

**Topics**
+ [

# OPS08-BP01 Analyser les métriques de charge de travail
](ops_workload_observability_analyze_workload_metrics.md)
+ [

# OPS08-BP02 Analyser les journaux de charge de travail
](ops_workload_observability_analyze_workload_logs.md)
+ [

# OPS08-BP03 Analyser les traces de charge de travail
](ops_workload_observability_analyze_workload_traces.md)
+ [

# OPS08-BP04 Création d’alertes exploitables
](ops_workload_observability_create_alerts.md)
+ [

# OPS08-BP05 Création de tableaux de bord
](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Analyser les métriques de charge de travail
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 Après avoir implémenté la télémétrie des applications, analysez régulièrement les métriques collectées. Bien que la latence, les requêtes, les erreurs et la capacité (ou les quotas) fournissent des informations sur les performances du système, il est essentiel de donner la priorité à l’examen des métriques liées aux résultats commerciaux. Vous vous assurez ainsi de prendre des décisions basées sur des données conformes aux objectifs de votre entreprise. 

 **Résultat escompté :** informations précises sur les performances des charges de travail afin de prendre des décisions éclairées par les données, garantissant ainsi l’alignement avec les objectifs de votre entreprise. 

 **Anti-modèles courants :** 
+  Analyse des métriques de manière isolée sans tenir compte de leur impact sur les résultats commerciaux. 
+  Se fier de manière excessive aux métriques techniques tout en mettant de côté les métriques commerciales. 
+  Examen rare des métriques, ce qui vous fait passer à côté de possibilités de prise de décision en temps réel. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Meilleure compréhension de la corrélation entre les performances techniques et les résultats commerciaux. 
+  Processus décisionnel amélioré grâce à des données en temps réel. 
+  Identification et atténuation proactives des problèmes avant qu’ils n’affectent les résultats commerciaux. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Tirez parti d'outils tels CloudWatch qu'Amazon pour effectuer des analyses métriques. AWS des services tels que la détection des CloudWatch anomalies et Amazon DevOps Guru peuvent être utilisés pour détecter des anomalies, en particulier lorsque les seuils statiques sont inconnus ou lorsque les modèles de comportement sont plus adaptés à la détection d'anomalies. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Analyser et revoir :** examinez et interprétez régulièrement les données relatives à votre charge de travail. 

   1.  Donnez la priorité aux métriques liées aux résultats commerciaux par rapport aux métriques purement techniques. 

   1.  Comprenez l’importance des pics, des baisses ou des tendances dans vos données. 

1.  **Utilisez Amazon CloudWatch :** utilisez Amazon CloudWatch pour une vue centralisée et une analyse approfondie. 

   1.  Configurez CloudWatch des tableaux de bord pour visualiser vos indicateurs et les comparer au fil du temps. 

   1.  Utilisez les [percentiles CloudWatch](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) pour avoir une vision claire de la distribution métrique, ce qui peut aider à définir SLAs et à comprendre les valeurs aberrantes. 

   1.  Configurez la [détection des CloudWatch anomalies](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pour identifier les modèles inhabituels sans vous fier à des seuils statiques. 

   1.  Mettez en [CloudWatch œuvre l'observabilité entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) pour surveiller et dépanner les applications qui couvrent plusieurs comptes au sein d'une même région. 

   1.  Utilisez [CloudWatch Metric Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) pour interroger et analyser les données métriques de différents comptes et régions, afin d'identifier les tendances et les anomalies. 

   1.  Appliquez [les mathématiques CloudWatch métriques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) pour transformer, agréger ou effectuer des calculs sur vos indicateurs afin d'obtenir des informations plus approfondies. 

1.  **Utilisez Amazon DevOps Guru :** intégrez [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) pour sa détection des anomalies améliorée par le machine learning afin d'identifier les premiers signes de problèmes opérationnels pour vos applications sans serveur et de les corriger avant qu'ils n'affectent vos clients. 

1.  **Optimisation sur la base des informations recueillies :** prenez des décisions éclairées grâce à l’analyse de vos métriques afin d’ajuster et d’améliorer vos charges de travail. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 

 **Documents connexes :** 
+ [The Wheel Blog : souligner l’importance de revoir continuellement les métriques](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [Importance des centiles](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [En utilisant AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ CloudWatch observabilité entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [Interrogez vos indicateurs avec CloudWatch Metrics Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Vidéos connexes :** 
+ [Activer l'observabilité entre comptes sur Amazon CloudWatch](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [Présentation d'Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [Analysez continuellement les métriques à l'aide de AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Exemples connexes :** 
+ [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro)
+ [Obtenir des informations sur les opérations AIOps grâce à Amazon DevOps Guru](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Analyser les journaux de charge de travail
<a name="ops_workload_observability_analyze_workload_logs"></a>

 L’analyse régulière des journaux de charge de travail est essentielle pour mieux comprendre les aspects opérationnels de votre application. En analysant, en visualisant et en interprétant efficacement les données des journaux, vous pouvez optimiser en permanence les performances et la sécurité des applications. 

 **Résultat escompté :** informations détaillées sur le comportement et le fonctionnement des applications grâce à une analyse approfondie des journaux, garantissant une détection et une atténuation proactives des problèmes. 

 **Anti-modèles courants :** 
+  Négliger l’analyse des journaux jusqu’à ce qu’un problème critique survienne. 
+  Ne pas utiliser la suite complète d’outils disponibles pour l’analyse des journaux, ce qui fait passer à côté d’informations critiques. 
+  Se fier uniquement à l’examen manuel des journaux sans tirer parti des fonctionnalités d’automatisation et de requête. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Identification proactive des goulots d’étranglement opérationnels, des menaces de sécurité et d’autres problèmes potentiels. 
+  Utilisation efficace des données de journal pour une optimisation continue des applications. 
+  Meilleure compréhension du comportement des applications, ce qui aide au débogage et au dépannage. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) est un puissant outil d'analyse des journaux. Des fonctionnalités intégrées telles que CloudWatch Logs Insights et Contributor Insights rendent le processus d'obtention d'informations pertinentes à partir des journaux intuitif et efficace. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Configuration ** CloudWatch des journaux** : configurez les applications et les services pour envoyer les journaux aux CloudWatch journaux. 

1.  **Utilisez la détection des anomalies dans les journaux : utilisez la détection** des [anomalies d'Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) pour identifier automatiquement les modèles de journalisation inhabituels et vous avertir en cas d'anomalie. Cet outil vous permet de gérer de manière proactive les anomalies dans vos journaux et de détecter rapidement les problèmes potentiels. 

1.  **Configurer CloudWatch Logs Insights** : utilisez [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) pour rechercher et analyser de manière interactive les données de vos journaux. 

   1.  Créez des requêtes pour extraire des modèles, visualiser les données des journaux et obtenir des informations exploitables. 

   1.  Utilisez l'[analyse des modèles de CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html) pour analyser et visualiser les modèles de journaux fréquents. Cette fonctionnalité vous permet de comprendre les tendances opérationnelles courantes et les valeurs aberrantes potentielles dans les données de vos journaux. 

   1.  Utilisez [CloudWatch Logs compare (diff)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html) pour effectuer une analyse différentielle entre différentes périodes ou entre différents groupes de journaux. Utilisez cette fonctionnalité pour identifier les changements et évaluer leur impact sur les performances ou le comportement de votre système. 

1.  **Surveillez les journaux en temps réel avec Live Tail :** utilisez [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) pour consulter les données des journaux en temps réel. Vous pouvez surveiller activement les activités opérationnelles de votre application au fur et à mesure qu’elles se produisent, ce qui fournit une visibilité immédiate sur les performances du système et les problèmes potentiels. 

1.  **Tirez parti des informations sur** les [CloudWatchcontributeurs : utilisez les informations sur](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) les contributeurs pour identifier les meilleurs intervenants dans des domaines à forte cardinalité, tels que les adresses IP ou les agents utilisateurs. 

1.  ** CloudWatch Implémenter les filtres métriques CloudWatch ** [des journaux : configurez les filtres métriques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) des journaux pour convertir les données des journaux en indicateurs exploitables. Cela vous permettra de définir des alarmes ou d’analyser davantage les modèles. 

1.  **Mettez en œuvre l'[observabilité CloudWatch entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) :** surveillez et dépannez les applications qui couvrent plusieurs comptes au sein d'une région. 

1.  **Révision et perfectionnement réguliers :** passez régulièrement en revue vos stratégies d’analyse des journaux afin de recueillir toutes les informations pertinentes et d’optimiser en permanence les performances des applications. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 

 **Documents connexes :** 
+  [Analyse des données de journal avec CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Utilisation de CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [Création et gestion de filtres CloudWatch Log Metric](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Vidéos connexes :** 
+  [Analysez les données des CloudWatch journaux avec Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Utilisez CloudWatch Contributor Insights pour analyser les données à haute cardinalité](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Exemples connexes :** 
+  [CloudWatch Enregistre les exemples de requêtes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Analyser les traces de charge de travail
<a name="ops_workload_observability_analyze_workload_traces"></a>

 L’analyse des données de suivi est essentielle pour obtenir une vue complète du parcours opérationnel d’une application. En visualisant et en comprenant les interactions entre les différents composants, il est possible d’affiner les performances, d’identifier les goulots d’étranglement et d’améliorer l’expérience utilisateur. 

 **Résultat escompté :** vous bénéficiez d’une visibilité claire sur les opérations distribuées de votre application, ce qui permet de résoudre les problèmes plus rapidement et d’améliorer l’expérience utilisateur. 

 **Anti-modèles courants :** 
+  Négliger les données de suivi, en s’appuyant uniquement sur les journaux et les métriques. 
+  Aucune corrélation entre les données de suivi et les journaux associés. 
+  Ignorer les métriques dérivées des données de suivi, telles que la latence et les taux de défaillance. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Améliorez le dépannage et réduisez le délai moyen de résolution (MTTR). 
+  Obtenez des informations exploitables sur les dépendances et leur impact. 
+  Accélérez l’identification et la résolution des problèmes de performance. 
+  Tirez parti des métriques dérivées des données de suivi pour une prise de décision éclairée. 
+  Améliorez les expériences utilisateur grâce à des interactions optimisées entre les composants. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) propose une suite complète pour l’analyse des données de suivi. Il fournit une vue globale des interactions entre les services, surveille les activités des utilisateurs et détecte les problèmes de performance. Des fonctionnalités telles que ServiceLens X-Ray Insights, X-Ray Analytics et Amazon DevOps Guru améliorent la profondeur des informations exploitables dérivées des données de trace. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Les étapes suivantes proposent une approche structurée pour mettre en œuvre efficacement l'analyse des données de trace à l'aide de AWS services : 

1.  **Intégrer AWS X-Ray** : assurez-vous que X-Ray est intégré à vos applications pour capturer les données de suivi. 

1.  **Analyse des métriques X-Ray** : explorez les métriques dérivées des traces X-Ray, telles que la latence, les taux de demandes, les taux d’erreur et la distribution des temps de réponse, en utilisant la [carte des services](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view) pour surveiller l’état de santé des applications. 

1.  **Utilisation ServiceLens** : Tirez parti de la [ServiceLenscarte](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html) pour améliorer l'observabilité de vos services et applications. Cela permet une visualisation intégrée des données de suivi, des métriques, des journaux, des alarmes et d’autres informations liées à l’état. 

1.  **Activation de X-Ray Insights** : 

   1.  Activez [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) pour détecter automatiquement les anomalies dans les traces. 

   1.  Examinez les informations pour identifier les tendances et en déterminer les causes racines, telles que l’augmentation des taux de défaillance ou des latences. 

   1.  Consultez la chronologie des informations pour une analyse temporelle des problèmes détectés. 

1.  **Utilisation de X-Ray Analytics** : [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) vous permet d’explorer en profondeur les données de trace, d’identifier des modèles et d’en extraire des informations. 

1.  **Utilisation de groupes dans X-Ray** : créez des groupes dans X-Ray pour filtrer les données de suivi en fonction de critères tels qu’une latence élevée, afin de permettre une analyse plus ciblée. 

1.  **Intégrez Amazon DevOps Guru** : faites appel à [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) pour tirer parti des modèles d'apprentissage automatique qui détectent les anomalies opérationnelles dans les traces. 

1.  **Utilisez CloudWatch des synthetics : utilisez des** synthetics pour créer des [CloudWatchcanaris afin de surveiller en permanence](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) vos points de terminaison et vos flux de travail. Ces scripts canary peuvent s’intégrer à X-Ray pour fournir des données de suivi permettant une analyse approfondie des applications testées. 

1.  **Utilisez Real User Monitoring (RUM)** : avec [AWS X-Ray et CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html), vous pouvez analyser et déboguer le chemin de la demande en commençant par les utilisateurs finaux de votre application via les services AWS gérés en aval. Cela vous permet d’identifier les tendances de latence et les erreurs qui ont un impact sur les utilisateurs finaux. 

1.  **Corrélation avec les journaux** : corrélez les [données de suivi avec les journaux associés](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) dans la vue de suivi de X-Ray pour obtenir une perspective détaillée du comportement des applications. Cela vous permet de visualiser les événements de journal directement associés aux transactions suivies. 

1.  **Mettez en œuvre l'[observabilité CloudWatch entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) :** surveillez et dépannez les applications qui couvrent plusieurs comptes au sein d'une même région. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analyser les journaux de charge de travail](ops_workload_observability_analyze_workload_logs.md) 

 **Documents connexes :** 
+  [Utilisation ServiceLens pour surveiller l'état de santé des applications](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Exploration des données de suivi grâce à X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Détection des anomalies dans les données de suivi grâce à X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Surveillance continue avec CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **Vidéos connexes :** 
+  [Analysez et déboguez des applications à l'aide d'Amazon CloudWatch Synthetics & AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Use AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Exemples connexes :** 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Implémentation de X-Ray avec AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [CloudWatchModèles Synthetics Canary](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Création d’alertes exploitables
<a name="ops_workload_observability_create_alerts"></a>

 Il est crucial de détecter rapidement les écarts de comportement de votre application et d’y réagir rapidement. Il est particulièrement important de savoir quand les résultats basés sur les indicateurs de rendement clés (KPI) sont menacés ou lorsque des anomalies inattendues surviennent. Le fait de baser les alertes sur les KPI garantit que les signaux que vous recevez sont directement liés à l’impact commercial ou opérationnel. Cette approche des alertes exploitables favorise les réponses proactives et contribue à maintenir les performances et la fiabilité du système. 

 **Résultat escompté :** vous recevez des alertes opportunes, pertinentes et exploitables qui permettent d’identifier et d’atténuer rapidement les problèmes potentiels, en particulier lorsque les résultats basés sur les KPI sont menacés. 

 **Anti-modèles courants :** 
+  Configurer un trop grand nombre d’alertes non critiques, ce qui entraîne de la lassitude. 
+  Ne pas hiérarchiser les alertes en fonction des KPI, ce qui complique la compréhension de l’impact commercial des problèmes. 
+  Négliger de traiter les causes profondes, ce qui entraîne des alertes répétitives pour le même problème. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réduction de la lassitude liée aux alertes grâce à des alertes pertinentes et exploitables. 
+  Disponibilité et fiabilité du système améliorées grâce à la détection et à l’atténuation proactives des problèmes. 
+  Collaboration d’équipe améliorée et résolution plus rapide des problèmes grâce à l’intégration à des outils connus d’alerte et de communication. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour créer un mécanisme d’alerte efficace, il est essentiel d’utiliser des métriques, des journaux et des données de suivi qui signalent les risques liés aux résultats basés sur les KPI ou les anomalies détectées. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Détermination des indicateurs de rendement clés (KPI)** : identifiez les KPI de votre application. Les alertes doivent être liées à ces KPI afin de refléter avec précision l’impact commercial. 

1.  **Mise en œuvre de la détection des anomalies :** 
   +  **Utilisation de la détection des anomalies Amazon CloudWatch :** configurez la [détection des anomalies Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pour détecter automatiquement les modèles inhabituels, ce qui vous permet de générer des alertes uniquement pour les anomalies réelles. 
   +  **Utilisation de AWS X-Ray Insights :** 

     1.  Configurez [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) pour détecter les anomalies dans les données de trace. 

     1.  Configurez [les notifications pour que X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) soit alerté des problèmes détectés. 
   +  **Intégration à Amazon DevOps Guru** : 

     1.  Tirez parti d’[Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) pour ses fonctionnalités de machine learning permettant de détecter les anomalies opérationnelles avec des données existantes. 

     1.  Accédez aux [paramètres de notification](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) dans DevOps Guru pour configurer des alertes d’anomalie. 

1.  **Mise en place d’alertes exploitables :** concevez des alertes qui fournissent des informations adéquates pour une action immédiate. 

   1.  Surveillez [les événements AWS Health à l’aide des règles Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou intégrez-les par programmation à l’API AWS Health pour automatiser les actions lorsque vous recevez des événements AWS Health. Il peut s’agir d’actions générales, telles que l’envoi de tous les messages relatifs aux événements du cycle de vie planifiés vers une interface de discussion, ou d’actions spécifiques, telles que le lancement d’un flux de travail dans un outil de gestion des services informatiques. 

1.  **Réduction de la fatigue liée aux alertes** : minimisez les alertes non critiques. Lorsque les équipes sont submergées par de nombreuses alertes insignifiantes, elles peuvent finir par ignorer des problèmes critiques, ce qui diminue l’efficacité globale du mécanisme d’alerte. 

1.  **Configuration d’alarmes composites** : utilisez les [alarmes composites Amazon CloudWatch](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) pour consolider plusieurs alarmes. 

1.  **Intégration aux outils d’alerte** : intégrez des outils tels qu’[Ops Genie et [PagerDuty](https://www.pagerduty.com/)](https://www.atlassian.com/software/opsgenie). 

1.  **Engagement de Amazon Q Developer dans les applications de chat** : intégrez [Amazon Q Developer dans les applications de chat](https://aws.amazon.com/chatbot/) pour relayer les alertes vers Amazon Chime, Microsoft Teams et Slack. 

1.  **Alerte basée sur les journaux** : utilisez les [filtres métriques des journaux](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) dans CloudWatch pour créer des alarmes basées sur des événements de journal spécifiques. 

1.  **Révision et itération :** révisez et affinez régulièrement les configurations des alertes. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Mise en œuvre de la télémétrie des dépendances](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Mettre en œuvre le traçage distribué](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analyser les journaux de charge de travail](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analyser les traces de charge de travail](ops_workload_observability_analyze_workload_traces.md) 

 **Documents connexes :** 
+  [Utilisation d’alarmes Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Création d’une alerte composite](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Création d’une alerte CloudWatch basée sur une détection d’anomalie](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [Notifications de DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [Notifications relatives aux rayons X](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Surveiller, gérer et dépanner vos ressources AWS grâce au ChatOps interactif](https://aws.amazon.com/chatbot/) 
+  [Guide d’intégration d’Amazon CloudWatch \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Intégration d’Opsgenie à l’aide d’Amazon CloudWatch Logs](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Vidéos connexes :** 
+  [Create Composite Alarms in Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Amazon Q Developer in chat applications Overview](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Mutative Commands in Amazon Q Developer in chat applications](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Exemples connexes :** 
+  [Alarmes, gestion des incidents et remédiation dans le nuage avec Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutoriel : création d’une règle Amazon EventBridge qui envoie des notifications à Amazon Q Developer dans les applications de chat](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Création de tableaux de bord
<a name="ops_workload_observability_create_dashboards"></a>

 Les tableaux de bord offrent une vue centrée sur l’humain des données télémétriques de vos charges de travail. Bien qu’ils fournissent une interface visuelle essentielle, ils ne doivent pas remplacer les mécanismes d’alerte, mais les compléter. Lorsqu’ils sont conçus avec soin, ils peuvent non seulement fournir des informations rapides sur l’état et les performances du système, mais ils peuvent également présenter aux parties prenantes des informations en temps réel sur les résultats commerciaux et l’impact des problèmes. 

 **Résultat escompté :** 

 Informations claires et exploitables sur l’état du système et de l’entreprise à l’aide de représentations visuelles. 

 **Anti-modèles courants :** 
+  Tableaux de bord trop compliqués avec trop de métriques. 
+  Utilisation de tableaux de bord sans alertes pour détecter les anomalies. 
+  Pas de mise à jour des tableaux de bord à mesure que les charges de travail évoluent. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Visibilité immédiate sur les métriques critiques du système et les KPI. 
+  Amélioration de la communication et de la compréhension avec les parties prenantes. 
+  Aperçu rapide de l’impact des problèmes opérationnels. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 **Tableaux de bord centrés sur l’entreprise** 

 Les tableaux de bord adaptés aux indicateurs de rendement clés de l’entreprise mobilisent un plus large éventail de parties prenantes. Bien que ces personnes ne soient pas intéressées par les métriques du système, elles souhaitent comprendre les implications commerciales de ces chiffres. Un tableau de bord centré sur l’entreprise garantit que toutes les métriques techniques et opérationnelles surveillées et analysées sont synchronisées avec les objectifs globaux de l’entreprise. Cet alignement apporte de la clarté et garantit que tout le monde est d’accord sur ce qui est essentiel et sur ce qui ne l’est pas. En outre, les tableaux de bord qui mettent en évidence les KPI commerciaux ont tendance à être plus exploitables. Les parties prenantes peuvent rapidement comprendre l’état des opérations, les domaines nécessitant une attention particulière et l’impact potentiel sur les résultats commerciaux. 

 Dans cette optique, lors de la création de vos tableaux de bord, assurez-vous qu’il existe un juste milieu entre les métriques techniques et les KPI commerciaux. Les deux sont essentiels, mais ils s’adressent à des publics différents. Idéalement, vous devriez disposer de tableaux de bord offrant une vue globale de l’état et des performances du système tout en mettant l’accent sur les principaux résultats commerciaux et leurs implications. 

 Les tableaux de bord Amazon CloudWatch sont des pages d’accueil personnalisables de la console CloudWatch que vous pouvez utiliser pour surveiller vos ressources dans une seule vue, y compris les ressources réparties sur différentes Régions AWS. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Création d’un tableau de bord de base :** [créez un nouveau tableau de bord dans CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html) en lui attribuant un nom descriptif. 

1.  **Utilisez les widgets Markdown :** avant de vous plonger dans les métriques, [utilisez les widgets Markdown](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html) pour ajouter du contexte textuel en haut de votre tableau de bord. Ce texte doit expliquer ce que couvre le tableau de bord et l’importance des métriques représentées. Il peut également contenir des liens vers d’autres tableaux de bord et outils de résolution des problèmes. 

1.  **Création de variables de tableau de bord :** [incorporez des variables de tableau de bord](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html) le cas échéant pour permettre des vues de tableau de bord dynamiques et flexibles. 

1.  **Création de widgets de mesure :** [ajoutez des widgets de mesure](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html) pour visualiser les différentes métriques émises par votre application, en personnalisant ces widgets pour représenter efficacement l’état du système et les résultats commerciaux. 

1.  **Requêtes Log Insights :** utilisez [CloudWatch Log Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) pour obtenir des indicateurs exploitables à partir de vos journaux et afficher ces informations sur votre tableau de bord. 

1.  **Configuration d’alarmes :** intégrez les [alarmes CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) à votre tableau de bord pour obtenir un aperçu rapide des indicateurs dépassant leurs seuils. 

1.  **Utilisation d’informations sur les contributeurs :** intégrez [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) pour analyser les champs à haute cardinalité et mieux comprendre les principaux contributeurs de votre ressource. 

1.  **Conception de widgets personnalisés :** pour des besoins spécifiques qui ne sont pas satisfaits par les widgets standard, pensez à créer des [widgets personnalisés](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html). Ils peuvent être extraits de différentes sources de données ou représenter les données de manière unique. 

1.  **Utilisez AWS Health :** AWS Health est la source d’informations faisant autorité sur l’intégrité de vos ressources AWS Cloud. Utilisez [Tableau de bord AWS Health](https://health.aws.amazon.com/health/status) immédiatement ou utilisez les données AWS Health de vos propres tableaux de bord et outils afin de disposer des bonnes informations pour prendre des décisions éclairées. 

1.  **Répéter et affiner :** au fur et à mesure que votre application évolue, revoyez régulièrement votre tableau de bord pour vous assurer de sa pertinence. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analyser les journaux de charge de travail](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analyser les traces de charge de travail](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 

 **Documents connexes :** 
+  [Création de tableaux de bord pour une visibilité opérationnelle](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Utilisation des tableaux de bord Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **Vidéos connexes :** 
+  [Create Cross Account & Cross Region CloudWatch Dashboards](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 - Gain enterprise visibility with AWS Cloud operation dashboards](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Exemples connexes :** 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Surveillance des applications avec Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [Tableaux de bord et informations sur les événements AWS Health](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualisation des événements AWS Health à l’aide d’Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 

# OPS 9. Comment comprendre l’état de vos opérations ?
<a name="ops-09"></a>

 Définissez, capturez et analysez les métriques des opérations pour obtenir une visibilité sur les événements opérationnels afin de pouvoir prendre des mesures appropriées. 

**Topics**
+ [

# OPS09-BP01 Mesure des objectifs opérationnels et des KPI à l’aide de métriques
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Communication de l’état et des tendances pour garantir la visibilité des opérations
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Vérification des métriques des opérations et définition de la priorité des améliorations
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Mesure des objectifs opérationnels et des KPI à l’aide de métriques
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Obtenez des objectifs et des indicateurs de performance clés qui définissent le succès des opérations de votre organisation et déterminez les métriques qui les reflètent. Définissez des points de référence et réévaluez-les régulièrement. Développez des mécanismes permettant de recueillir ces métriques auprès des équipes à des fins d’évaluation. Les métriques [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) constituent une méthode populaire pour mesurer les progrès accomplis dans la mise en œuvre des pratiques DevOps en matière de fourniture de logiciels. 

 **Résultat escompté :** 
+ L’organisation publie et partage les objectifs et les KPI des équipes opérationnelles.
+ Vous établissez des métriques qui reflètent ces KPI. Exemples :
  +  Profondeur de la file d’attente ou âge moyen des tickets 
  +  Nombre de tickets regroupés par type de problème 
  +  Temps passé à résoudre les problèmes avec ou sans procédure opérationnelle normalisée (SOP) 
  +  Délai de récupération après un échec d’envoi de code 
  +  Volume d’appels 

 **Anti-modèles courants:** 
+  Les délais de déploiement ne sont pas respectés, car les développeurs sont contraints d’effectuer des tâches de dépannage. Les équipes de développement plaident en faveur d’une augmentation du personnel, mais ne peuvent pas quantifier le nombre de collaborateurs dont elles ont besoin, car le temps perdu ne peut pas être mesuré. 
+  Un bureau de niveau 1 a été mis en place pour traiter les appels des utilisateurs. Au fil du temps, de nouvelles charges de travail ont été ajoutées, mais aucun effectif n’a été affecté au bureau de niveau 1. La satisfaction des clients en pâtit, car les temps d’appel augmentent et la résolution des problèmes ralentit, mais la direction n’en voit aucun signe, ce qui empêche toute action. 
+  Une charge de travail problématique a été confiée à une équipe opérationnelle distincte pour entretien. Contrairement aux autres charges de travail, cette nouvelle charge de travail n’a pas été fournie avec la documentation et les runbooks appropriés. Les équipes consacrent donc plus de temps au dépannage et à la résolution des défaillances. Cependant, aucune métrique ne permet de documenter ces efforts, ce qui empêche les équipes de rendre compte de la situation. 

 **Avantages liés au respect de cette bonne pratique :** lorsque la surveillance de la charge de travail indique l’état de nos applications et services, les équipes chargées des opérations de surveillance fournissent aux propriétaires un aperçu des changements survenus chez les consommateurs de ces charges de travail, tels que l’évolution des besoins commerciaux. Mesurez l’efficacité de ces équipes et évaluez-les par rapport aux objectifs commerciaux en créant des métriques qui reflètent l’état des opérations. Ces métriques peuvent mettre en évidence les problèmes de support ou identifier les cas où des écarts se produisent par rapport à une cible de niveau de service. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

Planifiez du temps avec les responsables et les parties prenantes afin de déterminer les objectifs généraux du service. Déterminez quelles devraient être les tâches des différentes équipes opérationnelles et quels défis elles pourraient rencontrer. Sur la base de ces informations, réfléchissez à des indicateurs de rendement clés (KPI) susceptibles de refléter ces objectifs opérationnels. Il peut s’agir de la satisfaction des clients, du délai entre la conception des fonctionnalités et leur déploiement, du temps moyen de résolution des problèmes ou de la rentabilité.

 À partir de ces KPI, identifiez les métriques et les sources de données qui pourraient mieux refléter ces objectifs. La satisfaction des clients peut être une combinaison de diverses métriques telles que les temps d’attente ou de réponse aux appels, les scores de satisfaction et les types de problèmes soulevés. Les temps de déploiement peuvent être la somme du temps nécessaire aux tests et au déploiement, plus les correctifs à ajouter après le déploiement lui-même. Les statistiques indiquant le temps consacré à différents types de problèmes (ou le nombre de ces problèmes) peuvent fournir un aperçu des domaines dans lesquels des efforts ciblés sont nécessaires. 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+ [ Quick – Utilisation des KPI ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch : utilisation des métriques ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Création de tableaux de bord ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Comment suivre vos KPI en matière d’optimisation des coûts avec le tableau de bord des KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [Guide AWS DevOps ](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Exemples connexes :** 
+ [ Surveillance des performances de votre livraison de logiciels à l’aide d’outils AWS natifs de surveillance et d’observabilité ](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [ Équilibrage de la vitesse de déploiement et de la stabilité à l’aide des métriques DORA ](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [ Exemples de métriques opérationnelles MLOps dans le secteur des services financiers ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ Suivi des KPI d’optimisation des coûts avec KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Communication de l’état et des tendances pour garantir la visibilité des opérations
<a name="ops_operations_health_communicate_status_trends"></a>

 Il est nécessaire de connaître l’état de vos opérations et leurs tendances pour identifier les cas où les résultats peuvent être menacés, pour déterminer si des efforts supplémentaires sont justifiés ou non, ou pour identifier les effets des modifications sur vos équipes. Lors d’événements opérationnels, la possession de pages d’état auxquelles les utilisateurs et les équipes opérationnelles peuvent se référer pour obtenir des informations peut réduire la pression sur les canaux de communication et à diffuser les informations de manière proactive. 

 **Résultat escompté :** 
+  Les responsables des opérations ont un aperçu rapide des volumes d’appels auxquels leurs équipes sont confrontées et des initiatives en cours, telles que les déploiements. 
+  Des alertes sont diffusées aux parties prenantes et aux communautés d’utilisateurs lorsque des répercussions sur les opérations normales se produisent. 
+  La direction de l’organisation et les parties prenantes peuvent consulter une page d’état en réponse à une alerte ou à un impact, et obtenir des informations concernant un événement opérationnel, telles que les points de contact, des informations sur les tickets et les délais de reprise estimés. 
+  Des rapports sont mis à la disposition de la direction et des autres parties prenantes pour présenter des statistiques opérationnelles telles que le volume d’appels sur une période donnée, les scores de satisfaction des utilisateurs, le nombre de tickets en attente et leur ancienneté. 

 **Anti-modèles courants :** 
+  Une charge de travail tombe en panne, ce qui rend un service indisponible. Les volumes d’appels atteignent un pic lorsque les utilisateurs demandent à savoir ce qui se passe. Les responsables ajoutent au volume en demandant à savoir qui est à l’origine du problème. Les différentes équipes opérationnelles redoublent leurs efforts pour tenter d’identifier la cause première. 
+  Pour répondre à un nouveau besoin, plusieurs membres du personnel sont réaffectés à un effort d’ingénierie. Les postes vacants ne sont pas pourvus, et les délais de résolution des problèmes augmentent. Ces informations ne sont pas capturées, et ce n’est qu’après plusieurs semaines et après avoir reçu des commentaires insatisfaits des utilisateurs que les dirigeants prennent conscience du problème. 

 **Avantages liés au respect de cette bonne pratique :** lors d’événements opérationnels affectant l’entreprise, beaucoup de temps et d’énergie peuvent être gaspillés à demander des informations aux différentes équipes qui tentent de comprendre la situation. En mettant en place des pages d’état et des tableaux de bord largement diffusés, les parties prenantes peuvent rapidement se procurer les informations nécessaires et déterminer, par exemple, si un problème a été détecté ou non, qui est responsable du problème ou quand un retour à une activité normale est attendu. Cela évite aux membres de l’équipe d’avoir à passer trop de temps à communiquer la situation aux autres. Ils peuvent ainsi consacrer plus de temps à la résolution des problèmes. 

 En outre, les tableaux de bord et les rapports peuvent fournir des informations aux décideurs et aux parties prenantes pour voir comment les équipes opérationnelles sont en mesure de répondre aux besoins de l’entreprise et comment leurs ressources sont allouées. Ces informations sont cruciales pour déterminer si des ressources adéquates sont en place pour soutenir l’entreprise. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Créez des tableaux de bord qui présentent les métriques clés actuelles pour vos équipes opérationnelles et mettez-les à disposition des responsables des opérations et de la direction. 

 Créez des pages d’état qui peuvent être mises à jour rapidement pour indiquer quand un incident ou un événement se produit, qui en est le responsable et qui coordonne la réponse. Partagez sur cette page les étapes ou les solutions que les utilisateurs doivent prendre en compte et diffusez largement l’emplacement. Encouragez les utilisateurs à vérifier d’abord cet emplacement lorsqu’ils sont confrontés à un problème inconnu. 

 Collectez et fournissez des rapports qui présentent l’état des opérations au fil du temps, et distribuez-les aux dirigeants et aux décideurs pour illustrer le travail des opérations ainsi que les défis et les besoins. 

 Partagez entre les équipes les métriques et rapports qui reflètent au mieux les objectifs et les KPI, ainsi que les domaines où ils ont contribué au changement. Consacrez du temps à ces activités afin de renforcer l’importance des opérations au sein des équipes et entre elles. 

 Utilisez [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) avec vos propres tableaux de bord ou intégrez-y des événements AWS Health, afin que vos équipes puissent établir une corrélation entre les problèmes liés aux applications et l’état du service AWS. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+ [ OPS09-BP01 Mesurer les objectifs opérationnels et les KPI à l’aide de métriques ](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Documents connexes :** 
+ [ Mesurer les progrès ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [Création de tableaux de bord pour une visibilité opérationnelle](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Exemples connexes :** 
+ [Opérations de données](https://aws.amazon.com/solutions/app-development/data-operations)
+ [Comment suivre vos KPI en matière d’optimisation des coûts avec le tableau de bord des KPI](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [L’importance des indicateurs de rendement clés (KPI) pour les migrations vers le cloud à grande échelle](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Vérification des métriques des opérations et définition de la priorité des améliorations
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Le fait de consacrer du temps et des ressources à l’examen de l’état des opérations garantit que le service quotidien des activités demeure une priorité. Réunissez les responsables des opérations et les parties prenantes pour vérifier régulièrement les métriques, réaffirmer ou modifier les objectifs et prioriser les améliorations. 

 **Résultat escompté :** 
+  Les responsables des opérations et le personnel se rencontrent régulièrement pour vérifier les métriques au cours d’une période de référence donnée. Les défis sont communiqués, les victoires sont célébrées et les leçons tirées sont partagées. 
+  Les parties prenantes et les responsables sont régulièrement informés de l’état des opérations et sont invités à donner leur avis concernant les objectifs, les KPI et les initiatives futures. Les compromis entre la prestation de services, les opérations et la maintenance font l’objet de discussions et sont mis en contexte. 

 **Anti-modèles courants :** 
+  Un nouveau produit est lancé, mais les équipes opérationnelles de niveau 1 et de niveau 2 ne sont pas suffisamment formées pour fournir l’assistance nécessaire ou n’ont pas de personnel supplémentaire. Les métriques qui montrent une dégradation des délais de résolution des demandes d’assistance et l’augmentation du volume d’incidents ne sont pas pris en compte par les dirigeants. Des mesures sont prises des semaines plus tard lorsque le nombre d’abonnements commence à baisser alors que les utilisateurs mécontents quittent la plateforme. 
+  Un processus manuel pour effectuer la maintenance d’une charge de travail est en place depuis longtemps. Bien que le désir d’automatiser soit présent, il n’était pas prioritaire compte tenu de la faible importance du système. Cependant, au fil du temps, le système gagne de l’importance et ces processus manuels occupent désormais la majeure partie du temps des opérations. Aucune ressource n’est prévue pour assister les opérations, ce qui entraîne un épuisement du personnel à mesure que la charge de travail augmente. La direction n’en prend conscience que lorsqu’on lui signale que le personnel démissionne pour aller travailler pour d’autres concurrents. 

 **Avantages liés au respect de cette bonne pratique :** dans certaines organisations, il peut être difficile de consacrer le même temps et la même attention à la prestation de services et aux nouveaux produits ou offres. Le cas échéant, le secteur d’activité peut en pâtir, car le niveau de service attendu se détériore lentement. En effet, les opérations ne changent pas et n’évoluent pas avec la croissance de l’entreprise, et peuvent se retrouver à la traîne. En l’absence d’un examen régulier des informations recueillies par les opérations, le risque pour l’entreprise peut ne devenir visible que lorsqu’il sera trop tard. En allouant du temps à l’examen des métriques et des procédures à la fois au sein des équipes opérationnelles et auprès de la direction, le rôle crucial joué par les opérations reste visible, et les risques peuvent être identifiés bien avant qu’ils n’atteignent des niveaux critiques. Les équipes opérationnelles ont une meilleure idée des changements et initiatives commerciaux imminents, ce qui permet de lancer des initiatives proactives. La visibilité qu’ont les dirigeants sur les métriques opérationnelles met en évidence le rôle que jouent ces équipes dans la satisfaction des clients, à la fois en interne et en externe. Elle leur permet également de mieux évaluer les choix en fonction des priorités, ou de s’assurer que les opérations disposent du temps et des ressources nécessaires pour changer et évoluer avec de nouvelles initiatives stratégiques et de charge de travail. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Consacrez du temps à la vérification des métriques opérationnelles entre les parties prenantes et les équipes opérationnelles et à l’examen des données des rapports. Placez ces rapports dans le contexte des objectifs de l’organisation afin de déterminer s’ils sont atteints. Identifiez les sources d’ambiguïté lorsque les objectifs ne sont pas clairs ou lorsque l’offre ne correspond pas à la demande. 

 Identifiez les domaines dans lesquels de meilleurs résultats opérationnels peuvent être obtenus avec du temps, du personnel et des outils disponibles. Déterminez les KPI qui seraient impactés et les objectifs de réussite à atteindre. Révisez-les régulièrement pour vous assurer que les opérations disposent de ressources suffisantes pour soutenir le secteur d’activité. 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+ [Amazon Athena](https://aws.amazon.com/athena/)
+ [Référence des métriques et dimensions Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [ Amazon Quick ](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [Collecte de métriques et de journaux à partir d’instances Amazon EC2 et de serveurs sur site avec l’agent Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Utilisation des métriques Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)

# OPS 10. Comment gérer les événements relatifs à la charge de travail et aux opérations ?
<a name="ops-10"></a>

 Préparez et validez des procédures de réponse aux événements afin de réduire leur effet disruptif sur votre charge de travail. 

**Topics**
+ [

# OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Disposer d’un processus par alerte
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Hiérarchiser les événements opérationnels en fonction de leur impact sur l’activité
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Définir l’acheminement hiérarchique
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Définissez un plan de communication avec les clients en cas d’interruption de service
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Communiquer l’état grâce aux tableaux de bord
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Automatiser les réponses aux événements
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes
<a name="ops_event_response_event_incident_problem_process"></a>

La capacité à gérer efficacement les événements, les incidents et les problèmes est essentielle pour préserver l’intégrité et les performances de la charge de travail. Il est essentiel de reconnaître et de comprendre les différences entre ces éléments pour développer une stratégie de réponse et de résolution efficace. La mise en place et le suivi d’un processus bien défini pour chaque aspect aident votre équipe à relever rapidement et efficacement tous les défis opérationnels qui se présentent.

 **Résultat escompté :** votre organisation gère efficacement les événements opérationnels, les incidents et les problèmes grâce à des processus bien documentés et stockés de manière centralisée. Ces processus sont constamment mis à jour pour refléter les changements, rationaliser la gestion et préserver une fiabilité de service et des performances de charge de travail élevées. 

 **Anti-modèles courants :** 
+  Vous êtes réactif et non proactif face aux événements. 
+  Des approches incohérentes sont adoptées à l’égard de différents types d’événements ou d’incidents. 
+ Votre organisation n’analyse pas les incidents et n’en tire pas les leçons nécessaires pour éviter qu’ils se reproduisent à l’avenir.

 **Avantages liés au respect de cette bonne pratique :** 
+  Processus de réponse rationalisés et standardisés. 
+  Réduction de l’impact des incidents sur les services et les clients. 
+  Résolution accélérée des problèmes. 
+  Amélioration continue des processus opérationnels. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élévé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Le respect de cette bonne pratique signifie que vous suivez les événements de charge de travail. Vous disposez de processus pour gérer les incidents et les problèmes. Les processus sont documentés, partagés et mis à jour fréquemment. Les problèmes sont identifiés, hiérarchisés et résolus. 

 **Comprendre les événements, les incidents et les problèmes** 
+  **Événement :** un *événement* est une observation d’action, d’occurrence ou de modification d’un état. Les événements peuvent être planifiés ou imprévus et peuvent avoir une origine interne ou externe à la charge de travail. 
+  **Incidents :** *les incidents* sont des événements qui nécessitent une réponse. Il peut notamment s’agir d’interruptions imprévues ou de dégradations de la qualité du service. Les incidents sont des perturbations qui nécessitent une attention immédiate pour rétablir le fonctionnement normal de la charge de travail. 
+  **Problèmes :** *les problèmes* sont les causes sous-jacentes d’un ou de plusieurs incidents. L’identification et la résolution des problèmes impliquent d’étudier plus en profondeur les incidents afin d’éviter qu’ils se reproduisent. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 **Événements** 

1.  **Surveiller des événements :** 
   +  [Mettez en œuvre l’observabilité](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) et [utilisez l’observabilité de la charge de travail](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Les actions de surveillance entreprises par un utilisateur, un rôle ou un service AWS sont enregistrées sous forme d’événements dans [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Répondez aux changements opérationnels de vos applications en temps réel avec [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Évaluez, surveillez et enregistrez en permanence les modifications de configuration des ressources avec [AWS Config](https://aws.amazon.com/config/). 

1.  **Créez des processus :** 
   +  Élaborez un processus pour évaluer quels événements sont importants et nécessitent une surveillance. Pour ce faire, il faut fixer des seuils et des paramètres pour les activités normales et anormales. 
   +  Déterminez les critères permettant de transformer un événement en incident. Cette évaluation peut être basée sur la gravité, l’impact sur les utilisateurs ou un écart par rapport au comportement attendu. 
   +  Passez régulièrement en revue les processus de surveillance et de réponse aux événements. Il s’agit notamment d’analyser les incidents passés, d’ajuster les seuils et d’affiner les mécanismes d’alerte. 

 **Incidents** 

1.  **Intervenir en cas d’incident :** 
   +  Utilisez les informations issues des outils d’observabilité pour identifier rapidement les incidents et y répondre. 
   +  Mettre en place un [centre d’opérations AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) pour regrouper, organiser et hiérarchiser les éléments opérationnels et les incidents. 
   +  Utilisez des services tels qu’[Amazon CloudWatch [AWS X-Ray](https://aws.amazon.com/xray/)](https://aws.amazon.com/cloudwatch/) pour effectuer des analyses approfondies et résoudre les problèmes. 
   +  Envisagez [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) pour améliorer la gestion des incidents, en tirant parti de ses capacités proactives, préventives et de détection. AMS étend son support opérationnel avec des services tels que la surveillance, la détection et la réponse aux incidents, ainsi que la gestion de la sécurité. 
   +  Les clients du support aux entreprises peuvent utiliser la [détection et la réponse aux incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), qui fournissent une surveillance proactive continue et une gestion des incidents pour les charges de travail de production. 

1.  **Créez un processus de gestion des incidents :** 
   +  Établissez un processus structuré de gestion des incidents, comprenant des rôles clairs, des protocoles de communication et des étapes de résolution. 
   +  Intégrez la gestion des incidents à des outils comme [Amazon Q Developer dans les applications de chat](https://aws.amazon.com/chatbot/) pour une réponse et une coordination efficaces. 
   +  Classez les incidents par ordre de gravité, avec des [plans d’intervention en cas d’incidents](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) prédéfinis pour chaque catégorie. 

1.  **Apprenez et améliorez vos processus :** 
   +  Effectuez une [analyse post-incident](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) pour comprendre les causes profondes et l’efficacité de l’intervention. 
   +  Mettez à jour et améliorez en continu les plans de réponse en fonction des examens et de l’évolution des pratiques. 
   +  Documentez et partagez les leçons apprises entre les équipes afin d’améliorer la résilience opérationnelle. 
   +  Les clients du support aux entreprises peuvent demander [l’atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) auprès de leur responsable de compte technique. Le présent atelier guidé vous permet d’évaluer votre plan d’intervention en cas d’incident et d’identifier les points à améliorer. 

 **Problèmes** 

1.  **Identifiez les problèmes :** 
   +  Utilisez les données relatives aux incidents précédents pour identifier des modèles récurrents susceptibles d’indiquer des problèmes systémiques plus profonds. 
   +  Tirez parti d’outils tels [AWS CloudTrail](https://aws.amazon.com/cloudtrail/)qu’[Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) pour analyser les tendances et découvrir les problèmes sous-jacents. 
   +  Mobilisez des équipes interfonctionnelles, y compris les services des opérations et du développement, ainsi que les unités commerciales, afin d’obtenir des points de vue diversifiés sur les causes profondes. 

1.  **Créez un processus de gestion des problèmes :** 
   +  Développez un processus structuré pour la gestion des problèmes, en mettant l’accent sur des solutions à long terme plutôt que sur des correctifs rapides. 
   +  Intégrez des techniques d’analyse des causes profondes (RCA) pour étudier et comprendre les causes sous-jacentes des incidents. 
   +  Mettez à jour les politiques, les procédures et l’infrastructure opérationnelles en fonction des résultats pour éviter tout incident. 

1.  **Continuez à améliorer vos processus :** 
   +  Favorisez une culture d’apprentissage et d’amélioration continus, en incitant les équipes à identifier et à résoudre les problèmes potentiels de manière proactive. 
   +  Passez régulièrement en revue et révisez les processus et les outils de gestion des problèmes afin de les aligner sur l’évolution des environnements commerciaux et technologiques. 
   +  Partagez des informations et des bonnes pratiques au sein de l’organisation afin de créer un environnement opérationnel plus résilient et plus efficace. 

1.  **Impliquez AWS Support :** 
   +  Utilisez des ressources d’assistance AWS [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), telles que des conseils proactifs et des recommandations d’optimisation. 
   +  Les clients du support aux entreprises peuvent accéder à des programmes spécialisés tels que [AWSCountdown](https://aws.amazon.com/premiumsupport/aws-countdown/) pour obtenir une assistance lors d’événements critiques. 

 **Niveau d’effort du plan d’implémentation :** faible 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Utilisation de runbooks pour effectuer des procédures](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Utilisation de playbooks pour analyser les problèmes](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) 

 **Documents connexes :** 
+  [Guide d’intervention en cas d’incident de sécurité AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Détection et intervention en cas d’incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework : Operations Perspective – Gestion des incidents et des problèmes](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Gestion des incidents à l’âge du DevOps et de SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty : qu’est-ce que la gestion des incidents ?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vidéos connexes :** 
+ [Les meilleurs conseils de AWS en matière d’intervention en cas d’incident](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 – The Amazon Builders’ Library: 25 yrs of Amazon operational excellence](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Présentation d’Incident Manager par AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Exemples connexes :** 
+  [Services proactifs AWS : atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [Comment automatiser la réponse aux incidents avec PagerDuty et AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Impliquer les intervenants en cas d’incident grâce aux horaires d’astreinte dans AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Améliorer la visibilité et la collaboration lors de la gestion des incidents dans AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Rapports d’incidents et demandes de service dans AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Services connexes :** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Disposer d’un processus par alerte
<a name="ops_event_response_process_per_alert"></a>

 Il est essentiel d’établir un processus clair et défini pour chaque alerte de votre système afin de garantir une gestion efficace et efficiente des incidents. Cette pratique garantit que chaque alerte entraîne une réponse spécifique et exploitable, améliorant ainsi la fiabilité et la réactivité de vos opérations. 

 **Résultat escompté :** chaque alerte déclenche un plan de réponse spécifique et bien défini. Dans la mesure du possible, les réponses sont automatisées, avec une propriété clairement établie et une procédure de remontée définie. Les alertes sont liées à une base de connaissances actualisée afin que chaque opérateur puisse réagir de manière cohérente et efficace. Les réponses sont rapides et uniformes à tous les niveaux, ce qui améliore l’efficacité et la fiabilité opérationnelles. 

 **Anti-modèles courants :** 
+  Les alertes n’ont pas de processus de réponse prédéfini, ce qui entraîne des résolutions improvisées et différées. 
+  En raison de la surcharge d’alertes, celles qui sont importantes sont ignorées. 
+  Les alertes ne sont pas traitées de manière cohérente en raison de l’absence de définition claire de la propriété et des responsabilités. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réduction de la lassitude liée aux alertes en ne déclenchant que des alertes exploitables. 
+  Diminution du délai moyen de résolution (MTTR) des problèmes opérationnels. 
+  Diminution du délai moyen d’investigation (MTTI), ce qui contribue à réduire le MTTR. 
+  Capacité accrue à mettre à l’échelle les réponses opérationnelles. 
+  Amélioration de la cohérence et de la fiabilité dans la gestion des événements opérationnels. 

 Par exemple, vous disposez d’un processus défini pour les événements AWS Health pour les comptes critiques, y compris les alarmes d’application, les problèmes opérationnels et les événements planifiés du cycle de vie (comme la mise à jour des versions d’Amazon EKS avant la mise à jour automatique des clusters), et vous donnez à vos équipes la possibilité de surveiller activement ces événements, de les communiquer et d’y répondre. Ces actions vous aident à prévenir les interruptions de service causées par des modifications côté AWS ou à les atténuer plus rapidement en cas de problèmes inattendus. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour disposer d’un processus par alerte, il est nécessaire d’établir un plan de réponse clair pour chaque alerte, d’automatiser les réponses dans la mesure du possible et d’améliorer continuellement ces processus en fonction des commentaires opérationnels et de l’évolution des exigences. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Le schéma suivant illustre le flux de travail de gestion des incidents dans [AWS Systems Manager Incident Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Il est conçu pour répondre rapidement aux problèmes opérationnels en créant automatiquement des incidents en réponse à des événements spécifiques provenant [d’Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) ou [d’Amazon EventBridge](https://aws.amazon.com/eventbridge/). Lorsqu’un incident est créé, automatiquement ou manuellement, Incident Manager centralise la gestion de l’incident, organise les informations pertinentes sur les ressources AWS et lance des plans de réponse prédéfinis. Il s’agit entre autres de l’exécution de dossiers d’exploitation Automation pour une action immédiate, ainsi que de la création d’un élément de travail opérationnel parent dans OpsCenter afin de suivre les tâches et les analyses associées. Ce processus rationalisé accélère et coordonne la réponse aux incidents dans l’ensemble de votre environnement AWS. 

![\[Organigramme illustrant la façon dont Incident Manager fonctionne – Amazon Q Developer dans les applications de chat, les plans et les contacts de remontée, ainsi que les dossiers d’exploitation, sont intégrés aux plans d’intervention, qui sont ajoutés aux incidents et aux analyses. Amazon CloudWatch est également pris en compte dans les plans d’intervention.\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


 

1.  **Utiliser des alarmes composites :** créez des [alarmes composites](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) dans CloudWatch pour regrouper les alarmes associées, réduire le bruit et permettre des réponses plus pertinentes. 

1.  **Restez informé avec [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) :** AWS Health est la source d’informations faisant autorité sur l’intégrité de vos ressources AWS Cloud. Utilisez AWS Health pour visualiser et être informé de tous les événements de service en cours et des changements à venir, tels que les événements de cycle de vie planifiés, afin de pouvoir prendre des mesures pour atténuer les impacts. 

   1.  [Créez des notifications d’événements AWS Health spécialement adaptées](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) aux e-mails et aux canaux de discussion via [Notifications des utilisateurs AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) et intégrez-les de manière programmatique à [vos outils de surveillance et d’alerte via Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou l’[API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planifiez et suivez l’évolution des événements d’intégrité qui nécessitent une action en intégrant des outils de gestion des modifications ou des outils ITSM (tels que [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) ou [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) que vous utilisez peut-être déjà via Amazon EventBridge ou l’API AWS Health. 

   1.  Si vous utilisez AWS Organizations, activez la [vue de l’organisation pour AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) afin d’agréger les événements AWS Health sur l’ensemble des comptes. 

1.  **Intégrer les alarmes Amazon CloudWatch avec Incident Manager :** configurez les alarmes CloudWatch pour créer automatiquement des incidents dans [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Intégrer Amazon EventBridge à Incident Manager :** créez des [règles EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) pour réagir aux événements et créer des incidents à l’aide de plans d’intervention définis. 

1.  **Préparez-vous aux incidents dans Incident Manager :** 
   +  Établissez des [plans d’intervention](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) détaillés dans Incident Manager pour chaque type d’alerte. 
   +  Établissez des canaux de chat par le biais de [Amazon Q Developer dans les applications de chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) connecté aux plans d’intervention dans Incident Manager, afin de faciliter la communication en temps réel lors d’incidents sur des plateformes telles que Slack, Microsoft Teams et Amazon Chime. 
   +  Intégrez les [dossiers d’exploitation d’automatisation de la gestion des systèmes](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) dans Incident Manager pour générer des interventions automatisées en cas d’incidents. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 

 **Documents connexes :** 
+ [AWS Cloud Adoption Framework : Operations Perspective – Gestion des incidents et des problèmes](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Utilisation d’alarmes Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [Configuration de AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [Préparation aux incidents dans Incident Manager :](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Vidéos connexes :** 
+ [Les meilleurs conseils de AWS en matière d’intervention en cas d’incident](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Exemples connexes :** 
+ [AWS Ateliers – AWS Systems Manager Incident Manager – Automatiser les réponses aux événements de sécurité](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Hiérarchiser les événements opérationnels en fonction de leur impact sur l’activité
<a name="ops_event_response_prioritize_events"></a>

 Il est essentiel de réagir rapidement aux événements opérationnels, mais tous les événements ne sont pas identiques. Lorsque vous établissez des priorités en fonction de l’impact sur l’entreprise, vous donnez également la priorité aux événements susceptibles d’avoir des conséquences importantes. Ces événements peuvent être liés à la sécurité, à des pertes financières, à des violations de la réglementation ou à des atteintes à la réputation. 

 **Résultat escompté :** les réponses aux événements opérationnels sont classées par ordre de priorité en fonction de leur impact potentiel sur les opérations et les objectifs de l’entreprise. Des réponses efficientes et efficaces peuvent ainsi être mises en place. 

 **Anti-modèles courants :** 
+  Chaque événement est traité avec le même niveau d’urgence, ce qui entraîne de la confusion et des retards dans la résolution des problèmes critiques. 
+  Vous ne faites pas la distinction entre les événements à fort et à faible impact, ce qui entraîne une mauvaise allocation des ressources. 
+  Votre organisation ne dispose pas d’un cadre de priorisation clair, ce qui entraîne des réponses incohérentes aux événements opérationnels. 
+  Les événements sont priorisés en fonction de leur ordre de signalement, plutôt que de leur impact sur les résultats de l’entreprise. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Garantit que les fonctions critiques de l’entreprise sont traitées en premier lieu, minimisant ainsi les dommages potentiels. 
+  Améliore l’allocation des ressources lors de plusieurs événements simultanés. 
+  Améliore la capacité de l’organisation à préserver la confiance et à répondre aux exigences réglementaires. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Lorsque plusieurs événements opérationnels ont lieu simultanément, il est essentiel d’adopter une approche structurée de la priorisation en fonction de l’impact et de l’urgence. Cette approche vous permet de prendre des décisions éclairées, d’orienter les efforts vers les domaines où ils sont le plus nécessaires et d’atténuer les risques pour la continuité des activités. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Mesurer l’impact :** élaborez un système de classification pour évaluer la gravité des événements en fonction de leur impact potentiel sur les opérations et les objectifs de l’entreprise. L’exemple suivant illustre les différentes catégories d’impact :     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Mesurer l’urgence :** définissez les niveaux d’urgence correspondant à la rapidité de réponse requise pour un événement, en tenant compte de facteurs tels que la sécurité, les implications financières et les Contrats de niveau de service (SLA). L’exemple suivant illustre les catégories d’urgence :     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Créez une matrice de priorisation :** 
   +  Utilisez une matrice pour associer l’impact et l’urgence, en attribuant des niveaux de priorité à différentes combinaisons. 
   +  Rendez la matrice accessible et compréhensible par tous les membres de l’équipe responsables des réponses aux événements opérationnels. 
   +  L’exemple de matrice suivant affiche la gravité des incidents en fonction de leur urgence et de leur impact :     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Former et communiquer :** formez les équipes de réponse à la matrice de priorisation et à l’importance de la suivre lors d’un événement. Communiquez le processus de priorisation à toutes les parties prenantes afin de définir des attentes claires. 

1.  **Intégrez la matrice à la gestion des réponses aux incidents :** 
   +  Intégrez la matrice de priorisation à vos plans et outils de réponse aux incidents. 
   +  Automatisez la classification et la hiérarchisation des événements dans la mesure du possible afin d’accélérer les temps de réponse. 
   +  Les clients du support aux entreprises peuvent utiliser la [détection et la réponse aux incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), qui fournissent une surveillance proactive continue et une gestion des incidents pour les charges de travail de production. 

1.  **Examiner et adapter :** passez régulièrement en revue l’efficacité du processus de priorisation et apportez des ajustements en fonction des commentaires et de l’évolution de l’environnement métier. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS03-BP03 L'escalade est encouragée](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Mesure des objectifs opérationnels et des KPI à l’aide de métriques](ops_operations_health_measure_ops_goals_kpis.md) 

 **Documents connexes :** 
+ [ Atlassian – Understanding incident severity levels ](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [ IT Process Map - Checklist Incident Priority ](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Définir l’acheminement hiérarchique
<a name="ops_event_response_define_escalation_paths"></a>

Définissez des procédures de remontée claires dans vos protocoles de réponse aux incidents afin de faciliter une action rapide et efficace. Il s’agit entre autres de spécifier les invites à la remontée, de détailler le processus de remontée et d’approuver au préalable les actions visant à accélérer la prise de décision et à réduire le délai moyen de résolution (MTTR).

 **Résultat escompté :** un processus structuré et efficace qui transmet les incidents au personnel approprié, minimisant ainsi les temps de réponse et l’impact. 

 **Anti-modèles courants :** 
+ Le manque de clarté des procédures de récupération entraîne des interventions improvisées lors d’incidents critiques.
+ L’absence d’autorisations et de propriétaires définis entraîne des retards lorsqu’une action urgente est nécessaire.
+  Les parties prenantes et les clients ne sont pas informés conformément aux attentes. 
+  Les décisions importantes sont reportées. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réponse rationalisée aux incidents grâce à des procédures de remontée prédéfinies. 
+  Réduction des temps d’arrêt grâce à des actions préapprouvées et à la définition claire d’un propriétaire. 
+  Meilleure allocation des ressources et ajustements du niveau d’assistance en fonction de la gravité de l’incident. 
+  Meilleure communication avec les parties prenantes et les clients. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Il est crucial de définir correctement les procédures de remontée pour répondre rapidement aux incidents. AWS Systems Manager Incident Manager prend en charge la mise en place de plans de remontée structurés et de calendriers d’astreinte, qui alertent le personnel concerné afin qu’il soit prêt à intervenir en cas d’incident. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Configurer des invites d’escalade :** configurez des [alarmes CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) pour créer un incident dans [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  **Configurez des horaires d’astreinte :** créez des [horaires d’astreinte](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) dans Incident Manager qui correspondent à vos trajectoires d’escalade. Dotez le personnel d’astreinte des autorisations et des outils nécessaires afin de lui permettre d’agir rapidement. 

1.  **Détaillez les procédures de remontée :** 
   +  Déterminez les conditions spécifiques dans lesquelles un incident doit faire l’objet d’une remontée. 
   +  Créez des [plans d’escalade](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) dans Incident Manager. 
   +  Les canaux de remontée doivent inclure un contact ou un calendrier d’astreinte. 
   +  Définissez les rôles et les responsabilités de l’équipe à chaque niveau de la remontée. 

1.  **Approuver au préalable les mesures d’atténuation :** collaborez avec les décisionnaires pour approuver au préalable les actions associées aux scénarios prévus. Utilisez les [runbooks Systems Manager Automation](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) intégrés à Incident Manager pour accélérer la résolution des incidents. 

1.  **Préciser la propriété :** identifiez clairement les propriétaires internes pour chaque étape de la procédure de remontée. 

1.  **Détaillez les remontées par des tiers :** 
   +  Documentez les Contrats de niveau de service (SLA) tiers et alignez-les sur les objectifs internes. 
   +  Définissez des protocoles clairs pour la communication avec les fournisseurs lors d’incidents. 
   +  Intégrez les contacts des fournisseurs dans les outils de gestion des incidents pour un accès direct. 
   +  Effectuez régulièrement des exercices qui incluent des scénarios de réponse par des tiers. 
   +  Documentez les informations relatives à la remontée fournisseurs et veillez à ce qu’elles soient facilement accessibles. 

1.  **Former et répéter les plans d’escalade :** formez votre équipe à la procédure de remontée et organisez régulièrement des exercices de réponse aux incidents ou des journées de jeu. Les clients du support aux entreprises peuvent demander [l’atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) auprès de leur responsable de compte technique. 

1.  **Améliorer sans cesse :** vérifiez régulièrement l’efficacité de vos procédures de remontée. Mettez à jour vos procédures en fonction des leçons tirées des analyses post-mortem des incidents et des commentaires fournis en continu. 

 **Niveau d’effort du plan d’implémentation :** modéré 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Disposer d’un processus par alerte](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) 

 **Documents connexes :** 
+ [Plans de remontée AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [Utilisation des horaires d’astreinte dans Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [Création et gestion des Runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [Gestion des accès temporaires élevés avec AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [ Atlassian - Politiques d’escalade pour une gestion efficace des incidents](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Définissez un plan de communication avec les clients en cas d’interruption de service
<a name="ops_event_response_push_notify"></a>

 Il est essentiel de mettre en place une communication efficace lors d’événements ayant un impact sur le service afin de préserver la confiance des clients et la transparence dont vous faites preuve à leur égard. Un plan de communication bien défini permet à votre organisation de partager rapidement et clairement des informations, à la fois en interne et en externe, lors d’incidents. 

 **Résultat escompté :** 
+  Un plan de communication robuste qui informe efficacement les clients et les parties prenantes lors d’événements ayant un impact sur le service. 
+  Transparence dans la communication pour renforcer la confiance et réduire l’anxiété des clients. 
+  Minimiser l’impact des événements ayant un impact sur le service du point de vue de l’expérience client et des opérations métier. 

 **Anti-modèles courants :** 
+  Une communication inadéquate ou retardée entraîne de la confusion et de l’insatisfaction chez les clients. 
+  Les messages trop techniques ou trop vagues ne reflètent pas l’impact réel sur les utilisateurs. 
+  Il n’existe pas de stratégie de communication prédéfinie, ce qui entraîne des messages incohérents et réactifs. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Confiance et satisfaction accrues des clients grâce à une communication proactive et claire. 
+  Réduction de la charge de travail des équipes d’assistance en répondant de manière préventive aux préoccupations des clients. 
+  Amélioration de la capacité à gérer les incidents et à récupérer de manière efficace. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 La création d’un plan de communication complet pour les événements ayant un impact sur les services implique plusieurs facettes, du choix des canaux appropriés à l’élaboration du message et du ton adéquats. Le plan doit être adaptable, doté d’une capacité de mise à l’échelle et pouvoir répondre à différents scénarios de panne. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Définissez les rôles et les responsabilités :** 
   +  Désignez un responsable des incidents majeurs qui sera chargé de superviser les activités de réponse aux incidents. 
   +  Désignez un responsable des communications chargé de coordonner toutes les communications externes et internes. 
   +  Incluez le responsable de l’assistance afin d’établir une communication cohérente par le biais de tickets d’assistance. 

1.  **Identifier les canaux de communication :** sélectionnez des canaux tels que le chat sur le lieu de travail, les e-mails, les SMS, les réseaux sociaux, les notifications intégrées à l’application et les pages de statut. Ces canaux doivent être résilients et capables de fonctionner de manière indépendante lors d’événements ayant un impact sur le service. 

1.  **Communiquez rapidement, clairement et régulièrement avec les clients :** 
   +  Élaborez des modèles pour divers scénarios de détérioration des services, en mettant l’accent sur la simplicité et les détails essentiels. Incluez des informations sur la perturbation du service, le délai de résolution prévu et l’impact. 
   +  Amazon Pinpoint vous permet d’alerter les clients à l’aide de notifications push, de notifications in-app, d’e-mails, de messages texte, de messages vocaux et de messages sur des canaux personnalisés. 
   +  Amazon Simple Notiﬁcation Service (Amazon SNS) vous permet d’alerter les abonnés de manière programmée ou par courrier électronique, notifications mobiles push et messages textuels. 
   +  Communiquez votre statut par le biais de tableaux de bord en partageant un tableau de bord Amazon CloudWatch publiquement. 
   +  Encouragez l’engagement sur les réseaux sociaux : 
     +  Surveillez activement les réseaux sociaux pour comprendre le sentiment des clients. 
     +  Publiez sur les plateformes de réseaux sociaux pour les mises à jour publiques et un engagement communautaire. 
     +  Préparez des modèles pour une communication cohérente et claire sur les réseaux sociaux. 

1.  **Coordonnez la communication interne :** mettez en œuvre des protocoles internes à l’aide d’outils comme Amazon Q Developer dans les applications de chat pour la coordination et la communication de l’équipe. Les tableaux de bord CloudWatch vous permettent de communiquer le statut. 

1.  **Orchestrez la communication à l’aide d’outils et de services dédiés :** 
   +  Utilisez AWS Systems Manager Incident Manager avec Amazon Q Developer dans les applications de chat afin de configurer des canaux de chat dédiés pour une communication interne en temps réel et une coordination pendant les incidents. 
   +  Utilisez les dossiers d’exploitation AWS Systems Manager Incident Manager pour automatiser les notifications transmises aux clients via Amazon Pinpoint, Amazon SNS ou des outils tiers tels que les plateformes de réseaux sociaux lors d’incidents. 
   +  Intégrez des flux de travail d’approbation dans les dossiers d’exploitation pour, si nécessaire, examiner et autoriser toutes les communications externes avant leur envoi. 

1.  **Entraînez-vous et améliorez les processus :** 
   +  Organisez une formation sur l’utilisation des outils et des stratégies de communication. Donnez aux équipes les moyens de prendre des décisions rapidement en cas d’incident. 
   +  Testez le plan de communication lors d’exercices réguliers ou de journées de jeu. Utilisez ces tests pour affiner les messages et évaluer l’efficacité des canaux. 
   +  Mettez en œuvre des mécanismes de commentaires pour évaluer l’efficacité de la communication lors d’incidents. Faites évoluer continuellement le plan de communication en fonction des commentaires et de l’évolution des besoins. 

 **Niveau d’effort du plan d’implémentation :** élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS07-BP03 Utilisation de runbooks pour effectuer des procédures](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Communiquer l’état grâce aux tableaux de bord](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) 

 **Documents connexes :** 
+ [ Atlassian – Bonnes pratiques en matière de communication sur les incidents](https://www.atlassian.com/incident-management/incident-communication)
+ [ Atlassian – Comment rédiger une bonne mise à jour de statut](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [ PagerDuty – Guide des communications en cas d’incident](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Vidéos connexes :** 
+ [Atlassian – Créez votre propre plan de communication en cas d’incident : modèles d’incidents](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Exemples connexes :** 
+  [Tableau de bord AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Communiquer l’état grâce aux tableaux de bord
<a name="ops_event_response_dashboards"></a>

 Utilisez les tableaux de bord comme outil stratégique pour communiquer l’état opérationnel en temps réel et les métriques clés à différents publics, y compris aux équipes techniques internes, à la direction et aux clients. Ces tableaux de bord offrent une représentation visuelle centralisée de l’intégrité du système et des performances de l’entreprise, améliorant ainsi la transparence et l’efficacité de la prise de décision. 

 **Résultat escompté :** 
+  Vos tableaux de bord fournissent une vue complète des métriques système et métier pour les différentes parties prenantes. 
+  Les parties prenantes peuvent accéder de manière proactive aux informations opérationnelles, ce qui réduit la nécessité d’effectuer fréquemment des demandes de statut. 
+  La prise de décision en temps réel est améliorée pendant les opérations normales et les incidents. 

 **Anti-modèles courants :** 
+ Les ingénieurs participant à un appel de gestion des incidents ont besoin de mises à jour du statut pour être opérationnels.
+ Faire confiance à des rapports manuels pour la gestion, ce qui entraîne des retards et des inexactitudes potentielles.
+  Les équipes opérationnelles sont fréquemment interrompues pour des mises à jour de statut lors d’incidents. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Donne aux parties prenantes un accès immédiat aux informations critiques, favorisant ainsi la prise de décisions réfléchies. 
+  Réduit les inefficacités opérationnelles en minimisant les rapports manuels et en limitant la fréquence des demandes de statut. 
+  Améliore la transparence et la confiance grâce à une visibilité en temps réel des performances du système et des métriques métier. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Les tableaux de bord communiquent efficacement le statut de vos métriques système et métier, et peuvent être adaptés aux besoins des différents groupes d’audience. Des outils tels que les tableaux de bord Amazon CloudWatch et Amazon Quick vous permettent de créer des tableaux de bord interactifs en temps réel pour la surveillance du système et la veille économique. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Identifier les besoins des parties prenantes :** déterminez les besoins d’informations spécifiques des différents groupes d’audience, tels que les équipes techniques, la direction et les clients. 

1.  ** Choisissez les bons outils :** sélectionnez les outils appropriés, tels que les [tableaux de bord Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) pour la surveillance du système et [Amazon Quick](https://aws.amazon.com/quicksight/) pour la veille stratégique interactive. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) fournit une expérience prête à l’emploi dans le [Tableau de bord AWS Health](https://health.aws.amazon.com/health/home), ou vous pouvez utiliser les événements d’intégrité dans Amazon EventBridge ou via l’API AWS Health pour enrichir vos propres tableaux de bord. 

1.  **Concevez des tableaux de bord efficaces:** 
   +  Concevez des tableaux de bord pour présenter clairement les métriques et les KPI pertinents, en veillant à ce qu’ils soient compréhensibles et exploitables. 
   +  Intégrez des vues au niveau du système et de l’entreprise selon les besoins. 
   +  Incluez des tableaux de bord globaux (pour les vues d’ensemble) et détaillés (pour une analyse approfondie). 
   +  Intégrez des alarmes automatisées dans les tableaux de bord pour mettre en évidence les problèmes critiques. 
   +  Annotez les tableaux de bord avec des métriques, des seuils et des objectifs importants pour une visibilité immédiate. 

1.  **Intégrez les sources de données:** 
   +  [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) vous permet d’agréger et d’afficher les métriques de différents services AWS et [d’interroger les métriques provenant d’autres sources de données](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), afin de créer une vue unifiée de l’état de santé et des indicateurs commerciaux de votre système. 
   +  Utilisez des fonctionnalités telles que [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) pour interroger et visualiser les données des journaux provenant de différents services et applications. 
   +  Utilisez les événements AWS Health pour rester informé de l’état opérationnel et des problèmes opérationnels confirmés des services AWS via l’[API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) ou les [événements AWS Health sur Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Fournissez un accès en libre-service:** 
   +  Partagez des tableaux de bord CloudWatch avec les parties prenantes concernées pour accéder aux informations en libre-service à l’aide des [fonctionnalités de partage des tableaux de bord](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Assurez-vous que les tableaux de bord sont facilement accessibles et fournissent des informations actualisées en temps réel. 

1.  **Mettez à jour et affinez régulièrement:** 
   +  Mettez à jour et affinez continuellement les tableaux de bord pour les adapter à l’évolution des besoins de l’entreprise et aux commentaires des parties prenantes. 
   +  Passez régulièrement en revue les tableaux de bord afin qu’ils restent pertinents et efficaces pour transmettre les informations nécessaires. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS08-BP05 Création de tableaux de bord](ops_workload_observability_create_dashboards.md) 

 **Documents connexes:** 
+ [ Création de tableaux de bord pour une visibilité opérationnelle ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Utilisation des tableaux de bord Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Créer des tableaux de bord flexibles avec des variables de tableau de bord ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Partage de tableaux de bord CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Interrogation de métriques d’autres sources de données ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Ajout d’un widget personnalisé à un tableau de bord CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Exemples connexes:** 
+ [ Un atelier sur l’observabilité – Tableaux de bord ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatiser les réponses aux événements
<a name="ops_event_response_auto_event_response"></a>

 L’automatisation des réponses aux événements est essentielle pour une gestion opérationnelle rapide, cohérente et sans erreur. Créez des processus rationalisés et utilisez des outils pour gérer et répondre automatiquement aux événements, en minimisant les interventions manuelles et en améliorant l’efficacité opérationnelle. 

 **Résultat escompté :** 
+  Réduction des erreurs humaines et accélération des temps de résolution grâce à l’automatisation. 
+  Gestion cohérente et fiable des événements opérationnels. 
+  Amélioration de l’efficacité opérationnelle et de la fiabilité du système. 

 **Anti-modèles courants :** 
+ La gestion manuelle des événements entraîne des retards et des erreurs.
+ L’automatisation est négligée pour les tâches critiques et répétitives.
+  Les tâches manuelles répétitives entraînent une lassitude liée aux alertes et peuvent nuire à la détection de problèmes critiques. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réponses accélérées aux événements, réduisant ainsi les temps d’arrêt du système. 
+  Des opérations fiables avec une gestion automatisée et cohérente des événements. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Intégrez l’automatisation pour créer des flux de travail opérationnels efficaces et minimiser les interventions manuelles. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Identification des opportunités d’automatisation :** déterminez les tâches répétitives à automatiser, telles que la résolution des problèmes, l’enrichissement des tickets, la gestion des capacités, la mise à l’échelle, les déploiements et les tests. 

1.  **Identification des invites d’automatisation :** 
   +  Évaluez et définissez des conditions ou des métriques spécifiques qui déclenchent des réponses automatisées à l'aide des [actions CloudWatch d'alarme Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Utilisez [Amazon EventBridge](https://aws.amazon.com/eventbridge/) pour répondre aux événements liés aux AWS services, aux charges de travail personnalisées et aux applications SaaS. 
   +  Tenez compte des événements d'initiation tels que [des entrées de journal spécifiques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [des seuils de mesures de performance](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) ou [des changements d'état](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) des AWS ressources. 

1.  **Mise en œuvre d’une automatisation pilotée par les événements :** 
   +  Utilisez les runbooks AWS Systems Manager d'automatisation pour simplifier les tâches de maintenance, de déploiement et de correction. 
   +  [La création d'incidents dans Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) permet de collecter et d'ajouter automatiquement des informations sur les AWS ressources impliquées dans l'incident. 
   +  Surveillez les quotas de manière proactive à l’aide de [Quota Monitor pour AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Ajustez automatiquement la capacité avec [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) pour maintenir la disponibilité et les performances. 
   +  Automatisez les pipelines de développement avec [Amazon CodeCatalyst](https://codecatalyst.aws/explore). 
   +  Testez la fumée ou surveillez en permanence les terminaux à APIs [l'aide d'une surveillance synthétique](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). 

1.  **Atténuation des risques grâce à l’automatisation :** 
   +  Utilisez des [réponses de sécurité automatisées](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) pour gérer rapidement les risques. 
   +  Utilisez [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) pour réduire la dérive de configuration. 
   +  [Corrigez les ressources non conformes](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) avec. AWS Config Rules

 **Niveau d’effort du plan d’implémentation :** élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Disposer d’un processus par alerte](ops_event_response_process_per_alert.md) 

 **Documents connexes :** 
+  [Utilisation des runbooks d’automatisation Systems Manager avec Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Création d’incidents dans Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [AWS quotas de service](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Contrôle de l’utilisation des ressources et envoi de notifications lorsque les quotas sont atteints](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [Qu'est-ce qu'Amazon CodeCatalyst ?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Utilisation des CloudWatch alarmes Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Utilisation des actions CloudWatch d'alarme Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Corriger les ressources non conformes avec AWS Config Rules](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Création de métriques à partir d’événements du journal à l’aide de filtres](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [Gestionnaire d’états AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Vidéos connexes :** 
+ [Créez des runbooks d'automatisation avec AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [Comment automatiser les opérations informatiques sur AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM règles d'automatisation](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Démarrez rapidement votre projet logiciel avec les CodeCatalyst plans Amazon](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Exemples connexes :** 
+ [ CodeCatalyst Tutoriel Amazon : Création d'un projet avec le plan d'application Web moderne à trois niveaux](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [Un atelier sur l’observabilité](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [Réaction aux incidents à l’aide d’Incident Manager](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)