# OPS 10. Comment gérer les événements relatifs à la charge de travail et aux opérations ?
<a name="ops-10"></a>

 Préparez et validez des procédures de réponse aux événements afin de réduire leur effet disruptif sur votre charge de travail. 

**Topics**
+ [

# OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Disposer d’un processus par alerte
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Hiérarchiser les événements opérationnels en fonction de leur impact sur l’activité
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Définir l’acheminement hiérarchique
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Définissez un plan de communication avec les clients en cas d’interruption de service
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Communiquer l’état grâce aux tableaux de bord
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Automatiser les réponses aux événements
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes
<a name="ops_event_response_event_incident_problem_process"></a>

La capacité à gérer efficacement les événements, les incidents et les problèmes est essentielle pour préserver l’intégrité et les performances de la charge de travail. Il est essentiel de reconnaître et de comprendre les différences entre ces éléments pour développer une stratégie de réponse et de résolution efficace. La mise en place et le suivi d’un processus bien défini pour chaque aspect aident votre équipe à relever rapidement et efficacement tous les défis opérationnels qui se présentent.

 **Résultat escompté :** votre organisation gère efficacement les événements opérationnels, les incidents et les problèmes grâce à des processus bien documentés et stockés de manière centralisée. Ces processus sont constamment mis à jour pour refléter les changements, rationaliser la gestion et préserver une fiabilité de service et des performances de charge de travail élevées. 

 **Anti-modèles courants :** 
+  Vous êtes réactif et non proactif face aux événements. 
+  Des approches incohérentes sont adoptées à l’égard de différents types d’événements ou d’incidents. 
+ Votre organisation n’analyse pas les incidents et n’en tire pas les leçons nécessaires pour éviter qu’ils se reproduisent à l’avenir.

 **Avantages liés au respect de cette bonne pratique :** 
+  Processus de réponse rationalisés et standardisés. 
+  Réduction de l’impact des incidents sur les services et les clients. 
+  Résolution accélérée des problèmes. 
+  Amélioration continue des processus opérationnels. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élévé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Le respect de cette bonne pratique signifie que vous suivez les événements de charge de travail. Vous disposez de processus pour gérer les incidents et les problèmes. Les processus sont documentés, partagés et mis à jour fréquemment. Les problèmes sont identifiés, hiérarchisés et résolus. 

 **Comprendre les événements, les incidents et les problèmes** 
+  **Événement :** un *événement* est une observation d’action, d’occurrence ou de modification d’un état. Les événements peuvent être planifiés ou imprévus et peuvent avoir une origine interne ou externe à la charge de travail. 
+  **Incidents :** *les incidents* sont des événements qui nécessitent une réponse. Il peut notamment s’agir d’interruptions imprévues ou de dégradations de la qualité du service. Les incidents sont des perturbations qui nécessitent une attention immédiate pour rétablir le fonctionnement normal de la charge de travail. 
+  **Problèmes :** *les problèmes* sont les causes sous-jacentes d’un ou de plusieurs incidents. L’identification et la résolution des problèmes impliquent d’étudier plus en profondeur les incidents afin d’éviter qu’ils se reproduisent. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 **Événements** 

1.  **Surveiller des événements :** 
   +  [Mettez en œuvre l’observabilité](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) et [utilisez l’observabilité de la charge de travail](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Les actions de surveillance entreprises par un utilisateur, un rôle ou un service AWS sont enregistrées sous forme d’événements dans [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Répondez aux changements opérationnels de vos applications en temps réel avec [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Évaluez, surveillez et enregistrez en permanence les modifications de configuration des ressources avec [AWS Config](https://aws.amazon.com/config/). 

1.  **Créez des processus :** 
   +  Élaborez un processus pour évaluer quels événements sont importants et nécessitent une surveillance. Pour ce faire, il faut fixer des seuils et des paramètres pour les activités normales et anormales. 
   +  Déterminez les critères permettant de transformer un événement en incident. Cette évaluation peut être basée sur la gravité, l’impact sur les utilisateurs ou un écart par rapport au comportement attendu. 
   +  Passez régulièrement en revue les processus de surveillance et de réponse aux événements. Il s’agit notamment d’analyser les incidents passés, d’ajuster les seuils et d’affiner les mécanismes d’alerte. 

 **Incidents** 

1.  **Intervenir en cas d’incident :** 
   +  Utilisez les informations issues des outils d’observabilité pour identifier rapidement les incidents et y répondre. 
   +  Mettre en place un [centre d’opérations AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) pour regrouper, organiser et hiérarchiser les éléments opérationnels et les incidents. 
   +  Utilisez des services tels qu’[Amazon CloudWatch [AWS X-Ray](https://aws.amazon.com/xray/)](https://aws.amazon.com/cloudwatch/) pour effectuer des analyses approfondies et résoudre les problèmes. 
   +  Envisagez [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) pour améliorer la gestion des incidents, en tirant parti de ses capacités proactives, préventives et de détection. AMS étend son support opérationnel avec des services tels que la surveillance, la détection et la réponse aux incidents, ainsi que la gestion de la sécurité. 
   +  Les clients du support aux entreprises peuvent utiliser la [détection et la réponse aux incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), qui fournissent une surveillance proactive continue et une gestion des incidents pour les charges de travail de production. 

1.  **Créez un processus de gestion des incidents :** 
   +  Établissez un processus structuré de gestion des incidents, comprenant des rôles clairs, des protocoles de communication et des étapes de résolution. 
   +  Intégrez la gestion des incidents à des outils comme [Amazon Q Developer dans les applications de chat](https://aws.amazon.com/chatbot/) pour une réponse et une coordination efficaces. 
   +  Classez les incidents par ordre de gravité, avec des [plans d’intervention en cas d’incidents](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) prédéfinis pour chaque catégorie. 

1.  **Apprenez et améliorez vos processus :** 
   +  Effectuez une [analyse post-incident](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) pour comprendre les causes profondes et l’efficacité de l’intervention. 
   +  Mettez à jour et améliorez en continu les plans de réponse en fonction des examens et de l’évolution des pratiques. 
   +  Documentez et partagez les leçons apprises entre les équipes afin d’améliorer la résilience opérationnelle. 
   +  Les clients du support aux entreprises peuvent demander [l’atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) auprès de leur responsable de compte technique. Le présent atelier guidé vous permet d’évaluer votre plan d’intervention en cas d’incident et d’identifier les points à améliorer. 

 **Problèmes** 

1.  **Identifiez les problèmes :** 
   +  Utilisez les données relatives aux incidents précédents pour identifier des modèles récurrents susceptibles d’indiquer des problèmes systémiques plus profonds. 
   +  Tirez parti d’outils tels [AWS CloudTrail](https://aws.amazon.com/cloudtrail/)qu’[Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) pour analyser les tendances et découvrir les problèmes sous-jacents. 
   +  Mobilisez des équipes interfonctionnelles, y compris les services des opérations et du développement, ainsi que les unités commerciales, afin d’obtenir des points de vue diversifiés sur les causes profondes. 

1.  **Créez un processus de gestion des problèmes :** 
   +  Développez un processus structuré pour la gestion des problèmes, en mettant l’accent sur des solutions à long terme plutôt que sur des correctifs rapides. 
   +  Intégrez des techniques d’analyse des causes profondes (RCA) pour étudier et comprendre les causes sous-jacentes des incidents. 
   +  Mettez à jour les politiques, les procédures et l’infrastructure opérationnelles en fonction des résultats pour éviter tout incident. 

1.  **Continuez à améliorer vos processus :** 
   +  Favorisez une culture d’apprentissage et d’amélioration continus, en incitant les équipes à identifier et à résoudre les problèmes potentiels de manière proactive. 
   +  Passez régulièrement en revue et révisez les processus et les outils de gestion des problèmes afin de les aligner sur l’évolution des environnements commerciaux et technologiques. 
   +  Partagez des informations et des bonnes pratiques au sein de l’organisation afin de créer un environnement opérationnel plus résilient et plus efficace. 

1.  **Impliquez AWS Support :** 
   +  Utilisez des ressources d’assistance AWS [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), telles que des conseils proactifs et des recommandations d’optimisation. 
   +  Les clients du support aux entreprises peuvent accéder à des programmes spécialisés tels que [AWSCountdown](https://aws.amazon.com/premiumsupport/aws-countdown/) pour obtenir une assistance lors d’événements critiques. 

 **Niveau d’effort du plan d’implémentation :** faible 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Utilisation de runbooks pour effectuer des procédures](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Utilisation de playbooks pour analyser les problèmes](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) 

 **Documents connexes :** 
+  [Guide d’intervention en cas d’incident de sécurité AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Détection et intervention en cas d’incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework : Operations Perspective – Gestion des incidents et des problèmes](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Gestion des incidents à l’âge du DevOps et de SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty : qu’est-ce que la gestion des incidents ?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vidéos connexes :** 
+ [Les meilleurs conseils de AWS en matière d’intervention en cas d’incident](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 – The Amazon Builders’ Library: 25 yrs of Amazon operational excellence](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Présentation d’Incident Manager par AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Exemples connexes :** 
+  [Services proactifs AWS : atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [Comment automatiser la réponse aux incidents avec PagerDuty et AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Impliquer les intervenants en cas d’incident grâce aux horaires d’astreinte dans AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Améliorer la visibilité et la collaboration lors de la gestion des incidents dans AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Rapports d’incidents et demandes de service dans AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Services connexes :** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Disposer d’un processus par alerte
<a name="ops_event_response_process_per_alert"></a>

 Il est essentiel d’établir un processus clair et défini pour chaque alerte de votre système afin de garantir une gestion efficace et efficiente des incidents. Cette pratique garantit que chaque alerte entraîne une réponse spécifique et exploitable, améliorant ainsi la fiabilité et la réactivité de vos opérations. 

 **Résultat escompté :** chaque alerte déclenche un plan de réponse spécifique et bien défini. Dans la mesure du possible, les réponses sont automatisées, avec une propriété clairement établie et une procédure de remontée définie. Les alertes sont liées à une base de connaissances actualisée afin que chaque opérateur puisse réagir de manière cohérente et efficace. Les réponses sont rapides et uniformes à tous les niveaux, ce qui améliore l’efficacité et la fiabilité opérationnelles. 

 **Anti-modèles courants :** 
+  Les alertes n’ont pas de processus de réponse prédéfini, ce qui entraîne des résolutions improvisées et différées. 
+  En raison de la surcharge d’alertes, celles qui sont importantes sont ignorées. 
+  Les alertes ne sont pas traitées de manière cohérente en raison de l’absence de définition claire de la propriété et des responsabilités. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réduction de la lassitude liée aux alertes en ne déclenchant que des alertes exploitables. 
+  Diminution du délai moyen de résolution (MTTR) des problèmes opérationnels. 
+  Diminution du délai moyen d’investigation (MTTI), ce qui contribue à réduire le MTTR. 
+  Capacité accrue à mettre à l’échelle les réponses opérationnelles. 
+  Amélioration de la cohérence et de la fiabilité dans la gestion des événements opérationnels. 

 Par exemple, vous disposez d’un processus défini pour les événements AWS Health pour les comptes critiques, y compris les alarmes d’application, les problèmes opérationnels et les événements planifiés du cycle de vie (comme la mise à jour des versions d’Amazon EKS avant la mise à jour automatique des clusters), et vous donnez à vos équipes la possibilité de surveiller activement ces événements, de les communiquer et d’y répondre. Ces actions vous aident à prévenir les interruptions de service causées par des modifications côté AWS ou à les atténuer plus rapidement en cas de problèmes inattendus. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour disposer d’un processus par alerte, il est nécessaire d’établir un plan de réponse clair pour chaque alerte, d’automatiser les réponses dans la mesure du possible et d’améliorer continuellement ces processus en fonction des commentaires opérationnels et de l’évolution des exigences. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Le schéma suivant illustre le flux de travail de gestion des incidents dans [AWS Systems Manager Incident Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Il est conçu pour répondre rapidement aux problèmes opérationnels en créant automatiquement des incidents en réponse à des événements spécifiques provenant [d’Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) ou [d’Amazon EventBridge](https://aws.amazon.com/eventbridge/). Lorsqu’un incident est créé, automatiquement ou manuellement, Incident Manager centralise la gestion de l’incident, organise les informations pertinentes sur les ressources AWS et lance des plans de réponse prédéfinis. Il s’agit entre autres de l’exécution de dossiers d’exploitation Automation pour une action immédiate, ainsi que de la création d’un élément de travail opérationnel parent dans OpsCenter afin de suivre les tâches et les analyses associées. Ce processus rationalisé accélère et coordonne la réponse aux incidents dans l’ensemble de votre environnement AWS. 

![\[Organigramme illustrant la façon dont Incident Manager fonctionne – Amazon Q Developer dans les applications de chat, les plans et les contacts de remontée, ainsi que les dossiers d’exploitation, sont intégrés aux plans d’intervention, qui sont ajoutés aux incidents et aux analyses. Amazon CloudWatch est également pris en compte dans les plans d’intervention.\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


1.  **Utiliser des alarmes composites :** créez des [alarmes composites](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) dans CloudWatch pour regrouper les alarmes associées, réduire le bruit et permettre des réponses plus pertinentes. 

1.  **Restez informé avec [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) :** AWS Health est la source d’informations faisant autorité sur l’intégrité de vos ressources AWS Cloud. Utilisez AWS Health pour visualiser et être informé de tous les événements de service en cours et des changements à venir, tels que les événements de cycle de vie planifiés, afin de pouvoir prendre des mesures pour atténuer les impacts. 

   1.  [Créez des notifications d’événements AWS Health spécialement adaptées](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) aux e-mails et aux canaux de discussion via [Notifications des utilisateurs AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) et intégrez-les de manière programmatique à [vos outils de surveillance et d’alerte via Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou l’[API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planifiez et suivez l’évolution des événements d’intégrité qui nécessitent une action en intégrant des outils de gestion des modifications ou des outils ITSM (tels que [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) ou [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) que vous utilisez peut-être déjà via Amazon EventBridge ou l’API AWS Health. 

   1.  Si vous utilisez AWS Organizations, activez la [vue de l’organisation pour AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) afin d’agréger les événements AWS Health sur l’ensemble des comptes. 

1.  **Intégrer les alarmes Amazon CloudWatch avec Incident Manager :** configurez les alarmes CloudWatch pour créer automatiquement des incidents dans [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Intégrer Amazon EventBridge à Incident Manager :** créez des [règles EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) pour réagir aux événements et créer des incidents à l’aide de plans d’intervention définis. 

1.  **Préparez-vous aux incidents dans Incident Manager :** 
   +  Établissez des [plans d’intervention](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) détaillés dans Incident Manager pour chaque type d’alerte. 
   +  Établissez des canaux de chat par le biais de [Amazon Q Developer dans les applications de chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) connecté aux plans d’intervention dans Incident Manager, afin de faciliter la communication en temps réel lors d’incidents sur des plateformes telles que Slack, Microsoft Teams et Amazon Chime. 
   +  Intégrez les [dossiers d’exploitation d’automatisation de la gestion des systèmes](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) dans Incident Manager pour générer des interventions automatisées en cas d’incidents. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 

 **Documents connexes :** 
+ [AWS Cloud Adoption Framework : Operations Perspective – Gestion des incidents et des problèmes](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Utilisation d’alarmes Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [Configuration de AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [Préparation aux incidents dans Incident Manager :](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Vidéos connexes :** 
+ [Les meilleurs conseils de AWS en matière d’intervention en cas d’incident](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Exemples connexes :** 
+ [AWS Ateliers – AWS Systems Manager Incident Manager – Automatiser les réponses aux événements de sécurité](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Hiérarchiser les événements opérationnels en fonction de leur impact sur l’activité
<a name="ops_event_response_prioritize_events"></a>

 Il est essentiel de réagir rapidement aux événements opérationnels, mais tous les événements ne sont pas identiques. Lorsque vous établissez des priorités en fonction de l’impact sur l’entreprise, vous donnez également la priorité aux événements susceptibles d’avoir des conséquences importantes. Ces événements peuvent être liés à la sécurité, à des pertes financières, à des violations de la réglementation ou à des atteintes à la réputation. 

 **Résultat escompté :** les réponses aux événements opérationnels sont classées par ordre de priorité en fonction de leur impact potentiel sur les opérations et les objectifs de l’entreprise. Des réponses efficientes et efficaces peuvent ainsi être mises en place. 

 **Anti-modèles courants :** 
+  Chaque événement est traité avec le même niveau d’urgence, ce qui entraîne de la confusion et des retards dans la résolution des problèmes critiques. 
+  Vous ne faites pas la distinction entre les événements à fort et à faible impact, ce qui entraîne une mauvaise allocation des ressources. 
+  Votre organisation ne dispose pas d’un cadre de priorisation clair, ce qui entraîne des réponses incohérentes aux événements opérationnels. 
+  Les événements sont priorisés en fonction de leur ordre de signalement, plutôt que de leur impact sur les résultats de l’entreprise. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Garantit que les fonctions critiques de l’entreprise sont traitées en premier lieu, minimisant ainsi les dommages potentiels. 
+  Améliore l’allocation des ressources lors de plusieurs événements simultanés. 
+  Améliore la capacité de l’organisation à préserver la confiance et à répondre aux exigences réglementaires. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Lorsque plusieurs événements opérationnels ont lieu simultanément, il est essentiel d’adopter une approche structurée de la priorisation en fonction de l’impact et de l’urgence. Cette approche vous permet de prendre des décisions éclairées, d’orienter les efforts vers les domaines où ils sont le plus nécessaires et d’atténuer les risques pour la continuité des activités. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Mesurer l’impact :** élaborez un système de classification pour évaluer la gravité des événements en fonction de leur impact potentiel sur les opérations et les objectifs de l’entreprise. L’exemple suivant illustre les différentes catégories d’impact :     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Mesurer l’urgence :** définissez les niveaux d’urgence correspondant à la rapidité de réponse requise pour un événement, en tenant compte de facteurs tels que la sécurité, les implications financières et les Contrats de niveau de service (SLA). L’exemple suivant illustre les catégories d’urgence :     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Créez une matrice de priorisation :** 
   +  Utilisez une matrice pour associer l’impact et l’urgence, en attribuant des niveaux de priorité à différentes combinaisons. 
   +  Rendez la matrice accessible et compréhensible par tous les membres de l’équipe responsables des réponses aux événements opérationnels. 
   +  L’exemple de matrice suivant affiche la gravité des incidents en fonction de leur urgence et de leur impact :     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Former et communiquer :** formez les équipes de réponse à la matrice de priorisation et à l’importance de la suivre lors d’un événement. Communiquez le processus de priorisation à toutes les parties prenantes afin de définir des attentes claires. 

1.  **Intégrez la matrice à la gestion des réponses aux incidents :** 
   +  Intégrez la matrice de priorisation à vos plans et outils de réponse aux incidents. 
   +  Automatisez la classification et la hiérarchisation des événements dans la mesure du possible afin d’accélérer les temps de réponse. 
   +  Les clients du support aux entreprises peuvent utiliser la [détection et la réponse aux incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), qui fournissent une surveillance proactive continue et une gestion des incidents pour les charges de travail de production. 

1.  **Examiner et adapter :** passez régulièrement en revue l’efficacité du processus de priorisation et apportez des ajustements en fonction des commentaires et de l’évolution de l’environnement métier. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS03-BP03 L'escalade est encouragée](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Mesure des objectifs opérationnels et des KPI à l’aide de métriques](ops_operations_health_measure_ops_goals_kpis.md) 

 **Documents connexes :** 
+ [ Atlassian – Understanding incident severity levels ](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [ IT Process Map - Checklist Incident Priority ](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Définir l’acheminement hiérarchique
<a name="ops_event_response_define_escalation_paths"></a>

Définissez des procédures de remontée claires dans vos protocoles de réponse aux incidents afin de faciliter une action rapide et efficace. Il s’agit entre autres de spécifier les invites à la remontée, de détailler le processus de remontée et d’approuver au préalable les actions visant à accélérer la prise de décision et à réduire le délai moyen de résolution (MTTR).

 **Résultat escompté :** un processus structuré et efficace qui transmet les incidents au personnel approprié, minimisant ainsi les temps de réponse et l’impact. 

 **Anti-modèles courants :** 
+ Le manque de clarté des procédures de récupération entraîne des interventions improvisées lors d’incidents critiques.
+ L’absence d’autorisations et de propriétaires définis entraîne des retards lorsqu’une action urgente est nécessaire.
+  Les parties prenantes et les clients ne sont pas informés conformément aux attentes. 
+  Les décisions importantes sont reportées. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réponse rationalisée aux incidents grâce à des procédures de remontée prédéfinies. 
+  Réduction des temps d’arrêt grâce à des actions préapprouvées et à la définition claire d’un propriétaire. 
+  Meilleure allocation des ressources et ajustements du niveau d’assistance en fonction de la gravité de l’incident. 
+  Meilleure communication avec les parties prenantes et les clients. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Il est crucial de définir correctement les procédures de remontée pour répondre rapidement aux incidents. AWS Systems Manager Incident Manager prend en charge la mise en place de plans de remontée structurés et de calendriers d’astreinte, qui alertent le personnel concerné afin qu’il soit prêt à intervenir en cas d’incident. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Configurer des invites d’escalade :** configurez des [alarmes CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) pour créer un incident dans [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  **Configurez des horaires d’astreinte :** créez des [horaires d’astreinte](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) dans Incident Manager qui correspondent à vos trajectoires d’escalade. Dotez le personnel d’astreinte des autorisations et des outils nécessaires afin de lui permettre d’agir rapidement. 

1.  **Détaillez les procédures de remontée :** 
   +  Déterminez les conditions spécifiques dans lesquelles un incident doit faire l’objet d’une remontée. 
   +  Créez des [plans d’escalade](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) dans Incident Manager. 
   +  Les canaux de remontée doivent inclure un contact ou un calendrier d’astreinte. 
   +  Définissez les rôles et les responsabilités de l’équipe à chaque niveau de la remontée. 

1.  **Approuver au préalable les mesures d’atténuation :** collaborez avec les décisionnaires pour approuver au préalable les actions associées aux scénarios prévus. Utilisez les [runbooks Systems Manager Automation](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) intégrés à Incident Manager pour accélérer la résolution des incidents. 

1.  **Préciser la propriété :** identifiez clairement les propriétaires internes pour chaque étape de la procédure de remontée. 

1.  **Détaillez les remontées par des tiers :** 
   +  Documentez les Contrats de niveau de service (SLA) tiers et alignez-les sur les objectifs internes. 
   +  Définissez des protocoles clairs pour la communication avec les fournisseurs lors d’incidents. 
   +  Intégrez les contacts des fournisseurs dans les outils de gestion des incidents pour un accès direct. 
   +  Effectuez régulièrement des exercices qui incluent des scénarios de réponse par des tiers. 
   +  Documentez les informations relatives à la remontée fournisseurs et veillez à ce qu’elles soient facilement accessibles. 

1.  **Former et répéter les plans d’escalade :** formez votre équipe à la procédure de remontée et organisez régulièrement des exercices de réponse aux incidents ou des journées de jeu. Les clients du support aux entreprises peuvent demander [l’atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) auprès de leur responsable de compte technique. 

1.  **Améliorer sans cesse :** vérifiez régulièrement l’efficacité de vos procédures de remontée. Mettez à jour vos procédures en fonction des leçons tirées des analyses post-mortem des incidents et des commentaires fournis en continu. 

 **Niveau d’effort du plan d’implémentation :** modéré 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Disposer d’un processus par alerte](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) 

 **Documents connexes :** 
+ [Plans de remontée AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [Utilisation des horaires d’astreinte dans Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [Création et gestion des Runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [Gestion des accès temporaires élevés avec AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [ Atlassian - Politiques d’escalade pour une gestion efficace des incidents](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Définissez un plan de communication avec les clients en cas d’interruption de service
<a name="ops_event_response_push_notify"></a>

 Il est essentiel de mettre en place une communication efficace lors d’événements ayant un impact sur le service afin de préserver la confiance des clients et la transparence dont vous faites preuve à leur égard. Un plan de communication bien défini permet à votre organisation de partager rapidement et clairement des informations, à la fois en interne et en externe, lors d’incidents. 

 **Résultat escompté :** 
+  Un plan de communication robuste qui informe efficacement les clients et les parties prenantes lors d’événements ayant un impact sur le service. 
+  Transparence dans la communication pour renforcer la confiance et réduire l’anxiété des clients. 
+  Minimiser l’impact des événements ayant un impact sur le service du point de vue de l’expérience client et des opérations métier. 

 **Anti-modèles courants :** 
+  Une communication inadéquate ou retardée entraîne de la confusion et de l’insatisfaction chez les clients. 
+  Les messages trop techniques ou trop vagues ne reflètent pas l’impact réel sur les utilisateurs. 
+  Il n’existe pas de stratégie de communication prédéfinie, ce qui entraîne des messages incohérents et réactifs. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Confiance et satisfaction accrues des clients grâce à une communication proactive et claire. 
+  Réduction de la charge de travail des équipes d’assistance en répondant de manière préventive aux préoccupations des clients. 
+  Amélioration de la capacité à gérer les incidents et à récupérer de manière efficace. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 La création d’un plan de communication complet pour les événements ayant un impact sur les services implique plusieurs facettes, du choix des canaux appropriés à l’élaboration du message et du ton adéquats. Le plan doit être adaptable, doté d’une capacité de mise à l’échelle et pouvoir répondre à différents scénarios de panne. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Définissez les rôles et les responsabilités :** 
   +  Désignez un responsable des incidents majeurs qui sera chargé de superviser les activités de réponse aux incidents. 
   +  Désignez un responsable des communications chargé de coordonner toutes les communications externes et internes. 
   +  Incluez le responsable de l’assistance afin d’établir une communication cohérente par le biais de tickets d’assistance. 

1.  **Identifier les canaux de communication :** sélectionnez des canaux tels que le chat sur le lieu de travail, les e-mails, les SMS, les réseaux sociaux, les notifications intégrées à l’application et les pages de statut. Ces canaux doivent être résilients et capables de fonctionner de manière indépendante lors d’événements ayant un impact sur le service. 

1.  **Communiquez rapidement, clairement et régulièrement avec les clients :** 
   +  Élaborez des modèles pour divers scénarios de détérioration des services, en mettant l’accent sur la simplicité et les détails essentiels. Incluez des informations sur la perturbation du service, le délai de résolution prévu et l’impact. 
   +  Amazon Pinpoint vous permet d’alerter les clients à l’aide de notifications push, de notifications in-app, d’e-mails, de messages texte, de messages vocaux et de messages sur des canaux personnalisés. 
   +  Amazon Simple Notiﬁcation Service (Amazon SNS) vous permet d’alerter les abonnés de manière programmée ou par courrier électronique, notifications mobiles push et messages textuels. 
   +  Communiquez votre statut par le biais de tableaux de bord en partageant un tableau de bord Amazon CloudWatch publiquement. 
   +  Encouragez l’engagement sur les réseaux sociaux : 
     +  Surveillez activement les réseaux sociaux pour comprendre le sentiment des clients. 
     +  Publiez sur les plateformes de réseaux sociaux pour les mises à jour publiques et un engagement communautaire. 
     +  Préparez des modèles pour une communication cohérente et claire sur les réseaux sociaux. 

1.  **Coordonnez la communication interne :** mettez en œuvre des protocoles internes à l’aide d’outils comme Amazon Q Developer dans les applications de chat pour la coordination et la communication de l’équipe. Les tableaux de bord CloudWatch vous permettent de communiquer le statut. 

1.  **Orchestrez la communication à l’aide d’outils et de services dédiés :** 
   +  Utilisez AWS Systems Manager Incident Manager avec Amazon Q Developer dans les applications de chat afin de configurer des canaux de chat dédiés pour une communication interne en temps réel et une coordination pendant les incidents. 
   +  Utilisez les dossiers d’exploitation AWS Systems Manager Incident Manager pour automatiser les notifications transmises aux clients via Amazon Pinpoint, Amazon SNS ou des outils tiers tels que les plateformes de réseaux sociaux lors d’incidents. 
   +  Intégrez des flux de travail d’approbation dans les dossiers d’exploitation pour, si nécessaire, examiner et autoriser toutes les communications externes avant leur envoi. 

1.  **Entraînez-vous et améliorez les processus :** 
   +  Organisez une formation sur l’utilisation des outils et des stratégies de communication. Donnez aux équipes les moyens de prendre des décisions rapidement en cas d’incident. 
   +  Testez le plan de communication lors d’exercices réguliers ou de journées de jeu. Utilisez ces tests pour affiner les messages et évaluer l’efficacité des canaux. 
   +  Mettez en œuvre des mécanismes de commentaires pour évaluer l’efficacité de la communication lors d’incidents. Faites évoluer continuellement le plan de communication en fonction des commentaires et de l’évolution des besoins. 

 **Niveau d’effort du plan d’implémentation :** élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS07-BP03 Utilisation de runbooks pour effectuer des procédures](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Communiquer l’état grâce aux tableaux de bord](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) 

 **Documents connexes :** 
+ [ Atlassian – Bonnes pratiques en matière de communication sur les incidents](https://www.atlassian.com/incident-management/incident-communication)
+ [ Atlassian – Comment rédiger une bonne mise à jour de statut](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [ PagerDuty – Guide des communications en cas d’incident](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Vidéos connexes :** 
+ [Atlassian – Créez votre propre plan de communication en cas d’incident : modèles d’incidents](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Exemples connexes :** 
+  [Tableau de bord AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Communiquer l’état grâce aux tableaux de bord
<a name="ops_event_response_dashboards"></a>

 Utilisez les tableaux de bord comme outil stratégique pour communiquer l’état opérationnel en temps réel et les métriques clés à différents publics, y compris aux équipes techniques internes, à la direction et aux clients. Ces tableaux de bord offrent une représentation visuelle centralisée de l’intégrité du système et des performances de l’entreprise, améliorant ainsi la transparence et l’efficacité de la prise de décision. 

 **Résultat escompté :** 
+  Vos tableaux de bord fournissent une vue complète des métriques système et métier pour les différentes parties prenantes. 
+  Les parties prenantes peuvent accéder de manière proactive aux informations opérationnelles, ce qui réduit la nécessité d’effectuer fréquemment des demandes de statut. 
+  La prise de décision en temps réel est améliorée pendant les opérations normales et les incidents. 

 **Anti-modèles courants :** 
+ Les ingénieurs participant à un appel de gestion des incidents ont besoin de mises à jour du statut pour être opérationnels.
+ Faire confiance à des rapports manuels pour la gestion, ce qui entraîne des retards et des inexactitudes potentielles.
+  Les équipes opérationnelles sont fréquemment interrompues pour des mises à jour de statut lors d’incidents. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Donne aux parties prenantes un accès immédiat aux informations critiques, favorisant ainsi la prise de décisions réfléchies. 
+  Réduit les inefficacités opérationnelles en minimisant les rapports manuels et en limitant la fréquence des demandes de statut. 
+  Améliore la transparence et la confiance grâce à une visibilité en temps réel des performances du système et des métriques métier. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Les tableaux de bord communiquent efficacement le statut de vos métriques système et métier, et peuvent être adaptés aux besoins des différents groupes d’audience. Des outils tels que les tableaux de bord Amazon CloudWatch et Amazon Quick vous permettent de créer des tableaux de bord interactifs en temps réel pour la surveillance du système et la veille économique. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Identifier les besoins des parties prenantes :** déterminez les besoins d’informations spécifiques des différents groupes d’audience, tels que les équipes techniques, la direction et les clients. 

1.  ** Choisissez les bons outils :** sélectionnez les outils appropriés, tels que les [tableaux de bord Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) pour la surveillance du système et [Amazon Quick](https://aws.amazon.com/quicksight/) pour la veille stratégique interactive. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) fournit une expérience prête à l’emploi dans le [Tableau de bord AWS Health](https://health.aws.amazon.com/health/home), ou vous pouvez utiliser les événements d’intégrité dans Amazon EventBridge ou via l’API AWS Health pour enrichir vos propres tableaux de bord. 

1.  **Concevez des tableaux de bord efficaces:** 
   +  Concevez des tableaux de bord pour présenter clairement les métriques et les KPI pertinents, en veillant à ce qu’ils soient compréhensibles et exploitables. 
   +  Intégrez des vues au niveau du système et de l’entreprise selon les besoins. 
   +  Incluez des tableaux de bord globaux (pour les vues d’ensemble) et détaillés (pour une analyse approfondie). 
   +  Intégrez des alarmes automatisées dans les tableaux de bord pour mettre en évidence les problèmes critiques. 
   +  Annotez les tableaux de bord avec des métriques, des seuils et des objectifs importants pour une visibilité immédiate. 

1.  **Intégrez les sources de données:** 
   +  [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) vous permet d’agréger et d’afficher les métriques de différents services AWS et [d’interroger les métriques provenant d’autres sources de données](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), afin de créer une vue unifiée de l’état de santé et des indicateurs commerciaux de votre système. 
   +  Utilisez des fonctionnalités telles que [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) pour interroger et visualiser les données des journaux provenant de différents services et applications. 
   +  Utilisez les événements AWS Health pour rester informé de l’état opérationnel et des problèmes opérationnels confirmés des services AWS via l’[API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) ou les [événements AWS Health sur Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Fournissez un accès en libre-service:** 
   +  Partagez des tableaux de bord CloudWatch avec les parties prenantes concernées pour accéder aux informations en libre-service à l’aide des [fonctionnalités de partage des tableaux de bord](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Assurez-vous que les tableaux de bord sont facilement accessibles et fournissent des informations actualisées en temps réel. 

1.  **Mettez à jour et affinez régulièrement:** 
   +  Mettez à jour et affinez continuellement les tableaux de bord pour les adapter à l’évolution des besoins de l’entreprise et aux commentaires des parties prenantes. 
   +  Passez régulièrement en revue les tableaux de bord afin qu’ils restent pertinents et efficaces pour transmettre les informations nécessaires. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS08-BP05 Création de tableaux de bord](ops_workload_observability_create_dashboards.md) 

 **Documents connexes:** 
+ [ Création de tableaux de bord pour une visibilité opérationnelle ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Utilisation des tableaux de bord Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Créer des tableaux de bord flexibles avec des variables de tableau de bord ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Partage de tableaux de bord CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Interrogation de métriques d’autres sources de données ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Ajout d’un widget personnalisé à un tableau de bord CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Exemples connexes:** 
+ [ Un atelier sur l’observabilité – Tableaux de bord ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatiser les réponses aux événements
<a name="ops_event_response_auto_event_response"></a>

 L’automatisation des réponses aux événements est essentielle pour une gestion opérationnelle rapide, cohérente et sans erreur. Créez des processus rationalisés et utilisez des outils pour gérer et répondre automatiquement aux événements, en minimisant les interventions manuelles et en améliorant l’efficacité opérationnelle. 

 **Résultat escompté :** 
+  Réduction des erreurs humaines et accélération des temps de résolution grâce à l’automatisation. 
+  Gestion cohérente et fiable des événements opérationnels. 
+  Amélioration de l’efficacité opérationnelle et de la fiabilité du système. 

 **Anti-modèles courants :** 
+ La gestion manuelle des événements entraîne des retards et des erreurs.
+ L’automatisation est négligée pour les tâches critiques et répétitives.
+  Les tâches manuelles répétitives entraînent une lassitude liée aux alertes et peuvent nuire à la détection de problèmes critiques. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réponses accélérées aux événements, réduisant ainsi les temps d’arrêt du système. 
+  Des opérations fiables avec une gestion automatisée et cohérente des événements. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Intégrez l’automatisation pour créer des flux de travail opérationnels efficaces et minimiser les interventions manuelles. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Identification des opportunités d’automatisation :** déterminez les tâches répétitives à automatiser, telles que la résolution des problèmes, l’enrichissement des tickets, la gestion des capacités, la mise à l’échelle, les déploiements et les tests. 

1.  **Identification des invites d’automatisation :** 
   +  Évaluez et définissez des conditions ou des métriques spécifiques qui déclenchent des réponses automatisées à l'aide des [actions CloudWatch d'alarme Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Utilisez [Amazon EventBridge](https://aws.amazon.com/eventbridge/) pour répondre aux événements liés aux AWS services, aux charges de travail personnalisées et aux applications SaaS. 
   +  Tenez compte des événements d'initiation tels que [des entrées de journal spécifiques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [des seuils de mesures de performance](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) ou [des changements d'état](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) des AWS ressources. 

1.  **Mise en œuvre d’une automatisation pilotée par les événements :** 
   +  Utilisez les runbooks AWS Systems Manager d'automatisation pour simplifier les tâches de maintenance, de déploiement et de correction. 
   +  [La création d'incidents dans Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) permet de collecter et d'ajouter automatiquement des informations sur les AWS ressources impliquées dans l'incident. 
   +  Surveillez les quotas de manière proactive à l’aide de [Quota Monitor pour AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Ajustez automatiquement la capacité avec [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) pour maintenir la disponibilité et les performances. 
   +  Automatisez les pipelines de développement avec [Amazon CodeCatalyst](https://codecatalyst.aws/explore). 
   +  Testez la fumée ou surveillez en permanence les terminaux à APIs [l'aide d'une surveillance synthétique](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). 

1.  **Atténuation des risques grâce à l’automatisation :** 
   +  Utilisez des [réponses de sécurité automatisées](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) pour gérer rapidement les risques. 
   +  Utilisez [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) pour réduire la dérive de configuration. 
   +  [Corrigez les ressources non conformes](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) avec. AWS Config Rules

 **Niveau d’effort du plan d’implémentation :** élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Disposer d’un processus par alerte](ops_event_response_process_per_alert.md) 

 **Documents connexes :** 
+  [Utilisation des runbooks d’automatisation Systems Manager avec Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Création d’incidents dans Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [AWS quotas de service](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Contrôle de l’utilisation des ressources et envoi de notifications lorsque les quotas sont atteints](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [Qu'est-ce qu'Amazon CodeCatalyst ?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Utilisation des CloudWatch alarmes Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Utilisation des actions CloudWatch d'alarme Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Corriger les ressources non conformes avec AWS Config Rules](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Création de métriques à partir d’événements du journal à l’aide de filtres](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [Gestionnaire d’états AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Vidéos connexes :** 
+ [Créez des runbooks d'automatisation avec AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [Comment automatiser les opérations informatiques sur AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM règles d'automatisation](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Démarrez rapidement votre projet logiciel avec les CodeCatalyst plans Amazon](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Exemples connexes :** 
+ [ CodeCatalyst Tutoriel Amazon : Création d'un projet avec le plan d'application Web moderne à trois niveaux](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [Un atelier sur l’observabilité](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [Réaction aux incidents à l’aide d’Incident Manager](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)