

# OPS 10  Comment gérer les événements relatifs à la charge de travail et aux opérations ?
<a name="w2aac19b5b9b9"></a>

 Préparez et validez des procédures de réponse aux événements afin de réduire leur effet disruptif sur votre charge de travail. 

**Topics**
+ [OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Disposer d'un processus par alerte](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Hiérarchiser les événements opérationnels en fonction de leur impact sur l'activité](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Définir l'acheminement hiérarchique](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Activer les notifications push](ops_event_response_push_notify.md)
+ [OPS10-BP06 Communiquer l'état grâce aux tableaux de bord](ops_event_response_dashboards.md)
+ [OPS10-BP07 Automatiser les réponses aux événements](ops_event_response_auto_event_response.md)

# OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes
<a name="ops_event_response_event_incident_problem_process"></a>

Votre entreprise dispose de processus pour gérer les événements, les incidents et les problèmes. *Événements* se produisent dans votre charge de travail, mais ne nécessitent pas d'intervention. *Les incidents* sont des événements qui nécessitent une intervention. *Les problèmes* sont des événements récurrents qui nécessitent une intervention ou ne peuvent pas être résolus. Vous avez besoin de processus pour réduire l'impact de ces événements sur votre entreprise et répondre de manière adaptée.

Lorsque des incidents et des problèmes se produisent dans votre charge de travail, vous avez besoin de processus pour les gérer. Comment communiquer le statut de l'événement aux parties prenantes ? Qui supervise l'intervention ? Quels sont les outils à utiliser pour réduire l'impact de ces événements ? Voici des exemples de questions auxquelles vous devez répondre pour renforcer votre processus de réponse. 

Les processus doivent être documentés dans un emplacement central et accessible à toute personne impliquée dans votre charge de travail. Si vous ne disposez pas d'un wiki central ou d'un magasin de documents, un référentiel de contrôle de version peut être utilisé. Vous devez garder ces plans à jour à mesure que vos processus évoluent. 

Les problèmes sont de parfaits candidats à l'automatisation. Ces événements empiètent sur votre temps passé à innover. Commencez par créer un processus reproductible pour réduire l'impact du problème. Avec le temps, concentrez-vous sur l'automatisation de la réduction ou de la résolution du problème sous-jacent. Cela permet de libérer du temps pour vous consacrer à l'amélioration de votre charge de travail. 

**Résultat souhaité :** Votre entreprise dispose d'un processus pour gérer les événements, les incidents et les problèmes. Ces processus sont documentés et stockés dans un emplacement central. Ils sont mis à jour à mesure que les processus évoluent. 

**Anti-modèles courants :** 
+  Un incident se produit pendant le week-end et l'ingénieur de garde ne sait pas quoi faire. 
+  Un client vous envoie un e-mail pour vous informer que l'application ne fonctionne plus. Vous redémarrez le serveur pour résoudre le problème. Cela arrive fréquemment. 
+  Un incident se produit et plusieurs équipes travaillent indépendamment pour essayer de le résoudre. 
+  Des déploiements se produisent dans votre charge de travail sans être enregistrés. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Vous disposez d'une piste d'audit des événements dans votre charge de travail. 
+  Votre temps de récupération après un incident diminue. 
+  Les membres de l'équipe peuvent résoudre des incidents et des problèmes de manière cohérente. 
+  L'effort est plus consolidé lorsqu'on enquête sur un incident. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Élevé 

## Directives d'implémentation
<a name="implementation-guidance"></a>

L'implémentation de cette bonne pratique signifie que vous suivez les événements de charge de travail. Vous disposez de processus pour gérer les incidents et les problèmes. Les processus sont documentés, partagés et mis à jour fréquemment. Les problèmes sont identifiés, hiérarchisés et résolus. 

 **Exemple client** 

Une partie du wiki interne d'AnyCompany Retail est consacrée au processus pour la gestion de l'événement, de l'incident et du problème. Tous les événements sont envoyés à [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html). Les problèmes sont identifiés en tant qu'OpsItems dans [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) et hiérarchisés pour être résolus, ce qui réduit la main d'œuvre indifférenciée. À mesure que les processus évoluent, ils sont mis à jour dans son wiki interne. L'entreprise utilise [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) pour gérer les incidents et coordonner les efforts de réduction de l'impact des événements. 

## Étapes d'implémentation
<a name="implementation-steps"></a>

1.  Événements 
   +  Suivez les événements qui se produisent dans votre charge de travail, même si aucune intervention humaine n'est requise. 
   +  Collaborez avec les parties prenantes de la charge de travail pour développer une liste des événements devant être suivis. Certains exemples sont des déploiements terminés ou des correctifs réussis. 
   +  Vous pouvez utiliser des services comme [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) ou [Amazon Simple Notification Service](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) pour générer des événements personnalisés pour le suivi. 

1.  Les incidents 
   +  Commencez par définir le plan de communication pour les incidents. Quelles parties prenantes doivent être informées ? Comment les tiendrez-vous informées ? Qui supervise les efforts de coordination ? Nous recommandons de mettre en place un canal de chat interne pour la communication et la coordination. 
   +  Définissez les chemins de remontée pour les équipes prenant en charge votre charge de travail, notamment si l'équipe n'a pas de système de rotation de garde. Selon votre niveau de prise en charge, vous pouvez également créer un ticket avec Support. 
   +  Créez un playbook pour enquêter sur l'incident. Il doit inclure le plan de communication et les étapes détaillées de l'enquête. Incluez la vérification du [Tableau de bord AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) dans votre enquête. 
   +  Documentez votre plan de réponse aux incidents. Communiquez le plan de gestion des incidents afin que les clients internes et externes comprennent les règles d'engagement et ce qu'on attend d'eux. Entraînez les membres de votre équipe à l'utiliser. 
   +  Les clients peuvent utiliser [Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) pour configurer et gérer leur plan de réponse aux incidents. 
   +  Les clients ayant un plan de support Business peuvent demander l' [atelier Gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) auprès de leur gestionnaire de compte technique. Cet atelier guidé teste votre plan de réponse aux incidents existant et vous aide à identifier les domaines à améliorer. 

1.  Problèmes 
   +  Les problèmes doivent être identifiés et suivis dans votre système ITSM. 
   +  Identifiez tous les problèmes connus et hiérarchisez-les par effort de résolution et impact sur la charge de travail.   
![\[Matrice de priorité d'action pour hiérarchiser les problèmes.\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/2022-03-31/framework/images/impact-effort-chart.png)
   +  Résolvez d'abord les problèmes ayant un impact élevé et un effort faible. Une fois ces problèmes résolus, passez à ceux ayant un impact faible et un effort faible. 
   +  Vous pouvez utiliser [Systems Manager OpsCenter](systems-manager/latest/userguide/OpsCenter.html) pour identifier ces problèmes, leur attacher des runbooks et les suivre. 

**Niveau d'effort du plan d'implémentation :** moyen. Vous avez besoin d'un processus et d'outils pour implémenter cette bonne pratique. Documentez vos processus et rendez-les accessibles à toute personne associée à la charge de travail. Mettez-les à jour fréquemment. Vous disposez d'un processus pour gérer les problèmes et les réduire ou les résoudre. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS07-BP03 Utiliser des runbooks pour effectuer des procédures](ops_ready_to_support_use_runbooks.md) : les problèmes connus ont besoin d'un runbook associé pour que les efforts de réduction de l'impact soient cohérents.
+  [OPS07-BP04 Utiliser des playbooks pour analyser les problèmes](ops_ready_to_support_use_playbooks.md) : les incidents doivent faire l'objet d'une enquête en utilisant des playbooks. 
+  [OPS11-BP02 Effectuer une analyse post-incident](ops_evolve_ops_perform_rca_process.md) : procédez toujours à une analyse à froid suite à une reprise après un incident. 

 **Documents connexes :** 
+  [Atlassian : gestion des incidents à l'âge du DevOps](https://www.atlassian.com/incident-management/devops) 
+  [Guide des réponses aux incidents de sécurité AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Gestion des incidents à l'âge du DevOps et de SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty : qu'est-ce que la gestion des incidents ?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vidéos connexes :** 
+  [AWS re:Invent 2020: Incident management in a distributed organization](https://www.youtube.com/watch?v=tyS1YDhMVos) 
+  [AWS re:Invent 2021 - Building next-gen applications with event-driven architectures](https://www.youtube.com/watch?v=U5GZNt0iMZY) 
+  [AWS Supports You \$1 Exploring the Incident Management Tabletop Exercise](https://www.youtube.com/watch?v=0m8sGDx-pRM) 
+  [AWS Systems Manager Incident Manager : ateliers virtuels AWS](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [AWS What's Next ft. Incident Manager \$1 Événements AWS](https://www.youtube.com/watch?v=uZL-z7cII3k) 

 **Exemples connexes :** 
+  [Atelier Outils de gestion et de gouvernance AWS : OpsCenter](https://mng.workshop.aws/ssm/capability_hands-on_labs/opscenter.html) 
+  [Services proactifs AWS : atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [Création d'une application gérée par les événements avec Amazon EventBridge](https://aws.amazon.com/blogs/compute/building-an-event-driven-application-with-amazon-eventbridge/) 
+  [Création d'architectures gérées par les événements sur AWS](https://catalog.us-east-1.prod.workshops.aws/workshops/63320e83-6abc-493d-83d8-f822584fb3cb/en-US/) 

 **Services associés :** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) 
+  [Tableau de bord AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS10-BP02 Disposer d'un processus par alerte
<a name="ops_event_response_process_per_alert"></a>

 Répondez de manière bien définie (un runbook ou un playbook), avec un responsable spécifiquement identifié, à tout événement pour lequel vous déclenchez une alerte. Cela permet de répondre efficacement et rapidement aux événements liés aux opérations et d'éviter que les événements donnant lieu à une action ne soient occultés par des notifications de moindre valeur. 

 **Anti-modèles courants :** 
+  Votre système de surveillance vous présente un flux de connexions approuvées et d'autres messages. Le volume des messages est si important que vous manquez des messages d'erreur réguliers qui nécessitent votre intervention. 
+  Vous recevez une alerte indiquant que le site Web est en panne. Il n'existe aucun processus défini lorsque cela se produit. Vous êtes contraint d'adopter une approche ponctuelle pour diagnostiquer et résoudre le problème. Le développement de ce processus au fur et à mesure allonge le délai de reprise. 

 **Avantages liés au respect de cette bonne pratique :** En n'envoyant une alerte que lorsqu'une action est nécessaire, vous évitez que des alertes de faible importance ne dissimulent des alertes plus importantes. En ayant un processus en place pour toutes les alertes nécessitant une action, vous permettez une réponse cohérente et rapide aux événements dans votre environnement. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Débit 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Processus par alerte : tout événement pour lequel vous déclenchez une alerte doit avoir une réponse bien définie (un runbook ou un playbook) avec un responsable spécifiquement identifié (par exemple, une personne, une équipe ou un rôle), garant du bon déroulement du processus. L’intervention peut être automatisée ou effectuée par une autre équipe, mais le responsable doit veiller à ce que le processus transmette les résultats attendus. En disposant de ces processus, vous garantissez des réponses efficaces et rapides aux événements opérationnels et vous pouvez empêcher que les événements concrets soient masqués par des notifications moins importantes. Par exemple, la mise à l'échelle automatique pourrait être appliquée pour mettre à l'échelle un front-end Web, mais l'équipe des opérations pourrait être responsable de s'assurer que les règles et les limites de mise à l'échelle automatique sont appropriées aux besoins de la charge de travail. 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+  [Fonctionnalités d'Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Qu'est-ce que Amazon CloudWatch Events ?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Vidéos connexes :** 
+  [Élaborer un plan de surveillance](https://www.youtube.com/watch?v=OMmiGETJpfU) 

# OPS10-BP03 Hiérarchiser les événements opérationnels en fonction de leur impact sur l'activité
<a name="ops_event_response_prioritize_events"></a>

 Assurez-vous que, lorsque plusieurs événements nécessitent une intervention, les plus importants pour l’activité sont traités en premier. Les impacts peuvent inclure la mort ou une blessure, une perte financière ou l'atteinte à la réputation ou à la confiance. 

 **Anti-modèles courants :** 
+  Vous recevez une demande de support pour ajouter une configuration d'imprimante pour un utilisateur. Alors que vous travaillez sur le problème, vous recevez une demande de support indiquant que votre site de vente au détail est en panne. Après avoir terminé la configuration de l'imprimante pour votre utilisateur, vous commencez à travailler sur le problème du site Web. 
+  Vous êtes averti que votre site Web de vente au détail et votre système de paie sont en panne. Vous ne savez pas auquel des deux vous devez accorder la priorité. 

 **Avantages liés au respect de cette bonne pratique :** La priorisation des réponses aux incidents ayant le plus grand impact sur l'entreprise vous permet de gérer cet impact. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Moyenne entreprise 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Hiérarchiser les événements opérationnels en fonction de leur impact sur l'activité : établissez la priorité des événements en fonction de l'impact métier pour vous assurer que, lorsque plusieurs événements nécessitent une intervention, les plus importants pour l'activité sont traités en premier. Les impacts peuvent inclure un décès ou une blessure, des pertes financières, des violations réglementaires ou une atteinte à la réputation ou à la confiance. 

# OPS10-BP04 Définir l'acheminement hiérarchique
<a name="ops_event_response_define_escalation_paths"></a>

 Définissez l'acheminement hiérarchique dans vos runbooks et playbooks, y compris ce qui le déclenche et les procédures qui le régissent. Identifiez spécifiquement les propriétaires de chaque action afin de garantir des réponses efficaces et rapides aux événements liés aux opérations. 

 Déterminez quand une décision humaine est nécessaire avant d'effectuer une action. Collaborez avec les décideurs pour que cette décision soit prise à l'avance et que l'action soit préapprouvée, afin que le temps moyen de résolution ne soit pas étendu. 

 **Anti-modèles courants :** 
+  Votre site de vente au détail est en panne. Vous ne comprenez pas le runbook pour restaurer le site. Vous commencez à appeler vos collègues en espérant que quelqu'un sera en mesure de vous aider. 
+  Vous recevez une demande de support pour une application inaccessible. Vous n'êtes pas autorisé à administrer le système. Vous ne savez pas qui le fait. Vous essayez de contacter le propriétaire du système qui a ouvert le dossier et il ne répond pas. Vous n'avez aucun contact pour le système et vos collègues ne le connaissent pas. 

 **Avantages liés au respect de cette bonne pratique :** En définissant des remontées, des déclencheurs de remontée et des procédures de remontée, vous permettez l'ajout systématique de ressources à un incident à un rythme adapté à l'impact. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Moyenne entreprise 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Définir l'acheminement hiérarchique : définissez des chemins hiérarchiques dans vos runbooks et playbooks, y compris ce qui les déclenche et les procédures qui régissent cet acheminement. Par exemple, l'acheminement hiérarchique d'un problème des ingénieurs support aux ingénieurs support seniors lorsque les runbooks ne peuvent pas résoudre le problème, ou lorsqu'un laps de temps prédéfini s'est écoulé. Un autre exemple d'acheminement hiérarchique approprié est l'acheminement des ingénieurs support seniors à l'équipe de développement pour une charge de travail lorsque les playbooks ne sont pas en mesure d'identifier une méthode de correction, ou lorsqu'un laps de temps prédéfini s'est écoulé. Identifiez spécifiquement les propriétaires de chaque action afin de garantir des réponses efficaces et rapides aux événements liés aux opérations. Les acheminements hiérarchiques peuvent inclure des tiers. Par exemple, un fournisseur de connectivité réseau ou un fournisseur de logiciels. Les acheminements hiérarchiques peuvent inclure des décideurs autorisés identifiés pour les systèmes impactés. 

# OPS10-BP05 Activer les notifications push
<a name="ops_event_response_push_notify"></a>

 Communiquez directement avec vos utilisateurs (par exemple, par courrier électronique ou par SMS) lorsque les services qu'ils utilisent sont impactés, et de nouveau lorsque les services refonctionnent normalement, pour permettre aux utilisateurs de prendre les mesures appropriées. 

 **Anti-modèles courants :** 
+  Votre application est attaquée par un déni de service distribué et ne répond plus depuis plusieurs jours. Il n'existe aucun message d'erreur. Vous n'avez pas envoyé d'e-mail de notification. Vous n'avez pas envoyé de notifications par SMS. Vous n'avez pas partagé d'informations sur les réseaux sociaux. Vos clients sont frustrés et recherchent d'autres fournisseurs capables de les aider. 
+  Lundi, votre application a connu des problèmes suite à un correctif et a été interrompue pendant quelques heures. Mardi, votre application a connu des problèmes suite à un déploiement de code et n'a pas été fiable pendant quelques heures. Mercredi, votre application a connu des problèmes suite à un déploiement de code visant à atténuer une faille de sécurité associée au correctif défaillant et a été indisponible pendant quelques heures. Jeudi, vos clients frustrés ont commencé à chercher un autre fournisseur qui pourrait les aider. 
+  Votre application va être arrêtée pour une raison de maintenance ce week-end. Vous n'en informez pas vos clients. Certains de vos clients avaient planifié des activités impliquant l'utilisation de votre application. Ils sont très frustrés lorsqu'ils découvrent que votre application n'est pas disponible. 

 **Avantages liés au respect de cette bonne pratique :** En définissant des notifications, des déclencheurs de notification et des procédures de notification, vous permettez à votre client d'être informé et de réagir lorsque des problèmes liés à votre charge de travail l’impactent. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Moyenne entreprise 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Activer les notifications push : communiquez directement avec vos utilisateurs (par exemple, par e-mail ou SMS) lorsque les services qu'ils utilisent sont impactés, et lorsque les services reviennent à la normale, pour permettre aux utilisateurs de prendre des mesures appropriées. 
  +  [Fonctionnalités d'Amazon SES](https://aws.amazon.com/ses/details/) 
  +  [Qu'est-ce que Amazon SES ?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 
  +  [Configurer des notifications Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+  [Fonctionnalités d'Amazon SES](https://aws.amazon.com/ses/details/) 
+  [Configurer des notifications Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 
+  [Qu'est-ce que Amazon SES ?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 

# OPS10-BP06 Communiquer l'état grâce aux tableaux de bord
<a name="ops_event_response_dashboards"></a>

 Fournissez des tableaux de bord adaptés à leurs publics cibles (par exemple, équipes techniques internes, dirigeants et clients) pour communiquer l'état de fonctionnement actuel de l'entreprise et fournir des métriques d'intérêt. 

 Vous pouvez créer des [tableaux de bord Amazon CloudWatch](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) sur les pages d'accueil personnalisables de la console CloudWatch. Grâce aux services d'informatique décisionnelle tels que [Quick](https://aws.amazon.com/quicksight/) vous pouvez créer et publier des tableaux de bord interactifs de votre charge de travail et de votre état opérationnel (par exemple, les taux de commande, les utilisateurs connectés et les heures de transaction). Créez des tableaux de bord qui présentent des affichages de vos métriques au niveau du système et de l'entreprise. 

 **Anti-modèles courants :** 
+  Sur demande, vous exécutez un rapport sur l'utilisation actuelle de votre application pour la gestion. 
+  Lors d'un incident, vous êtes contacté toutes les 20 minutes par un propriétaire de système concerné qui souhaite savoir si le problème est résolu. 

 **Avantages liés au respect de cette bonne pratique :** En créant des tableaux de bord, vous autorisez un accès en libre-service aux informations permettant à vos clients de s'informer et de déterminer s'ils doivent prendre des mesures. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Moyenne entreprise 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Communiquer l'état grâce aux tableaux de bord : créez des tableaux de bord adaptés à leurs groupes cibles (par exemple, les équipes techniques internes, la direction et les clients) pour communiquer l'état d'exploitation actuel de l'entreprise et pour fournir des indicateurs d'intérêt. Fournir une option en libre-service pour les informations d'état réduit l'impact disruptif lié aux demandes d'état de la part de l'équipe opérationnelle. Citons, par exemple, les tableaux de bord Amazon CloudWatch et Tableau de bord AWS Health. 
  +  [Les tableaux de bord CloudWatch créent et utilisent des vues de métriques personnalisées](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [Les tableaux de bord CloudWatch créent et utilisent des vues de métriques personnalisées](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

# OPS10-BP07 Automatiser les réponses aux événements
<a name="ops_event_response_auto_event_response"></a>

 Automatisez les réponses aux événements pour réduire les erreurs causées par les processus manuels, et pour garantir des réponses rapides et cohérentes. 

 Il existe plusieurs façons d'automatiser les actions de runbooks et de playbooks sur AWS. Pour répondre à un événement à partir d'un changement d'état dans vos ressources AWS, ou à partir de vos propres événements personnalisés, vous devez créer [des règles CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) afin de déclencher des réponses via les cibles CloudWatch (par exemple, les fonctionsLambda, les rubriques Amazon Simple Notification Service (Amazon SNS), les tâches Amazon ECS et AWS Systems Manager Automation). 

 Pour répondre à une métrique qui dépasse un seuil pour une ressource (par exemple, le temps d'attente), vous devez créer [des alarmes CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) pour effectuer une ou plusieurs actions à l'aide des actions Amazon EC2, des actions Auto Scaling, ou pour envoyer une notification à une rubrique Amazon SNS. Si vous avez besoin d'effectuer des actions personnalisées en réponse à une alarme, appelez Lambda par le biais d'une notification Amazon SNS. Utilisez Amazon SNS pour publier des notifications d'événements et des messages de remontée pour que les personnes restent informées. 

 AWS prend également en charge les systèmes tiers via les API et les kits SDK de service AWS. Il existe divers outils fournis par les partenaires AWS et des tiers qui permettent la surveillance, les notifications et les réponses. Ces outils incluent notamment New Relic, Splunk, Loggly, SumoLogic et Datadog. 

 Vous devriez maintenir à disposition des procédures manuelles critiques pouvant être utilisées lorsque les procédures automatisées échouent. 

 **Anti-modèles courants :** 
+  Un développeur vérifie son code. Cet événement aurait pu être utilisé pour démarrer une génération, puis effectuer des tests, mais rien ne se passe. 
+  Votre application consigne une erreur spécifique avant de cesser de fonctionner. La procédure de redémarrage de l'application est bien comprise et peut être scriptée. Vous pouvez utiliser l'événement de journal pour appeler un script et redémarrer l'application. Au lieu de cela, lorsque l'erreur se produit à 3 h le dimanche matin, vous êtes réveillé en tant que ressource de garde chargée de résoudre le système. 

 **Avantages liés au respect de cette bonne pratique :** En utilisant des réponses automatisées aux événements, vous réduisez le temps de réponse et limitez l'introduction d'erreurs provenant d'activités manuelles. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Faible 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Automatiser les réponses aux événements : automatisez les réponses aux événements pour réduire les erreurs causées par les processus manuels, et pour garantir des réponses rapides et cohérentes. 
  +  [Qu'est-ce que Amazon CloudWatch Events ?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Création d'une règle CloudWatch Events qui se déclenche sur un événement](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
  +  [Création d'une règle CloudWatch Events qui se déclenche sur un appel d'API AWS avec AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
  +  [Exemples d'événements CloudWatch Events tirés des services pris en charge](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+  [Fonctionnalités d'Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Exemples d'événements CloudWatch Events tirés des services pris en charge](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 
+  [Création d'une règle CloudWatch Events qui se déclenche sur un appel d'API AWS avec AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
+  [Création d'une règle CloudWatch Events qui se déclenche sur un événement](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
+  [Qu'est-ce que Amazon CloudWatch Events ?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Vidéos connexes :** 
+  [Élaborer un plan de surveillance](https://www.youtube.com/watch?v=OMmiGETJpfU) 

 **Exemples connexes :** 