

# OPS 7  Comment savoir si vous êtes prêt à gérer une charge de travail ?
<a name="w2aac19b5b7c11"></a>

 Évaluez la disponibilité opérationnelle de votre charge de travail, des processus et des procédures, ainsi que le personnel pour comprendre les risques opérationnels liés à votre charge de travail. 

**Topics**
+ [OPS07-BP01 Garantir les compétences du personnel](ops_ready_to_support_personnel_capability.md)
+ [OPS07-BP02 Assurer un examen cohérent de l'état de préparation opérationnelle](ops_ready_to_support_const_orr.md)
+ [OPS07-BP03 Utiliser des runbooks pour effectuer des procédures](ops_ready_to_support_use_runbooks.md)
+ [OPS07-BP04 Utiliser des playbooks pour analyser les problèmes](ops_ready_to_support_use_playbooks.md)
+ [OPS07-BP05 Prendre des décisions avisées pour déployer des systèmes et des modifications](ops_ready_to_support_informed_deploy_decisions.md)

# OPS07-BP01 Garantir les compétences du personnel
<a name="ops_ready_to_support_personnel_capability"></a>

 Mettez en place un mécanisme permettant de vérifier que vous disposez du personnel formé pour répondre aux besoins opérationnels. Formez le personnel et ajustez ses compétences pour maintenir un support efficace. 

 Vous devez disposer de suffisamment de membres d'équipe pour couvrir toutes les activités (y compris des employés d'astreinte). Assurez-vous que vos équipes disposent des compétences nécessaires pour valider les formations relatives à votre charge de travail, vos outils d'exploitation et AWS. 

 AWS fournit des ressources, y compris le [Centre de ressources de démarrage AWS](https://aws.amazon.com/getting-started/), [les blogs AWS](https://aws.amazon.com/blogs/), [les conférences techniques en ligne AWS](https://aws.amazon.com/getting-started/), [les événements et webinaires AWS](https://aws.amazon.com/events/)et les [Ateliers AWS Well-Architected](https://wellarchitectedlabs.com/)AWS, qui fournissent des conseils, des exemples et des démonstrations détaillées pour former vos équipes. En outre, [AWS Training and Certification](https://aws.amazon.com/training/) offre une formation gratuite par le biais de cours en ligne d'auto-formation sur les principes fondamentaux d'AWS. Vous pouvez également vous inscrire à une formation dirigée par un formateur afin de soutenir le développement des compétences AWS de vos équipes. 

 **Anti-modèles courants :** 
+  Déploiement d’une charge de travail sans que les membres de l'équipe soient qualifiés pour prendre la plate-forme et les services utilisés. 
+  Déploiement d'une charge de travail sans membres de l'équipe disponibles pendant les heures de support prévues. 
+  Déploiement d'une charge de travail sans suffisamment de membres de l'équipe pour la prendre en charge si des membres de l'équipe sont en congés ou en arrête maladie. 
+  Déploiement de charges de travail supplémentaires sans vérifier l'impact additionnel sur les membres de l'équipe qui prend en charge la charge de travail et d’autres charges de travail. 

 **Avantages liés au respect de cette bonne pratique :** Le fait de disposer de membres d'équipe compétents vous permet de prendre efficacement en charge votre charge de travail. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Débit 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Compétences du personnel : assurez-vous qu'il y ait suffisamment de personnel qualifié pour assumer efficacement la charge de travail. 
  +  Taille de l'équipe : veillez à disposer de suffisamment de personnel pour couvrir les activités opérationnelles, y compris des employés d'astreinte. 
  +  Compétence de l'équipe : assurez-vous que les membres de votre équipe soient suffisamment formés sur AWS, votre charge de travail et les outils utilisés pour vos opérations afin de mener à bien leurs tâches. 
    +  [Événements et webinaires AWS](https://aws.amazon.com/about-aws/events/) 
    +  [Bienvenue sur AWS Training and Certification](https://aws.amazon.com/training/) 
  +  Vérifier les capacités : vérifiez la taille de l'équipe et ses compétences au fur et à mesure que les conditions d'utilisation et les charges de travail évoluent, afin de maintenir l'excellence opérationnelle. Effectuez des ajustements pour veiller à ce que la taille de l'équipe et ses compétences satisfassent aux exigences opérationnelles pour les charges de travail gérées par l'équipe. 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+  [les blogs AWS](https://aws.amazon.com/blogs/) 
+  [Événements et webinaires AWS](https://aws.amazon.com/about-aws/events/) 
+  [Centre de ressources de démarrage AWS](https://aws.amazon.com/getting-started/) 
+  [les conférences techniques en ligne AWS](https://aws.amazon.com/getting-started/) 
+  [Bienvenue sur AWS Training and Certification](https://aws.amazon.com/training/) 

 **Exemples connexes :** 
+  [Well-Architected Labs](https://wellarchitectedlabs.com/) 

# OPS07-BP02 Assurer un examen cohérent de l'état de préparation opérationnelle
<a name="ops_ready_to_support_const_orr"></a>

Utilisez les examens de disponibilité opérationnelle (ORR) afin de vous assurer que vous pouvez gérer votre charge de travail. L'ORR est un mécanisme élaboré par Amazon afin de s'assurer que les équipes peuvent exécuter leurs charges de travail en toute sécurité. Un ORR est un processus d'examen et d'inspection qui utilise une liste de contrôle des exigences. Un ORR est une expérience en libre-service que les équipes utilisent pour certifier leurs charges de travail. Les ORR comprennent les bonnes pratiques tirées des enseignements liés aux années que nous avons consacrées à la création de logiciels. 

 La liste de contrôle d'un ORR est composée de recommandations architecturales, de processus opérationnels, de gestion d'événements et de qualité de version. Notre processus de correction des erreurs (CoE) est l'un des principaux moteurs de ces éléments. Votre propre analyse post-incident doit orienter l'évolution de votre propre ORR. Un ORR consiste non seulement à suivre les bonnes pratiques, mais permet également d'éviter la répétition d'événements que vous avez déjà vus. Enfin, les exigences en matière de sécurité, de gouvernance et de conformité peuvent également être incluses dans un ORR. 

 Exécutez les ORR avant qu'une charge de travail ne soit généralement disponible, puis tout au long du cycle de développement du logiciel. L'exécution d'un ORR avant le lancement augmente votre capacité de gestion de la charge de travail en toute sécurité. Réexécutez régulièrement votre ORR sur la charge de travail afin de détecter toute dérive par rapport aux bonnes pratiques. Vous pouvez avoir des listes de contrôle des ORR pour les lancements de nouveaux services et des ORR pour les examens périodiques. Cela vous permet de vous tenir au courant des nouvelles bonnes pratiques et d'intégrer les leçons tirées de l'analyse après incident. Au fur et à mesure que votre utilisation du cloud évolue, vous pouvez intégrer les exigences des ORR dans votre architecture par défaut. 

 **Résultat souhaité :**  vous avez une liste de contrôle de l'ORR avec les bonnes pratiques pour votre organisation. Les ORR sont effectuées avant le lancement des charges de travail. Les ORR sont exécutés périodiquement tout au long du cycle de vie de la charge de travail. 

 **Anti-modèles courants :** 
+ Vous lancez une charge de travail sans savoir si vous pouvez l'utiliser. 
+ Les exigences en matière de gouvernance et de sécurité ne sont pas incluses dans la certification d'une charge de travail pour le lancement. 
+ Les charges de travail ne sont pas réévaluées périodiquement. 
+ Les charges de travail sont lancées sans procédures requises en place. 
+ Vous voyez la répétition de la même cause racine de défaillances dans plusieurs charges de travail. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Vos charges de travail comprennent les bonnes pratiques en matière d'architecture, de processus et de gestion. 
+  Les enseignements tirés sont intégrés à votre processus d'ORR. 
+  Les procédures requises sont en place lors du lancement des charges de travail. 
+  Les ORR sont exécutés tout au long du cycle de vie logiciel de vos charges de travail. 

 **Niveau d'exposition au risque si cette bonne pratique n'est pas respectée :** élevé 

## Directives d'implémentation
<a name="implementation-guidance"></a>

 Un ORR est composé de deux éléments : un processus et une liste de contrôle. Votre processus d'ORR doit être adopté par votre organisation et soutenu par un responsable exécutif. Au minimum, les ORR doivent être effectués avant qu'une charge de travail ne soit généralement disponible. Exécutez l'ORR tout au long du cycle de développement du logiciel afin de l'actualiser avec les bonnes pratiques ou les nouvelles exigences. La liste de contrôle d'un ORR doit comprendre les éléments de configuration, les exigences en matière de sécurité et de gouvernance et les bonnes pratiques de votre organisation. Au fil du temps, vous pouvez utiliser des services tels qu' [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html), [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html)et [les barrières de protection AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html)afin d'intégrer les bonnes pratiques de l'ORR aux barrières de protection pour la détection automatique des bonnes pratiques. 

 **Exemple client** 

 Après plusieurs incidents de production, AnyCompany Retail a décidé de mettre en place un processus d'ORR. L'entreprise a élaboré une liste de contrôle composée de bonnes pratiques, d'exigences en matière de gouvernance et de conformité et d'enseignements tirés des pannes. De nouvelles charges de travail effectuent des ORR avant leur lancement. Chaque charge de travail effectue un ORR annuel avec un sous-ensemble de bonnes pratiques pour intégrer de nouvelles bonnes pratiques et des exigences qui sont ajoutées à la liste de contrôle de l'ORR. Au fil du temps, AnyCompany Retail a utilisé [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) afin de détecter certaines bonnes pratiques, en accélérant le processus d'ORR. 

 **Étapes d'implémentation** 

 Pour en savoir plus sur les ORR, lisez le livre blanc [Operational Readiness Reviews (ORR)](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html). Il fournit des informations détaillées sur l'historique du processus d'ORR, sur la façon d'établir votre propre pratique d'ORR et sur la façon d'élaborer votre liste de contrôle pour les ORR. Les étapes suivantes sont une version abrégée de ce document. Pour une compréhension approfondie des ORR et de la façon dont vous pouvez créer les vôtres, nous vous recommandons de lire ce livre blanc. 

1. Réunissez les parties prenantes clés, notamment les représentants de la sécurité, des opérations et du développement. 

1. Demandez à chaque partie prenante de fournir au moins une exigence. Pour la première itération, essayez de limiter le nombre d'éléments à trente ou moins. 
   +  [L'Annexe A, Example ORR questions,](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/appendix-b-example-orr-questions.html) du livre blanc Operational Readiness Reviews (ORR) contient des exemples de questions que vous pouvez utiliser pour démarrer. 

1. Regroupez vos exigences dans une feuille de calcul. 
   + Vous pouvez utiliser [des approches personnalisées](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) dans l' [AWS Well-Architected Tool](https://console.aws.amazon.com/wellarchiected/) afin de développer votre ORR et de le partager avec vos comptes et votre AWS Organization. 

1. Identifiez une charge de travail pour effectuer l'ORR. Il est recommandé d'utiliser une charge de travail avant le lancement ou une charge de travail interne. 

1. Parcourez la liste de contrôle de l'ORR et notez toutes vos découvertes. Les découvertes peuvent ne pas être acceptables si une mesure d'atténuation est en place. Pour toute découverte qui ne comporte pas de mesures d'atténuation, ajoutez ces dernières à votre liste de tâches en attente et implémentez-les avant le lancement. 

1. Continuez d'ajouter des bonnes pratiques et des exigences à votre liste de contrôle de l'ORR au fil du temps. 

 Les clients Support disposant d'un Enterprise Support peuvent demander [l'atelier Operational Readiness Review Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) à leur gestionnaire de compte technique. Cet atelier est une session *de travail à rebours* permettant de développer votre propre liste de contrôle pour un ORR. 

 **Niveau d'effort du plan d'implémentation :** élevé L'adoption d'une pratique d'ORR dans votre organisation nécessite un parrainage de la haute direction et l'adhésion des parties prenantes. Créez et mettez à jour la liste de contrôle à l'aide des commentaires de l'ensemble de votre organisation. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+ [OPS01-BP03 Évaluer les exigences de gouvernance](ops_priorities_governance_reqs.md) – Les exigences en matière de gouvernance conviennent naturellement à la liste de contrôle d'un ORR. 
+ [OPS01-BP04 Évaluer les exigences de conformité](ops_priorities_compliance_reqs.md) – Les exigences de conformité sont parfois incluses dans la liste de contrôle d'un ORR. Parfois, il s'agit d'un processus distinct. 
+ [OPS03-BP07 Fournir aux équipes les ressources appropriées](ops_org_culture_team_res_appro.md) – La capacité de l'équipe peut faire partie des exigences d'un ORR. 
+ [OPS06-BP01 Planifier les modifications infructueuses](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) – Un plan de restauration ou de retour en arrière doit être établi avant le lancement de votre charge de travail. 
+ [OPS07-BP01 Garantir les compétences du personnel](ops_ready_to_support_personnel_capability.md) – Pour gérer une charge de travail, vous devez disposer du personnel requis. 
+ [SEC01-BP03 Identifier et valider les objectifs de contrôle](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_control_objectives.html) – Les objectifs de contrôle de sécurité constituent d'excellentes exigences d'ORR. 
+ [REL13-BP01 Définir les objectifs de reprise pour les temps d'arrêt et les pertes de données](https://docs.aws.amazon.com/wellarchitected/latest/framework/rel_planning_for_recovery_objective_defined_recovery.html) – Les plans de reprise après sinistre constituent une exigence appropriée dans le cadre d'un ORR. 
+ [COST02-BP01 Développer des stratégies en fonction des exigences de votre organisation](https://docs.aws.amazon.com/wellarchitected/latest/framework/cost_govern_usage_policies.html) – Il est recommandé d'inclure les politiques de gestion des coûts dans la liste de contrôle d'un ORR. 

 **Documents connexes :** 
+  [AWS Control Tower - Guardrails in AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html) 
+  [AWS Well-Architected Tool - Custom Lenses](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [Operational Readiness Review Template par Adrian Hornsby](https://medium.com/the-cloud-architect/operational-readiness-review-template-e23a4bfd8d79) 
+  [Livre blanc Operational Readiness Reviews (ORR)](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html) 

 **Vidéos connexes :** 
+  [AWS Supports You \$1 Building an Effective Operational Readiness Review (ORR)](https://www.youtube.com/watch?v=Keo6zWMQqS8) 

 **Exemples connexes :** 
+  [Sample Operational Readiness Review (ORR) Lens](https://github.com/aws-samples/custom-lens-wa-sample/tree/main/ORR-Lens) 

 **Services associés :** 
+  [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) 
+  [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) 
+  [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html) 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS07-BP03 Utiliser des runbooks pour effectuer des procédures
<a name="ops_ready_to_support_use_runbooks"></a>

 A *runbook* est un processus documenté pour atteindre un résultat spécifique. Les runbooks consistent en une série d'étapes permettant à la personne qui les suit d'obtenir des résultats concrets. L'utilisation des runbooks dans les opérations remonte aux débuts de l'aviation. Dans les opérations de cloud, nous utilisons des runbooks pour réduire les risques et obtenir les résultats souhaités. Dans sa forme la plus simple, un runbook est une liste de contrôle pour exécuter une tâche. 

 Les runbooks représentent une part essentielle du fonctionnement de votre charge de travail. De l'intégration d'un nouveau membre de l'équipe au déploiement d'une version majeure, les runbooks sont des processus codifiés qui fournissent des résultats cohérents quelle que soit la personne qui les utilise. Les runbooks doivent être publiés dans un emplacement central et mis à jour à mesure que le processus évolue, car la mise à jour des runbooks est un composant essentiel du processus de gestion des changements. Ils doivent également inclure des conseils sur la gestion des erreurs, les outils, les autorisations, les exceptions et les remontées en cas de problème. 

 À mesure que votre entreprise évolue, commencez à automatiser les runbooks. Prenez tout d'abord les runbooks courts et fréquemment utilisés. Utilisez des langages de scripts pour automatiser les étapes ou les rendre plus faciles. À mesure que vous automatiserez les premiers runbooks, vous consacrerez du temps à l'automatisation de runbooks plus complexes. Au fil du temps, la plupart de vos runbooks seront automatisés d'une certaine façon. 

 **Résultat souhaité :** Votre équipe dispose de plusieurs guides détaillés pour exécuter des tâches de charge de travail. Les runbooks contiennent le résultat souhaité, les outils et autorisations nécessaires, ainsi que les instructions pour gérer les erreurs. Ils sont stockés dans un emplacement central et mis à jour fréquemment. 

 **Anti-modèles courants :** 
+  Utilisation de la mémoire pour exécuter chaque étape d'un processus. 
+  Déploiement manuel des changements sans liste de contrôle. 
+  Différents membres de l'équipe exécutant le même processus, mais avec des étapes ou résultats différents. 
+  Désynchronisation des runbooks avec les changements du système et l'automatisation. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réduction du taux d'erreur pour les tâches manuelles. 
+  Exécution cohérente des opérations. 
+  Exécution des tâches plus tôt par les nouveaux membres de l'équipe. 
+  Automatisation des runbooks pour diminuer la quantité de travail. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Moyen 

## Directives d'implémentation
<a name="implementation-guidance"></a>

 Les runbooks peuvent prendre plusieurs formes selon le niveau de maturité de votre entreprise. Au minimum, ils doivent consister en un document texte détaillé. Le résultat souhaité doit être clairement indiqué. Ils documentent explicitement les autorisations spéciales ou outils nécessaires. Ils fournissent des conseils sur la gestion des erreurs et les remontées en cas de problème. Recherchez le propriétaire du runbook et publiez-le dans un emplacement central. Une fois votre runbook documenté, validez-le en demandant à un membre de votre équipe de l'exécuter. À mesure que les procédures évoluent, mettez à jour vos runbooks conformément à votre processus de gestion des changements. 

 Vos runbooks texte doivent être automatisés à mesure que votre entreprise évolue. Grâce à des services tels que [les automatisations AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html), vous pouvez transformer un fichier texte en automatisations pouvant être exécutées sur votre charge de travail. Ces automatisations peuvent être exécutées en réponse aux événements, tout en réduisant la charge opérationnelle pour maintenir votre charge de travail. 

 **Exemple client** 

 AnyCompany Retail doit mettre à jour des schémas de bases de données lors de déploiements logiciels. L'équipe en charge des opérations de cloud en collaboration avec l'équipe responsable de l'administration des bases de données ont créé un runbook, pour déployer manuellement ces changements. Le runbook répertoriait chacune des étapes du processus sous forme de liste de contrôle. Il comprenait une section sur la gestion des erreurs en cas de problème. Les équipes ont publié le runbook sur leur wiki interne contenant leurs autres runbooks. L'équipe en charge des opérations de cloud envisage d'automatiser le runbook dans un prochain sprint. 

## Étapes d'implémentation
<a name="implementation-steps"></a>

 Si vous ne disposez pas d'un référentiel de documents, un référentiel de contrôle de version est un emplacement idéal pour commencer à créer votre bibliothèque de runbooks. Vous pouvez créer vos runbooks en utilisant le format Markdown. Voici un exemple de modèle de runbook que vous pouvez utiliser pour commencer à créer vos runbooks. 

```
# Runbook Title ## Runbook Info | Runbook ID | Description | Tools Used | Special Permissions | Runbook Author | Last Updated | Escalation POC | |-------|-------|-------|-------|-------|-------|-------| | RUN001 | What is this runbook for? What is the desired outcome? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name | ## Steps 1. Step one 2. Step two
```

1.  Si vous ne possédez pas de référentiel de documentation ou de wiki existant, créer un référentiel de contrôle de version dans votre système de contrôle de version. 

1.  Identifier un processus ne possédant pas de runbook. Le processus idéal doit être réalisé de manière semi-régulière, contenir peu d'étapes et avoir des échecs à faible impact. 

1.  Dans votre référentiel de documents, créer un brouillon au format Markdown en utilisant le modèle. Remplissez le champ `Runbook Title` et les champs obligatoires sous `Runbook Info`. 

1.  En commençant par la première, remplir la partie `Étapes` du runbook. 

1.  Donner le runbook à un membre de l'équipe. Demandez-lui d'utiliser le runbook pour valider les étapes. En cas d'élément manquant ou de besoin de clarification, mettez à jour le runbook. 

1.  Publier le runbook sur votre référentiel de documentation interne. Une fois publié, partagez l'information avec votre équipe et les autres parties prenantes. 

1.  Au fil du temps, vous créerez une bibliothèque de runbooks. À mesure que cette bibliothèque s'étoffe, commencez à travailler sur l'automatisation des runbooks. 

 **Niveau d'effort du plan d'implémentation :** faible. La norme minimum pour un runbook est un guide texte détaillé. L'automatisation des runbooks peut augmenter l'effort d'implémentation. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP02 Les processus et procédures ont des propriétaires identifiés](ops_ops_model_def_proc_owners.md) : les runbooks doivent avoir un propriétaire chargé d'en assurer la maintenance. 
+  [OPS07-BP04 Utiliser des playbooks pour analyser les problèmes](ops_ready_to_support_use_playbooks.md) : les runbooks et les playbooks sont identiques à une différence près : un runbook a un résultat souhaité. Dans de nombreux cas, les runbooks sont déclenchés suite à l'identification d'une cause profonde par un playbook. 
+  [OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes](ops_event_response_event_incident_problem_process.md) : les runbooks sont une part essentielle de la pratique de la gestion d'un bon déroulement, d'un incident et d'un problème 
+  [OPS10-BP02 Disposer d'un processus par alerte](ops_event_response_process_per_alert.md) : les runbooks et les playbooks doivent être utilisés pour répondre aux alertes. Avec le temps, ces réactions doivent être automatisées. 
+  [OPS11-BP04 Gérer les connaissances](ops_evolve_ops_knowledge_management.md) : la maintenance des runbooks représente une part essentielle de la gestion des connaissances. 

 **Documents connexes :** 
+ [Atteindre l'excellence opérationnelle grâce à l'automatisation de playbooks et de runbooks](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/) 
+ [AWS Systems Manager : travailler avec des runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+ [Playbook d'atténuation des risques pour les importantes migrations AWS – Tâche 4 : amélioration de vos runbooks de migration](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-migration-playbook/task-four-migration-runbooks.html) 
+ [Utiliser les runbooks AWS Systems Manager Automation pour résoudre des tâches opérationnelles](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/) 

 **Vidéos connexes :** 
+  [AWS re:Invent 2019: DIY guide to runbooks, incident reports, and incident response (SEC318-R1)](https://www.youtube.com/watch?v=E1NaYN_fJUo) 
+  [Comment automatiser des opérations informatiques sur AWS \$1 Amazon Web Services](https://www.youtube.com/watch?v=GuWj_mlyTug) 
+  [Intégrations de scripts dans AWS Systems Manager](https://www.youtube.com/watch?v=Seh1RbnF-uE) 

 **Exemples connexes :** 
+  [AWS Systems Manager : procédure étape par étape pour l'automatisation](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html) 
+  [AWS Systems Manager : restaurer un volume racine à partir du dernier runbook d'instantanés](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-document-sample-restore.html)
+  [Créer un runbook de réponse d'incident AWS à l'aide des blocs-notes Jupyter et CloudTrail Lake](https://catalog.us-east-1.prod.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US) 
+  [Gitlab – Runbooks](https://gitlab.com/gitlab-com/runbooks) 
+  [Rubix – Une bibliothèque Python pour créer des runbooks dans les blocs-notes Jupyter](https://github.com/Nurtch/rubix) 
+  [Utilisation d'un créateur de documents pour créer un runbook personnalisé](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html) 
+  [Ateliers Well-Architected : automatisation des opérations avec les playbooks et les runbooks](https://wellarchitectedlabs.com/operational-excellence/200_labs/200_automating_operations_with_playbooks_and_runbooks/) 

 **Services associés :** 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 

# OPS07-BP04 Utiliser des playbooks pour analyser les problèmes
<a name="ops_ready_to_support_use_playbooks"></a>

 Les playbooks sont des guides étape par étape utilisés pour analyser un incident. Lorsque des incidents se produisent, les playbooks sont utilisés pour analyser, évaluer l'impact et identifier une cause racine. Les playbooks sont utilisés dans le cadre de différents scénarios allant des échecs de déploiement aux incidents de sécurité. Dans la plupart des cas, les playbooks identifient la cause racine qui est atténuée par l'utilisation d'un runbook. Les playbooks sont une composante essentielle des plans de réponse de votre organisation en cas d'incident. 

 Un playbook efficace comporte plusieurs fonctionnalités clés. Il guide l'utilisateur, étape par étape, dans le processus de découverte. Si vous optez pour un point de vue extérieur, quelles étapes devez-vous suivre pour diagnostiquer un incident ? Définissez clairement dans le playbook si des outils spéciaux ou des autorisations élevées sont nécessaires. Il est essentiel d'élaborer un plan de communication pour informer les parties prenantes du statut de l'analyse. Lorsqu'il est impossible de déterminer la cause racine, le playbook doit comporter un plan de remontée des informations vers la hiérarchie. Si la cause racine est identifiée, le playbook doit faire référence à un runbook décrivant une solution pour la résoudre. Les playbooks doivent être stockés dans un emplacement central et mis à jour régulièrement. Si des playbooks sont utilisés pour des alertes précises, donnez aux membres de votre équipe des indications relatives au playbook dans le cadre de l'alerte. 

 Au fur et à mesure que votre organisation évolue, automatisez vos playbooks. Commencez par des playbooks qui couvrent les incidents à faible risque. Utilisez des scripts pour automatiser les étapes de découverte. Veillez à créer des runbooks complémentaires destinés à atténuer les causes racine courantes. 

 **Résultat souhaité :** votre organisation dispose de playbooks pour les incidents courants. Les playbooks sont stockés dans un emplacement central et mis à la disposition des membres de votre équipe. Les playbooks sont souvent mis à jour. Pour toute cause racine connue, des runbooks complémentaires sont créés. 

 **Anti-modèles courants :** 
+  Il n'existe pas de façon standard d'analyser un incident. 
+  Les membres de l'équipe comptent sur la mémoire musculaire ou les connaissances institutionnelles pour résoudre un échec de déploiement. 
+  Les nouveaux membres de l'équipe apprennent à analyser les problèmes par un procédé de tâtonnement. 
+  Les bonnes pratiques d'analyse des problèmes ne sont pas partagées entre les équipes. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Les playbooks dynamisent les efforts nécessaires pour atténuer les incidents. 
+  Différents membres de l'équipe peuvent utiliser le même playbook pour identifier une cause racine de façon cohérente. 
+  Les causes racine connues peuvent être associées à des runbooks développés spécialement pour leur résolution, ce qui permet d'accélérer le délai de récupération. 
+  Les playbooks permettent aux membres de l'équipe de commencer à apporter leur contribution plus tôt. 
+  Les équipes peuvent adapter leurs processus à l'aide de playbooks reproductibles. 

 **Niveau d'exposition au risque si cette bonne pratique n'est pas respectée :** Moyen 

## Directives d'implémentation
<a name="implementation-guidance"></a>

 La façon dont vous créez et utilisez les playbooks dépend de la maturité de votre organisation. Si vous débutez dans le cloud, créez des playbooks sous forme de texte dans un référentiel de documents centralisé. Au fur et à mesure que votre organisation évolue, les playbooks peuvent devenir semi-automatisés avec des langages de script comme Python. Ces scripts peuvent être exécutés dans un bloc-notes Jupyter afin d'accélérer la découverte. Les organisations avancées ont des playbooks entièrement automatisés pour les problèmes courants qui sont corrigés automatiquement avec des runbooks. 

 Pour commencer à créer vos playbooks, répertoriez les incidents qui affectent couramment votre charge de travail. Pour commencer, choisissez des playbooks pour les incidents à faible risque dont la cause racine a été réduite à quelques problèmes. Une fois que vous disposez de playbooks pour des scénarios plus simples, passez aux scénarios à risque élevé ou à ceux dont la cause racine est peu connue. 

 Vos playbooks sous forme de texte doivent être automatisés à mesure que votre entreprise évolue. Grâce à des services tels que [AWS Systems Manager Automation,](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html)le texte brut peut être transformé en automatisations. Ces automatisations peuvent être exécutées en fonction de votre charge de travail pour accélérer les analyses. Ces automatisations peuvent être activées en réponse à des événements, ce qui réduit le temps nécessaire pour découvrir et résoudre les incidents. 

 Les clients peuvent utiliser [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) afin de répondre aux incidents. Ce service offre une interface unique pour trier les incidents, informer les parties prenantes pendant la découverte et l'atténuation, et collaborer tout au long de l'incident. Il utilise AWS Systems Manager Automation afin d'accélérer la détection et la récupération. 

 **Exemple client** 

 AnyCompany Retail a dû faire face à un incident de production. L'ingénieur d'astreinte a utilisé un playbook pour analyser le problème. À mesure qu'il effectuait les différentes étapes, il a informé les parties prenantes identifiées dans le playbook de l'évolution de la situation. L'ingénieur a identifié que la cause racine était une condition de concurrence dans un service back-end. À l'aide d'un runbook, il a relancé le service et a permis à AnyCompany Retail d'être à nouveau en ligne. 

## Étapes d'implémentation
<a name="implementation-steps"></a>

 Si vous n'avez pas de référentiel de documents existant, nous vous suggérons de créer un référentiel de contrôle de version pour votre bibliothèque de playbooks. Vous pouvez créer vos playbooks en utilisant Markdown, qui est compatible avec la plupart des systèmes d'automatisation de playbook. Si vous démarrez de zéro, utilisez l'exemple de modèle de playbook suivant. 

```
# Titre du playbook ## Informations sur le playbook | ID du playbook | Description | Outils utilisés | Autorisations spéciales | Auteur du playbook | Dernière mise à jour | POC de remontée hiérarchique | Parties prenantes | Plan de communication | |-------|-------|-------|-------|-------|-------|-------|-------|-------| | RUN001 | À quoi sert ce playbook ? Pour quel type d'incident est-il utilisé ? | Outils | Autorisations | Votre nom | 2022-09-21 | Contact pour la remontée des informations vers la hiérarchie | Nom de la partie prenante | Comment les dernières informations seront-elles communiquées au cours de l'analyse ? | ## Étapes 1. Première étape 2. Deuxième étape
```

1.  Si vous ne possédez pas de référentiel de documents ni de wiki existant, créez un référentiel de contrôle de version pour vos playbooks dans votre système de contrôle de version. 

1.  Identifiez un problème courant qui doit être analysé. Il doit s'agir d'un scénario où la cause racine se limite à quelques problèmes et où la résolution présente peu de risques. 

1.  À l'aide du modèle Markdown, remplissez la section `Nom du playbook` et les champs situés sous `Informations sur le playbook`. 

1.  Remplissez les étapes de résolution du problème. Soyez aussi clair que possible sur les actions à effectuer ou les domaines à analyser. 

1.  Remettez le playbook à un membre de l'équipe et demandez-lui de le passer en revue afin de le valider. S'il manque quelque chose ou si un point n'est pas clair, mettez à jour le playbook. 

1.  Publiez le playbook dans votre référentiel de documents et informez votre équipe et les parties prenantes. 

1.  Cette bibliothèque de playbooks s'enrichira à mesure que vous ajouterez d'autres playbooks. Une fois que vous avez plusieurs playbooks, commencez à les automatiser en utilisant des outils comme AWS Systems Manager Automation afin de garantir la synchronisation entre l'automatisation et les playbooks. 

 **Niveau d'effort du plan d'implémentation :** faible. Vos playbooks doivent être des documents texte stockés dans un emplacement central. Les organisations plus avancées évolueront vers l'automatisation des playbooks. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP02 Les processus et procédures ont des propriétaires identifiés](ops_ops_model_def_proc_owners.md) : un propriétaire doit être désigné pour les playbooks et être chargé d'en assurer la gestion. 
+  [OPS07-BP03 Utiliser des runbooks pour effectuer des procédures](ops_ready_to_support_use_runbooks.md) : les runbooks et les playbooks sont similaires, mais se distinguent par le fait qu'un résultat souhaité est défini pour un runbook. Dans de nombreux cas, les runbooks sont utilisés après qu'un playbook a identifié une cause racine. 
+  [OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes](ops_event_response_event_incident_problem_process.md) : les runbooks constituent un élément important d'une bonne pratique de gestion des événements, des incidents et des problèmes. 
+  [OPS10-BP02 Disposer d'un processus par alerte](ops_event_response_process_per_alert.md) : les runbooks et les playbooks doivent être utilisés pour répondre aux alertes. Avec le temps, ces réactions doivent être automatisées. 
+  [OPS11-BP04 Gérer les connaissances](ops_evolve_ops_knowledge_management.md) : la gestion des playbooks est un élément clé de la gestion des connaissances. 

 **Documents connexes :** 
+ [ Achieving Operational Excellence using automated playbook and runbook ](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/)
+  [AWS Systems Manager – Utilisation de runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+ [ Use AWS Systems Manager Automation runbooks to resolve operational tasks ](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/)

 **Vidéos connexes :** 
+ [AWS re:Invent 2019: DIY guide to runbooks, incident reports, and incident response (SEC318-R1) ](https://www.youtube.com/watch?v=E1NaYN_fJUo)
+ [AWS Systems Manager Incident Manager - AWS Virtual Workshops ](https://www.youtube.com/watch?v=KNOc0DxuBSY)
+ [ Integrate Scripts into AWS Systems Manager](https://www.youtube.com/watch?v=Seh1RbnF-uE)

 **Exemples connexes :** 
+ [AWS Customer Playbook Framework ](https://github.com/aws-samples/aws-customer-playbook-framework)
+ [AWS Systems Manager : Procédures d'automatisation ](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html)
+ [ Building an AWS incident response runbook using Jupyter notebooks and CloudTrail Lake ](https://catalog.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US)
+ [ Rubix – Une bibliothèque Python pour créer des runbooks dans les bloc-notes Jupyter ](https://github.com/Nurtch/rubix)
+ [ Utilisation de Document Builder pour créer un runbook personnalisé ](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html)
+ [ Ateliers Well-Architected : automatisation des opérations avec les playbooks et les runbooks ](https://wellarchitectedlabs.com/operational-excellence/200_labs/200_automating_operations_with_playbooks_and_runbooks/)
+ [ Ateliers Well-Architected : playbook de réponse aux incidents avec Jupyter ](https://www.wellarchitectedlabs.com/security/300_labs/300_incident_response_playbook_with_jupyter-aws_iam/)

 **Services associés :** 
+ [AWS Systems Manager Automation ](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html)
+ [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html)

# OPS07-BP05 Prendre des décisions avisées pour déployer des systèmes et des modifications
<a name="ops_ready_to_support_informed_deploy_decisions"></a>

 Évaluez les compétences de l'équipe pour prendre en charge la charge de travail et la conformité de cette dernière à la gouvernance. Évaluez-les par rapport aux avantages du déploiement pour déterminer s'il convient de faire passer un système ou une modification en production. Comprenez les avantages et les risques pour prendre des décisions avisées. 

 Un pré-mortem est un exercice où une équipe simule un échec pour développer des stratégies d'atténuation. Utilisez des pré-mortems pour anticiper les échecs et créer des procédures le cas échéant. Lorsque vous apportez des modifications aux listes de contrôle que vous utilisez pour évaluer votre charge de travail, planifiez les opérations que vous allez exécuter pour les systèmes en service qui ne sont plus conformes. 

 **Anti-modèles courants :** 
+  Décider de déployer une charge de travail sans comprendre les risques de sécurité qu'elle comporte. 
+  Décider de déployer une charge de travail sans savoir si elle est conforme à votre gouvernance et à vos normes. 
+  Décider de déployer une charge de travail sans savoir si votre équipe peut la prendre en charge. 
+  Décider de déployer une charge de travail sans comprendre les avantages qu’elles apporte à l'organisation. 

 **Avantages liés au respect de cette bonne pratique :** Le fait de disposer de membres d'équipe compétents vous permet de prendre efficacement en charge votre charge de travail. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Faible 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Prendre des décisions avisées pour déployer des charges de travail et des modifications : évaluez les capacités de l'équipe à prendre en charge la charge de travail et à assurer sa conformité avec la gouvernance. Évaluez-les par rapport aux avantages du déploiement pour déterminer s'il convient de faire passer un système ou une modification en production. Comprenez les avantages et les risques et prenez des décisions avisées. 