# Excellence opérationnelle
<a name="a-operational-excellence"></a>

L’excellence opérationnelle (OE) est un engagement à concevoir correctement un logiciel tout en offrant constamment une expérience client de qualité. Le pilier Excellence opérationnelle inclut les bonnes pratiques pour organiser votre équipe, concevoir votre charge de travail, la faire fonctionner à grande échelle et la faire évoluer au fil du temps. Vous trouverez des recommandations sur l’implémentation dans le [livre blanc Pilier Excellence opérationnelle](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/welcome.html). 

**Topics**
+ [

# Organisation
](a-organization.md)
+ [

# Préparation
](a-prepare.md)
+ [

# Gestion
](a-operate.md)
+ [

# Évolution
](a-evolve.md)

# Organisation
<a name="a-organization"></a>

**Topics**
+ [

# OPS 1. Comment déterminer vos priorités ?
](ops-01.md)
+ [

# OPS 2. Comment structurer l’organisation pour soutenir les résultats de l’entreprise ?
](ops-02.md)
+ [

# OPS 3. Comment votre culture organisationnelle soutient-elle vos résultats opérationnels ?
](ops-03.md)

# OPS 1. Comment déterminer vos priorités ?
<a name="ops-01"></a>

 Chacun doit comprendre le rôle qu’il a à jouer dans la réussite de l’entreprise. Établissez des objectifs partagés afin de définir des priorités pour les ressources. Cela permet de maximiser le fruit de vos efforts. 

**Topics**
+ [

# OPS01-BP01 Évaluer les besoins des clients externes
](ops_priorities_ext_cust_needs.md)
+ [

# OPS01-BP02 Évaluer les besoins des clients internes
](ops_priorities_int_cust_needs.md)
+ [

# OPS01-BP03 Évaluer les exigences de gouvernance
](ops_priorities_governance_reqs.md)
+ [

# OPS01-BP04 Évaluation des exigences de conformité
](ops_priorities_compliance_reqs.md)
+ [

# OPS01-BP05 Évaluer le paysage des menaces
](ops_priorities_eval_threat_landscape.md)
+ [

# OPS01-BP06 Évaluation des compromis tout en gérant les avantages et les risques
](ops_priorities_eval_tradeoffs.md)

# OPS01-BP01 Évaluer les besoins des clients externes
<a name="ops_priorities_ext_cust_needs"></a>

 Impliquez les principales parties prenantes, notamment les équipes commerciales, de développement et d’exploitation, pour déterminer où il est nécessaire de concentrer les efforts sur les besoins des clients externes. Cela vous donnera une compréhension approfondie du soutien opérationnel nécessaire pour atteindre les résultats opérationnels souhaités. 

 **Résultat escompté :** 
+  Vous travaillez à rebours à partir des résultats des clients. 
+  Vous comprenez comment vos pratiques opérationnelles soutiennent les résultats et les objectifs de l’entreprise. 
+  Vous impliquez toutes les parties concernées. 
+  Vous disposez de mécanismes pour capturer les besoins des clients externes. 

 **Anti-modèles courants :** 
+  Vous avez décidé de ne pas bénéficier du service client en dehors des heures de bureau, mais vous n’avez pas examiné les données historiques des demandes d’assistance. Vous ne savez pas si cela aura un impact sur vos clients. 
+  Vous développez une nouvelle fonctionnalité, mais n’avez pas contacté vos clients pour déterminer si elle est souhaitée, sous quelle forme, et sans expérimentation pour valider le besoin et la méthode de distribution. 

 **Avantages liés au respect de cette bonne pratique :** les clients dont les besoins sont satisfaits sont beaucoup plus susceptibles de rester fidèles. L’évaluation et la compréhension des besoins des clients externes vous permettent d’établir des priorités dans vos efforts pour apporter de la valeur ajoutée à votre entreprise. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 **Identification des besoins de l’entreprise :** le succès de l’entreprise repose sur des objectifs communs et une compréhension partagée entre les parties prenantes, y compris les équipes commerciales, de développement et d’exploitation. 

 **Révision des objectifs de l’entreprise, des besoins et des priorités des clients externes :** impliquez les acteurs clés, notamment, les équipes commerciales, de développement et d’exploitation, pour discuter des objectifs, besoins et priorités des clients externes. Cela permet de vérifier que vous comprenez bien le soutien opérationnel requis pour atteindre les résultats de l’entreprise et des clients. 

 **Établissement d’une compréhension commune :** établissez une compréhension commune des fonctions opérationnelles de la charge de travail, des rôles de chacune des équipes dans l’exploitation de la charge de travail, et de la manière dont ces facteurs soutiennent les objectifs opérationnels partagés chez les clients internes et externes. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS11-BP03 Mettre en œuvre des boucles de rétroaction](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

# OPS01-BP02 Évaluer les besoins des clients internes
<a name="ops_priorities_int_cust_needs"></a>

 Impliquez les principales parties prenantes, notamment les équipes commerciales, de développement et d’exploitation, lorsqu’il s’agit de déterminer où il est nécessaire de concentrer les efforts sur les besoins des clients internes. Ainsi, vous aurez une connaissance approfondie du soutien opérationnel requis pour atteindre les résultats opérationnels. 

 **Résultat escompté :** 
+  Tenez compte des priorités que vous avez établies pour concentrer vos efforts d’amélioration là où ils auront le plus d’impact (par exemple, le développement des compétences de l’équipe, l’amélioration des performances des charges de travail, la réduction des coûts, l’automatisation des runbooks ou encore l’amélioration de la surveillance). 
+  Mettez à jour vos priorités en fonction des besoins. 

 **Anti-modèles courants :** 
+  Vous avez décidé de modifier l’attribution des adresses IP de vos équipes de produits sans les consulter, afin de faciliter la gestion de votre réseau. Vous ne connaissez pas l’impact que cela aura sur vos équipes de produits. 
+  Vous mettez en place un nouvel outil de développement, mais vous n’avez pas demandé à vos clients internes s’ils en ont besoin ou s’il est compatible avec leurs pratiques existantes. 
+  Vous mettez en place un nouveau système de surveillance, mais vous demandez à vos clients internes s’ils ont des besoins en matière de surveillance ou de rapports à prendre en compte. 

 **Avantages liés au respect de cette bonne pratique :** l’évaluation et la compréhension des besoins des clients internes vous permettent d’établir des priorités dans vos efforts pour apporter de la valeur ajoutée à votre entreprise. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>
+  Identifiez les besoins de l’entreprise : la réussite repose sur des objectifs et une compréhension partagés entre les différents acteurs, y compris les équipes commerciales, de développement et d’opérations. 
+  Analysez les objectifs, les besoins et les priorités des clients internes : impliquez les acteurs clés, notamment, les équipes commerciales, du développement et des opérations, pour discuter des objectifs, besoins et priorités des clients internes. Cela permet de vérifier que vous comprenez bien le soutien opérationnel requis pour atteindre les résultats de l’entreprise et des clients. 
+  Établir une compréhension commune : établissez une compréhension commune des fonctions opérationnelles de la charge de travail, des rôles de chacune des équipes dans l’exploitation de la charge de travail, et de la manière dont ces facteurs soutiennent les objectifs opérationnels partagés chez les clients internes et externes. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :**
+  [OPS11-BP03 Implémenter des boucles de rétroaction](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

# OPS01-BP03 Évaluer les exigences de gouvernance
<a name="ops_priorities_governance_reqs"></a>

 La gouvernance désigne l’ensemble des politiques, règles ou cadres qu’une entreprise utilise pour atteindre ses objectifs commerciaux. Les exigences en matière de gouvernance sont générées au sein de votre organisation. Elles peuvent affecter les types de technologies que vous choisissez ou influencer la façon dont vous gérez votre charge de travail. Incorporez les exigences de gouvernance organisationnelle dans votre charge de travail. La conformité désigne la capacité à prouver que vous avez mis en œuvre les exigences de gouvernance. 

 **Résultat escompté :** 
+  Les exigences de gouvernance sont intégrées à la conception architecturale et au fonctionnement de votre charge de travail. 
+  Vous pouvez fournir la preuve que vous avez suivi les exigences de gouvernance. 
+  Les exigences en matière de gouvernance sont régulièrement revues et mises à jour. 

 **Anti-modèles courants :** 
+ Votre organisation exige que le compte racine dispose d’une authentification multi-facteur. Vous n’avez pas mis en œuvre cette exigence et le compte racine est compromis.
+ Lors de la conception de votre charge de travail, vous choisissez un type d’instance qui n’est pas approuvé par le service informatique. Vous ne parvenez pas à lancer votre charge de travail et devez procéder à une refonte.
+ Vous êtes tenu de préparer un plan de reprise après sinistre. Vous n’en avez pas créé et votre charge de travail subit une interruption prolongée.
+  Votre équipe souhaite utiliser de nouvelles instances, mais vos exigences de gouvernance n’ont pas été mises à jour pour les autoriser. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Le respect des exigences de gouvernance permet d’aligner votre charge de travail sur les politiques de l’organisation dans son ensemble. 
+  Les exigences en matière de gouvernance reflètent les normes industrielles et les bonnes pratiques de votre organisation. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

Identifiez les besoins en matière de gouvernance en travaillant avec les parties prenantes et les organisations de gouvernance. Incorporez les exigences de gouvernance à votre charge de travail. Soyez en mesure de prouver que vous avez respecté les exigences de gouvernance.

 **Exemple client** 

 Chez AnyCompany Retail, l'équipe des opérations cloud travaille avec les parties prenantes de l'organisation pour développer les exigences de gouvernance. Par exemple, ils interdisent SSH l'accès aux EC2 instances Amazon. Si les équipes doivent accéder au système, elles doivent utiliser AWS Systems Manager Session Manager. L’équipe chargée des opérations dans le cloud met régulièrement à jour les exigences de gouvernance à mesure que de nouveaux services sont disponibles. 

 **Étapes d’implémentation** 

1.  Identifiez les parties prenantes de votre charge de travail, y compris toute équipe centralisée. 

1.  Travaillez avec les parties prenantes pour identifier les exigences de gouvernance. 

1.  Une fois que vous avez dressé une liste, classez les points à améliorer par ordre de priorité et commencez à les mettre en œuvre dans votre charge de travail. 

   1.  Utilisez des services tels que [AWS Config](https://aws.amazon.com/blogs/industries/best-practices-for-aws-organizations-service-control-policies-in-a-multi-account-environment/)pour créer governance-as-code et valider le respect des exigences de gouvernance. 

   1.  Si vous utilisez [AWS Organizations](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html), vous pouvez tirer parti des stratégies de contrôle des services pour mettre en œuvre les exigences de gouvernance. 

1.  Fournissez la documentation qui valide la mise en œuvre. 

 **Niveau d’effort du plan d’implémentation :** moyen. La mise en œuvre des exigences de gouvernance manquantes peut entraîner une refonte de votre charge de travail. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS01-BP04 Évaluation des exigences de conformité](ops_priorities_compliance_reqs.md) – La conformité est similaire à la gouvernance, mais elle émane de l’extérieur de l’organisation. 

 **Documents connexes :** 
+ [AWS Guide de gestion et de gouvernance de l'environnement cloud](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/management-and-governance-cloud-environment-guide.html)
+ [Meilleures pratiques en matière AWS Organizations de politiques de contrôle des services dans un environnement multi-comptes](https://aws.amazon.com/blogs/industries/best-practices-for-aws-organizations-service-control-policies-in-a-multi-account-environment/)
+ [La gouvernance dans le AWS Cloud : le juste équilibre entre agilité et sécurité](https://aws.amazon.com/blogs/apn/governance-in-the-aws-cloud-the-right-balance-between-agility-and-safety/)
+ [Qu'est-ce que la gouvernance, le risque et la conformité (GRC) ?](https://aws.amazon.com/what-is/grc/)

 **Vidéos connexes :** 
+ [AWS Gestion et gouvernance : configuration, conformité et audit - Discussions techniques AWS en ligne](https://www.youtube.com/watch?v=79ud1ZAaoj0)
+ [AWS RE:inForce 2019 : La gouvernance à l'ère du cloud (-R1) DEM12](https://www.youtube.com/watch?v=y3WmHnavuN8)
+ [AWS re:Invent 2020 : Garantir la conformité sous forme de code en utilisant AWS Config](https://www.youtube.com/watch?v=m8vTwvbzOfw)
+ [AWS re:Invent 2020 : la gouvernance agile sur AWS GovCloud (US)](https://www.youtube.com/watch?v=hv6B17eriHQ)

 **Exemples connexes :** 
+ [AWS Config Exemples de packs de conformité](https://docs.aws.amazon.com/config/latest/developerguide/conformancepack-sample-templates.html)

 **Services connexes :** 
+ [AWS Config](https://aws.amazon.com/config/)
+ [AWS Organizations - Politiques de contrôle des services](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html)

# OPS01-BP04 Évaluation des exigences de conformité
<a name="ops_priorities_compliance_reqs"></a>

Les exigences en matière de conformité réglementaire, sectorielle et interne constituent un facteur important pour définir les priorités de votre organisation. Votre cadre de conformité peut vous empêcher d’utiliser des technologies ou des emplacements géographiques spécifiques. Appliquez les principes de diligence raisonnable si aucun cadre de conformité externe n’est identifié. Générez des audits ou des rapports qui valident la conformité.

 Si vous mettez en avant le fait que votre produit respecte des normes de conformité spécifiques, vous devez mettre en place un processus interne pour assurer une conformité constante. Les normes PCI DSS, FedRAMP et HIPAA sont des exemples de normes de conformité. Les normes de conformité applicables sont déterminées par divers facteurs, tels que les types des données stockées ou transmises par la solution et les régions géographiques prises en charge par la solution. 

 **Résultat escompté :** 
+  Les exigences en matière de conformité réglementaire, industrielle et interne sont intégrées dans le choix de l’architecture. 
+  Vous pouvez valider la conformité et générer des rapports d’audit. 

 **Anti-modèles courants :** 
+ Certaines parties de votre charge de travail relèvent du cadre de la norme de sécurité des données de l’industrie des cartes de paiement (PCI DSS), mais votre charge de travail stocke les données des cartes de crédit sans les chiffrer.
+ Vos développeurs et architectes de logiciels ne connaissent pas le cadre de conformité auquel votre organisation doit se conformer.
+  L’audit annuel SOC2 (Systems and Organizations Control) de type II aura lieu prochainement et vous n’êtes pas en mesure de vérifier que les contrôles sont en place. 

 **Avantages liés au respect de cette bonne pratique :** 
+  L’évaluation et la compréhension des exigences de conformité qui s’appliquent à votre charge de travail détermineront la façon dont vous priorisez vos efforts pour produire de la valeur ajoutée. 
+  Vous choisissez les bons sites et les bonnes technologies, en accord avec votre cadre de conformité. 
+  La conception de votre charge de travail en vue de son auditabilité vous aide à prouver que vous adhérez à votre cadre de conformité. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 La mise en œuvre de cette bonne pratique signifie que vous intégrez les exigences de conformité dans votre processus de conception de l’architecture. Les membres de votre équipe connaissent le cadre de conformité requis. Vous validez la conformité conformément au cadre. 

 **Exemple client** 

 AnyCompany Retail stocke les informations relatives aux cartes de crédit des clients. Les développeurs de l’équipe chargée du stockage des cartes comprennent qu’ils doivent se conformer au cadre PCI-DSS. Ils ont pris des mesures pour vérifier que les informations relatives aux cartes de crédit sont stockées et accessibles en toute sécurité, conformément au cadre PCI-DSS. Chaque année, ils travaillent avec leur équipe de sécurité pour valider la conformité. 

 **Étapes d’implémentation** 

1.  Travaillez avec vos équipes de sécurité et de gouvernance pour déterminer les cadres de conformité sectoriels, réglementaires ou internes auxquels votre charge de travail doit se conformer. Incorporez les cadres de conformité à votre charge de travail. 

   1.  Validez la conformité continue des ressources AWS avec des services tels que [Optimiseur de calcul AWS](https://docs.aws.amazon.com/compute-optimizer/latest/ug/what-is-compute-optimizer.html) et [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html). 

1.  Informez les membres de votre équipe sur les exigences de conformité afin qu’ils puissent travailler et faire évoluer la charge de travail en fonction de celles-ci. Les exigences de conformité doivent être incorporées aux choix architecturaux et technologiques. 

1.  En fonction du cadre de conformité, vous pouvez être amené à générer un audit ou un rapport de conformité. Travaillez avec votre organisation pour automatiser ce processus autant que possible. 

   1.  Utilisez des services comme [AWS Audit Manager](https://docs.aws.amazon.com/audit-manager/latest/userguide/what-is.html) pour valider la conformité et générer des rapports d’audit. 

   1.  Vous pouvez télécharger les documents de sécurité et de conformité AWS avec [AWS Artifact](https://docs.aws.amazon.com/artifact/latest/ug/what-is-aws-artifact.html). 

 **Niveau d’effort du plan d’implémentation :** moyen. La mise en œuvre de cadres de conformité peut s’avérer difficile. La génération de rapports d’audit ou de documents de conformité ajoute un niveau de complexité supplémentaire. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [SEC01-BP03 Identification et validation des objectifs de contrôle :](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_control_objectives.html) les objectifs de contrôle de sécurité jouent un rôle important dans la conformité globale. 
+  [SEC01-BP06 Automatisation des tests et de la validation des contrôles de sécurité dans les pipelines](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_test_validate_pipeline.html) : dans le cadre de vos pipelines, validez les contrôles de sécurité. Vous pouvez également générer des documents de conformité pour les nouvelles modifications. 
+  [SEC07-BP02 Définition de contrôles de protection des données](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_data_classification_define_protection.html) : de nombreux cadres de conformité sont basés sur des stratégies de gestion et de stockage des données. 
+  [SEC10-BP03 Préparation des capacités de criminalistique](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_incident_response_prepare_forensic.html) : les capacités d’investigation peuvent parfois être utilisées pour auditer la conformité. 

 **Documents connexes :** 
+ [Centre de conformité AWS](https://aws.amazon.com/financial-services/security-compliance/compliance-center/)
+ [Ressources relatives à la conformité AWS](https://aws.amazon.com/compliance/resources/)
+ [Livre blanc sur les risques et la conformité AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-risk-and-compliance/welcome.html) :
+ [Modèle de responsabilité partagée AWS](https://aws.amazon.com/compliance/shared-responsibility-model/)
+ [Services AWS concernés par les programmes de conformité](https://aws.amazon.com/compliance/services-in-scope/)

 **Vidéos connexes :** 
+ [AWS re:Invent 2020: Achieve compliance as code using Optimiseur de calcul AWS](https://www.youtube.com/watch?v=m8vTwvbzOfw)
+ [AWS re:Invent 2021 - Cloud compliance, assurance, and auditing ](https://www.youtube.com/watch?v=pdrYGVgb08Y)
+ [AWS Summit ATL 2022 - Implementing compliance, assurance, and auditing on AWS (COP202) ](https://www.youtube.com/watch?v=i7XrWimhqew)

 **Exemples connexes :** 
+ [PCI DSS et bonnes pratiques de sécurité de base AWS sur AWS](https://aws.amazon.com/solutions/partners/compliance-pci-fsbp-remediation/)

 **Services connexes :** 
+ [AWS Artifact](https://docs.aws.amazon.com/artifact/latest/ug/what-is-aws-artifact.html)
+ [AWS Audit Manager](https://docs.aws.amazon.com/audit-manager/latest/userguide/what-is.html)
+ [Optimiseur de calcul AWS](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html)
+ [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html)

# OPS01-BP05 Évaluer le paysage des menaces
<a name="ops_priorities_eval_threat_landscape"></a>

 Évaluez les menaces pesant sur l’entreprise (par exemple, la concurrence, les risques commerciaux et les responsabilités, les risques opérationnels et les menaces sur la sécurité des informations) et tenez à jour les informations dans un registre des risques. Incluez l’impact des risques pour déterminer où concentrer les efforts. 

 Le [cadre Well-Architected](https://aws.amazon.com/architecture/well-architected/) met l’accent sur la formation, la mesure et l’amélioration. Il fournit une approche cohérente qui vous permet d'évaluer les architectures et de mettre en œuvre des conceptions qui évolueront au fil du temps. AWS fournit les informations [AWS Well-Architected Tool](https://aws.amazon.com/well-architected-tool/)nécessaires pour vous aider à revoir votre approche avant le développement, l'état de vos charges de travail avant la production et l'état de vos charges de travail en production. Vous pouvez les comparer aux meilleures pratiques AWS architecturales les plus récentes, surveiller l'état général de vos charges de travail et avoir un aperçu des risques potentiels. 

 AWS les clients peuvent bénéficier d'un examen guidé par Well-Architected de leurs charges de travail critiques afin de mesurer leurs architectures par rapport [aux](https://aws.amazon.com/premiumsupport/programs/) meilleures pratiques. AWS Les clients Enterprise Support sont éligibles à une [vérification des opérations](https://aws.amazon.com/premiumsupport/programs/) conçue pour les aider à identifier les failles de leur approche d’exécution dans le cloud. 

 L’implication des équipes dans ces vérifications contribue à établir une compréhension partagée de vos charges de travail et de la façon dont les rôles de chacun contribuent à la réussite de l’équipe. Les besoins identifiés par la vérification peuvent vous aider à définir vos priorités. 

 [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/) est un outil qui donne accès à un ensemble de base de vérifications qui recommandent des optimisations pouvant vous aider à définir vos priorités. Les [clients du Business and Enterprise Support](https://aws.amazon.com/premiumsupport/plans/) ont accès à des contrôles supplémentaires axés sur la sécurité, la fiabilité, les performances et l’optimisation des coûts qui peuvent les aider à définir leurs priorités. 

 **Résultat escompté :** 
+  Vous révisez et agissez régulièrement sur Well-Architected Trusted Advisor et ses résultats 
+  Vous êtes au courant de l’état des derniers correctifs de vos services. 
+  Vous comprenez le risque et l’impact des menaces connues et vous agissez en conséquence. 
+  Vous mettez en œuvre des mesures d’atténuation si nécessaire. 
+  Vous communiquez les actions et le contexte. 

 **Anti-modèles courants :** 
+  Vous utilisez une ancienne version d’une bibliothèque de logiciels dans votre produit. Vous n’êtes pas au courant des mises à jour de sécurité de la bibliothèque pour les questions qui peuvent avoir un impact involontaire sur votre charge de travail. 
+  Votre concurrent vient de lancer une version de son produit qui répond aux nombreuses plaintes de vos clients concernant votre produit. Vous n’avez pas priorisé la résolution de ces problèmes connus. 
+  Les régulateurs ont poursuivi des entreprises comme la vôtre qui ne respectaient pas les exigences légales de conformité réglementaire. Vous n’avez pas priorisé la résolution des vos exigences de conformité en suspens. 

 **Avantages liés au respect de cette bonne pratique :** l’identification et la compréhension des menaces qui pèsent sur votre organisation et votre charge de travail vous permettent de déterminer les menaces à traiter, leur priorité et les ressources nécessaires pour y parvenir. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>
+  **Évaluation des menaces existantes :** évaluez les menaces qui pèsent sur l’entreprise (par exemple, la concurrence, les risques commerciaux et les responsabilités, les risques opérationnels et les menaces sur la sécurité des données) afin de pouvoir tenir compte de leur impact lorsque vous déterminez où concentrer vos efforts. 
  +  [Derniers bulletins de sécuritéAWS](https://aws.amazon.com/security/security-bulletins/) 
  +  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
+  **Gestion d’un modèle de menace :** établissez et gérez un modèle de menace identifiant les menaces potentielles, les mesures d’atténuation prévues et en place, et leur priorité. Examinez la probabilité que les menaces se manifestent par des incidents, le coût de la récupération après ces incidents, le préjudice attendu et le coût de la prévention de ces incidents. Modifiez les priorités au fur et à mesure que le contenu du modèle de menace change. 

## Ressources
<a name="resources"></a>

 **Bonne pratique associée :** 
+  [SEC01-BP07 Identifier les menaces et prioriser les mesures d'atténuation à l'aide d'un modèle de menace](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_securely_operate_threat_model.html) 

 **Documents connexes :** 
+  [ConformitéAWS Cloud](https://aws.amazon.com/compliance/) 
+  [Derniers bulletins de sécuritéAWS](https://aws.amazon.com/security/security-bulletins/) 
+  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 

 **Vidéos connexes :** 
+  [AWS re:Inforce 2023 - A tool to help improve your threat modeling](https://youtu.be/CaYCsmjuiHg?si=e_CXPGqRF4WeBr1u) 

# OPS01-BP06 Évaluation des compromis tout en gérant les avantages et les risques
<a name="ops_priorities_eval_tradeoffs"></a>

 Les intérêts divergents de plusieurs parties peuvent compliquer la hiérarchisation des efforts, la création de solutions et l’obtention de résultats conformes aux stratégies commerciales. Imaginons que l’on vous demande d’accélérer la mise sur le marché de nouvelles fonctionnalités plutôt que d’optimiser les coûts de l’infrastructure informatique. Cela peut mettre deux parties intéressées en conflit l’une avec l’autre. Dans ces situations, les décisions doivent être portées devant une autorité supérieure pour résoudre le conflit. Des données sont nécessaires pour écarter l’attachement émotionnel du processus de prise de décision. 

 Le même défi peut se présenter au niveau tactique. Par exemple, le choix entre l’utilisation de technologies de base de données relationnelle ou non relationnelle peut avoir un impact significatif sur le fonctionnement d’une application. Il est essentiel de comprendre les résultats prévisibles des différents choix. 

 AWS peut vous aider à former vos équipes à AWS et à ses services afin qu’elles comprennent mieux comment leurs choix peuvent avoir un impact sur votre charge de travail. Utilisez les ressources fournies par [Support](https://aws.amazon.com/premiumsupport/programs/) ([Centre de connaissances AWS](https://aws.amazon.com/premiumsupport/knowledge-center/), [forums de discussion AWS](https://forums.aws.amazon.com/index.jspa) et [Support Center](https://console.aws.amazon.com/support/home/)) et la [documentation AWS](https://docs.aws.amazon.com/) pour former vos équipes. Pour d’autres questions, contactez Support. 

 AWS partage également les bonnes pratiques et les modèles opérationnels dans [Amazon Builders’ Library](https://aws.amazon.com/builders-library/). Un grand nombre d’autres informations utiles sont disponibles sur le [blog AWS](https://aws.amazon.com/blogs/) et sur le [podcast AWS officiel](https://aws.amazon.com/podcasts/aws-podcast/). 

 **Résultat escompté :** vous disposez d’un cadre clairement défini de gouvernance de prise de décision pour faciliter les décisions importantes à tous les niveaux au sein de votre organisation de fourniture de cloud. Ce cadre comprend des fonctionnalités telles qu’un registre des risques, des rôles définis autorisés à prendre des décisions et un modèle défini pour chaque niveau de décision pouvant être prise. Ce cadre définit à l’avance comment les conflits sont résolus, quelles données doivent être présentées et comment les options sont hiérarchisées, de sorte qu’une fois les décisions prises, vous puissiez vous engager sans délai. Le cadre décisionnel comprend une approche normalisée pour examiner et évaluer les avantages et les risques de chaque décision afin de comprendre les compromis. Cela peut inclure des facteurs externes, tels que le respect des exigences de conformité réglementaires. 

 **Anti-modèles courants :** 
+  Vos investisseurs vous demandent de prouver que vous respectez les normes de sécurité des données du secteur des cartes de paiement (PCI DSS). Vous n’envisagez pas les compromis entre la satisfaction de leur demande et la poursuite de vos efforts de développement actuels. Au lieu de cela, vous poursuivez vos efforts de développement sans en démontrer la conformité. Vos investisseurs cessent de soutenir votre entreprise en raison de préoccupations concernant la sécurité de votre plate-forme et de leurs investissements. 
+  Vous avez décidé d’inclure une bibliothèque que l’un de vos développeurs a trouvée sur Internet. Vous n’avez pas évalué les risques d’adoption de cette bibliothèque d’une source inconnue et ne savez pas si elle contient des vulnérabilités ou du code malveillant. 
+  La justification commerciale initiale de votre migration reposait sur la modernisation de 60 % des charges de travail de vos applications. Cependant, en raison de difficultés techniques, il a été décidé de ne moderniser que 20 %. Cela a entraîné une réduction des avantages prévus à long terme, une augmentation de la charge de travail des opérateurs pour la prise en charge manuelle des systèmes hérités par les équipes d’infrastructure et une plus grande dépendance au développement de nouvelles compétences au sein de vos équipes d’infrastructure qui ne prévoyaient pas ce changement. 

 **Avantages de l’établissement de cette bonne pratique :** harmonisation et prise en charge intégrales des priorités commerciales du conseil d’administration, compréhension des risques liés au succès, prise de décisions éclairées et action appropriée lorsque les risques entravent les chances de réussite. La compréhension des implications et des conséquences de vos décisions vous aide à hiérarchiser vos options et à amener les dirigeants à se mettre d’accord plus rapidement, ce qui se traduit par de meilleurs résultats commerciaux. En identifiant les avantages de vos choix et en étant conscient des risques auxquels votre organisation est exposée, vous pouvez prendre des décisions fondées sur des données, plutôt que de vous fier à des anecdotes. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 La gestion des avantages et des risques doit être définie par un organe directeur qui gère les exigences relatives à la prise de décisions clés. Les décisions doivent être prises et classées par ordre de priorité en fonction de leurs avantages pour l’organisation, en comprenant les risques encourus. Des informations précises sont essentielles à la prise de décisions organisationnelles. Cet élément doit être basé sur des mesures solides et défini par les pratiques courantes du secteur en matière d’analyse des coûts par rapport aux avantages. Pour prendre ce type de décisions, il faut trouver un équilibre entre l’autorité centralisée et l’autorité décentralisée. Les compromis sont nécessaires, et il est important de comprendre l’impact de chaque choix sur les stratégies définies et les résultats commerciaux souhaités. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Formalisez les pratiques de mesure des avantages dans un cadre de gouvernance du cloud holistique. 

   1.  Trouvez un juste milieu entre le contrôle décisionnel central et l’autorité décentralisée pour certaines décisions. 

   1.  Comprenez que les processus décisionnels fastidieux imposés à chaque décision peuvent vous ralentir. 

   1.  Intégrez des facteurs externes à votre processus de prise de décision (comme les exigences de conformité). 

1.  Établissez un cadre décisionnel convenu pour les différents niveaux de décision. Il doit notamment préciser qui est tenu de débloquer les décisions qui sont sujettes à des conflits d’intérêts. 

   1.  Centralisez les décisions à sens unique qui peuvent être irréversibles. 

   1.  Permettez aux responsables organisationnels de niveau inférieur de prendre des décisions bidirectionnelles. 

1.  Comprenez et gérez les avantages et les risques. Équilibrez les avantages des décisions par rapport aux risques impliqués. 

   1.  **Identification des avantages** : identifiez les avantages en fonction des objectifs, des besoins et des priorités de l’entreprise. Citons comme exemples l’impact des analyses de rentabilisation, les délais de mise sur le marché, la sécurité, la fiabilité, les performances et les coûts. 

   1.  **Identification des risques** : identifiez les risques en fonction des objectifs, des besoins et des priorités de l’entreprise. Les exemples incluent les délais de commercialisation, la sécurité, la fiabilité, la performance et les coûts. 

   1.  **Évaluation des avantages par rapport aux risques et prise de décisions avisées** : déterminez l’impact des avantages et des risques en fonction des objectifs, des besoins et des priorités de vos parties prenantes clés, notamment les équipes commerciales, le développement et les opérations. Évaluez la valeur ajoutée de l’avantage par rapport à la probabilité de réalisation du risque et au coût de son impact. Par exemple, l’accent mis sur la rapidité de mise sur le marché plutôt que sur la fiabilité pourrait fournir un avantage concurrentiel. Toutefois, cela peut entraîner une réduction du temps de fonctionnement en cas de problèmes de fiabilité. 

1.  Appliquez de manière programmatique les décisions clés qui automatisent le respect des exigences de conformité. 

1.  Tirez parti des cadres et des fonctionnalités connus du secteur, par exemple l’analyse de la chaîne de valeur et le LEAN, pour établir une base de référence pour les performances actuelles, les métriques stratégiques, et définissez des itérations de progrès en vue d’améliorer ces métriques. 

 **Niveau d’effort du plan d’implémentation :** moyen-élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS01-BP05 Évaluation des menaces existantes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_threat_landscape.html) 

 **Documents connexes :** 
+  [Éléments de la culture d’Amazon dès le premier jour \$1 Prise de décisions rapides et éclairées](https://aws.amazon.com/executive-insights/content/how-amazon-defines-and-operationalizes-a-day-1-culture/) 
+  [Gouvernance du cloud](https://aws.amazon.com/cloudops/cloud-governance/) 
+  [ Management and Governance Cloud Environment](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/management-and-governance-cloud-environment-guide.html?did=wp_card&trk=wp_card) 
+  [Gouvernance dans le cloud et à l’ère du numérique : première et deuxième parties](https://aws.amazon.com/blogs/enterprise-strategy/governance-in-the-cloud-and-in-the-digital-age-part-one/) 

 **Vidéos connexes :** 
+  [Podcast \$1 Jeff Bezos \$1 On how to make decisions](https://www.youtube.com/watch?v=VFwCGECvq4I) 

 **Exemples connexes :** 
+  [Prise de décisions éclairées avec des données (The DevOps Sagas)](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/oa.bcl.10-make-informed-decisions-using-data.html) 
+  [Utilisation de la cartographie de la chaîne de valeur du développement pour identifier les contraintes pesant sur les résultats DevOps](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-devops-value-stream-mapping/introduction.html) 

# OPS 2. Comment structurer l’organisation pour soutenir les résultats de l’entreprise ?
<a name="ops-02"></a>

 Vos équipes doivent comprendre leur rôle dans l’obtention des résultats de l’entreprise. Les équipes doivent comprendre leur rôle dans la réussite des autres équipes, le rôle des autres équipes dans leur réussite, et avoir des objectifs communs. La compréhension de la responsabilité, de la manière dont les décisions sont prises et qui a le pouvoir de prendre des décisions vous aide à concentrer les efforts et à maximiser les avantages de vos équipes. 

**Topics**
+ [

# OPS02-BP01 Les ressources ont identifié les propriétaires
](ops_ops_model_def_resource_owners.md)
+ [

# OPS02-BP02 Les processus et procédures ont des propriétaires identifiés
](ops_ops_model_def_proc_owners.md)
+ [

# OPS02-BP03 Les activités opérationnelles ont des propriétaires identifiés responsables de leurs performances
](ops_ops_model_def_activity_owners.md)
+ [

# OPS02-BP04 Des mécanismes sont en place pour gérer les responsabilités et qui est responsable de quoi
](ops_ops_model_def_responsibilities_ownership.md)
+ [

# OPS02-BP05 Des mécanismes sont en place pour demander des ajouts, des modifications et des dérogations
](ops_ops_model_req_add_chg_exception.md)
+ [

# OPS02-BP06 Les responsabilités entre les équipes sont prédéfinies ou négociées
](ops_ops_model_def_neg_team_agreements.md)

# OPS02-BP01 Les ressources ont identifié les propriétaires
<a name="ops_ops_model_def_resource_owners"></a>

 Les ressources de votre charge de travail doivent disposer de propriétaires identifiés pour le contrôle des modifications, le dépannage et d’autres fonctions. Des propriétaires sont désignés pour les charges de travail, les comptes, l’infrastructure, les plateformes et les applications. La propriété est enregistrée à l’aide d’outils tels qu’un registre central ou des métadonnées attachées aux ressources. La valeur commerciale des composants informe les processus et les procédures qui leur sont appliqués. 

 **Résultat escompté :** 
+  Les ressources disposent de propriétaires identifiés à l’aide de métadonnées ou d’un registre central. 
+  Les membres de l’équipe peuvent identifier le propriétaire des ressources. 
+  Les comptes disposent d’un propriétaire unique dans la mesure du possible. 

 **Anti-modèles courants :** 
+  Les contacts alternatifs pour vous ne Comptes AWS sont pas renseignés. 
+  Les ressources manquent de balises permettant d’identifier les équipes qui les possèdent. 
+  Vous avez une ITSM file d'attente sans mappage d'e-mails. 
+  Deux équipes se partagent la propriété d’un élément d’infrastructure critique. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Le contrôle des modifications pour les ressources est simple et la propriété est attribuée. 
+  Vous pouvez impliquer les bons propriétaires lors du dépannage des problèmes. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Définissez ce que signifie la propriété pour les cas d’utilisation des ressources dans votre environnement. La propriété peut signifier qui supervise les modifications apportées à la ressource, qui prend en charge la ressource pendant le dépannage, ou qui est financièrement responsable. Précisez et enregistrez les propriétaires des ressources, y compris, le nom, les coordonnées, l’organisation et l’équipe. 

 **Exemple client** 

 AnyCompany Le commerce de détail définit la propriété comme l'équipe ou l'individu responsable des changements et du soutien aux ressources. Ils tirent parti AWS Organizations de leur Comptes AWS. Les autres contacts de comptes sont configurés via des boîtes de réception de groupe. Chaque ITSM file d'attente est mappée à un alias d'e-mail. Les balises identifient les propriétaires AWS des ressources. Pour les autres plateformes et infrastructures, ces personnes disposent d’une page wiki qui identifie les propriétaires et les informations de contact. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Commencez par définir la propriété dans votre organisation. La propriété peut impliquer qui est responsable du risque pour la ressource, qui est responsable des modifications apportées à la ressource, ou qui prend en charge la ressource lors du dépannage. La propriété peut également impliquer la propriété financière ou administrative de la ressource. 

1.  Utilisez [AWS Organizations](https://aws.amazon.com/organizations/) pour gérer les comptes. Vous pouvez gérer les autres contacts de vos comptes de manière centralisée. 

   1.  Grâce aux adresses e-mail et aux numéros de téléphone appartenant à l’entreprise, vous pourrez y accéder même si les personnes qui les consultent ne font plus partie de votre entreprise. Par exemple, créez des listes de distribution d’e-mails distinctes pour la facturation, les opérations et la sécurité, et configurez-les en tant que contacts Facturation, Sécurité et Opérations dans chaque Compte AWS actif. Plusieurs personnes recevront des AWS notifications et pourront y répondre, même si une personne est en vacances, change de rôle ou quitte l'entreprise. 

   1.  Si un compte n’est pas géré par [AWS Organizations](https://aws.amazon.com/organizations/), d’autres contacts de compte aident AWS à contacter le personnel approprié si nécessaire. Configurez les autres contacts du compte pour qu’ils pointent vers un groupe plutôt que vers un individu. 

1.  Utilisez des balises pour identifier les propriétaires des AWS ressources. Vous pouvez indiquer les deux propriétaires et leurs coordonnées dans des balises distinctes. 

   1.  Vous pouvez utiliser des règles [AWS Config](https://aws.amazon.com/config/) pour garantir que les ressources possèdent les balises de propriété requises. 

   1.  Pour obtenir des conseils détaillés sur la façon d’élaborer une stratégie de balisage pour votre organisation, consultez le [livre blanc sur les bonnes pratiques en matière de balisage AWS](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html). 

1.  Utilisez [Amazon Q Business](https://aws.amazon.com/q/business/), un assistant conversationnel qui utilise l’IA générative pour améliorer la productivité du personnel, répondre aux questions et effectuer des tâches en fonction des informations contenues dans les systèmes de votre entreprise. 

   1.  Connectez Amazon Q Business à la source de données de votre entreprise. Amazon Q Business propose des connecteurs prédéfinis vers plus de 40 sources de données prises en charge, notamment Amazon Simple Storage Service (Amazon S3), SharePoint Microsoft, Salesforce et Atlassian Confluence. Pour plus d’informations, consultez la section [Connecteurs Amazon Q Business](https://aws.amazon.com/q/business/connectors/). 

1.  Pour les autres ressources, plateformes et infrastructures, créez une documentation qui identifie la propriété. Tous les membres de l’équipe doivent y avoir accès. 

 **Niveau d’effort du plan d’implémentation :** faible Utilisez les informations de contact et les tags du compte pour attribuer la propriété des AWS ressources. Pour les autres ressources, vous pouvez utiliser quelque chose d'aussi simple qu'un tableau dans un wiki pour enregistrer les informations de propriété et de contact, ou utiliser un ITSM outil pour cartographier les propriétaires. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP02 Les processus et les procédures ont identifié les propriétaires](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS02-BP04 Des mécanismes existent pour gérer les responsabilités et la propriété](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 

 **Documents connexes :** 
+  [Gestion des comptes AWS  : mise à jour des informations de contact](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-update-contact.html) 
+  [AWS Organizations - Mise à jour des contacts alternatifs au sein de votre organisation](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_accounts_update_contacts.html) 
+  [Livre blanc des Bonnes pratiques de balisage AWS](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [Créez des applications d'IA génératives d'entreprise privées et sécurisées avec Amazon Q Business and AWS IAM Identity Center](https://aws.amazon.com/blogs/machine-learning/build-private-and-secure-enterprise-generative-ai-apps-with-amazon-q-business-and-aws-iam-identity-center/) 
+  [Amazon Q Business, désormais disponible pour le grand public, contribue à améliorer la productivité du personnel grâce à l’IA générative](https://aws.amazon.com/blogs/aws/amazon-q-business-now-generally-available-helps-boost-workforce-productivity-with-generative-ai/) 
+  [AWS Cloud Blog sur les opérations et les migrations - Mise en œuvre de contrôles de balisage automatisés et centralisés avec AWS Config et AWS Organizations](https://aws.amazon.com/blogs/mt/implementing-automated-and-centralized-tagging-controls-with-aws-config-and-aws-organizations/) 
+  [AWS Blog de sécurité - Étendez vos hooks de pré-validation avec AWS CloudFormation Guard](https://aws.amazon.com/blogs/security/extend-your-pre-commit-hooks-with-aws-cloudformation-guard/) 
+  [AWS DevOps Blog - Intégration AWS CloudFormation Guard dans les pipelines CI/CD](https://aws.amazon.com/blogs/devops/integrating-aws-cloudformation-guard/) 

 **Ateliers connexes :** 
+  [Atelier AWS  : étiquetage](https://catalog.workshops.aws/tagging/) 

 **Exemples connexes :** 
+  [AWS Config Rules - Amazon EC2 avec les balises obligatoires et les valeurs valides](https://github.com/awslabs/aws-config-rules/blob/master/python/ec2_require_tags_with_valid_values.py) 

 **Services connexes :** 
+  [AWS Config Rules - étiquettes obligatoires](https://docs.aws.amazon.com/config/latest/developerguide/required-tags.html) 
+  [AWS Organizations](https://aws.amazon.com/organizations/) 

# OPS02-BP02 Les processus et procédures ont des propriétaires identifiés
<a name="ops_ops_model_def_proc_owners"></a>

 Déterminez qui est propriétaire de la définition des différents processus et procédures individuels, pourquoi ces processus et procédures sont utilisés et pourquoi cette propriété existe. La compréhension des raisons pour lesquelles des processus et des procédures spécifiques sont utilisés permet d’identifier les possibilités d’amélioration. 

 **Résultat escompté :** votre organisation dispose d’un ensemble défini et géré de processus et de procédures pour les tâches opérationnelles. Le processus et les procédures sont stockés dans un emplacement central et mis à la disposition des membres de votre équipe. Le processus et les procédures sont fréquemment mis à jour, par un propriétaire clairement désigné. Dans la mesure du possible, les scripts, les modèles et les documents d’automatisation sont implémentés sous forme de code. 

 **Anti-modèles courants :** 
+  Les processus ne sont pas documentés. Des scripts fragmentés peuvent exister sur les postes de travail d’opérateurs isolés. 
+  La connaissance de l’utilisation des scripts est détenue par quelques personnes ou de manière informelle en tant que connaissance d’équipe. 
+  Un ancien processus doit être actualisé, mais la propriété de l’actualisation est incertaine et l’auteur d’origine ne fait plus partie de l’organisation. 
+  Les processus et les scripts ne sont pas détectables, ils ne sont donc pas facilement disponibles en cas de besoin (par exemple, pour répondre à un incident). 

 **Avantages liés au respect de cette bonne pratique :** 
+  Les processus et les procédures dynamisent vos efforts pour gérer vos charges de travail. 
+  Les nouveaux membres de l’équipe deviennent efficaces plus rapidement. 
+  Réduction du temps nécessaire pour atténuer les incidents. 
+  Différents membres de l’équipe (et différentes équipes) peuvent utiliser les mêmes processus et procédures de manière cohérente. 
+  Les équipes peuvent mettre à l’échelle leurs processus à l’aide de processus reproductibles. 
+  Les processus et procédures normalisés contribuent à atténuer l’impact du transfert des responsabilités liées à la charge de travail entre les équipes. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>
+  Les processus et procédures ont un propriétaire identifié qui est responsable de leur définition. 
  +  Identifiez les activités des opérations réalisées à l’aide de vos charges de travail. Documentez ces activités dans un emplacement détectable. 
  +  Identifiez de façon unique l’individu ou l’équipe responsable de la spécification d’une activité. Il incombe à l’individu ou à l’équipe de vérifier qu’elle peut être exécutée avec succès par un membre de l’équipe disposant des autorisations, des accès et des outils appropriés. En cas de problème lié à l’exécution de l’activité, les membres de l’équipe chargés de cette tâche sont tenus de fournir les commentaires détaillés nécessaires à son amélioration. 
  +  Capturez la propriété des métadonnées de l’artefact d’activité par le biais de services tels qu’AWS Systems Manager, via des documents, et AWS Lambda. Capturez la propriété des ressources à l’aide de balises ou de groupes de ressources, en spécifiant les informations de propriété et de contact. Utilisez AWS Organizations pour créer des stratégies de balisage et capturer les informations de propriété et de contact. 
+  Au fil du temps, ces procédures doivent évoluer pour être exécutables sous forme de code, ce qui réduit la nécessité d’une intervention humaine. 
  +  Réfléchissez par exemple aux fonctions AWS Lambda, aux modèles CloudFormation ou aux documents d’automatisation AWS Systems Manager. 
  +  Effectuez le contrôle des versions dans les référentiels appropriés. 
  +  Incluez un balisage approprié des ressources afin que les propriétaires et la documentation puissent être facilement identifiés. 

 **Exemple client** 

 AnyCompany Retail définit la propriété comme l’équipe ou la personne qui possède les processus d’une application ou de groupes d’applications (qui partagent des pratiques et des technologies architecturales communes). Dans un premier temps, le processus et les procédures sont documentés sous forme de guides détaillés dans le système de gestion de documents, détectables à l’aide de balises sur le Compte AWS qui héberge l’application et sur des groupes spécifiques de ressources du compte. Ces personnes utilisent AWS Organizations pour gérer leurs Comptes AWS. Au fil du temps, ces processus sont convertis en code et les ressources sont définies à l’aide de l’infrastructure sous forme de code (par exemple, les modèles CloudFormation ou AWS Cloud Development Kit (AWS CDK)). Les processus opérationnels deviennent des documents d’automatisation dans AWS Systems Manager ou des fonctions AWS Lambda, que vous pouvez lancer en tant que tâches planifiées, en réponse à des événements tels que des alarmes AWS CloudWatch ou des événements AWS EventBridge, ou que vous pouvez démarrer par des demandes au sein d’une plateforme de gestion des services informatiques (ITSM). Tous les processus comportent des balises pour identifier leur propriété. La documentation relative à l’automatisation et au processus est conservée dans les pages wiki générées par le référentiel de code pour le processus. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Documentez les processus et procédures existants. 

   1.  Révisez-les et veillez à leur actualisation. 

   1.  Identifiez un propriétaire pour chaque processus ou procédure. 

   1.  Placez-les sous le contrôle des versions. 

   1.  Dans la mesure du possible, partagez les processus et les procédures entre les charges de travail et les environnements qui ont des conceptions architecturales en commun. 

1.  Mettez en place des mécanismes de commentaires et d’amélioration. 

   1.  Définissez des politiques relatives à la fréquence à laquelle les processus doivent être révisés. 

   1.  Définissez les processus pour les réviseurs et les approbateurs. 

   1.  Consignez les problèmes ou établissez des files d’attente de tickets afin que les commentaires puissent être transmis et faire l’objet d’un suivi. 

   1.  Dans la mesure du possible, les processus et procédures doivent faire l’objet d’une approbation préalable et d’une classification des risques par un comité d’approbation des modifications (CAB). 

1.  Vérifiez que les processus et les procédures sont accessibles et détectables par ceux qui ont besoin de les exécuter. 

   1.  Utilisez des balises pour indiquer où accéder au processus et aux procédures pour la charge de travail. 

   1.  Utilisez des messages d’erreur et d’événements significatifs afin d’indiquer les processus ou procédures appropriés pour résoudre un problème. 

   1.  Utilisez les wikis et la gestion des documents, et veillez à ce que les processus et les procédures puissent être consultés par l’ensemble de l’organisation. 

1.  Utilisez [Amazon Q Business](https://aws.amazon.com/q/business/), un assistant conversationnel qui utilise l’IA générative pour améliorer la productivité du personnel, répondre aux questions et effectuer des tâches en fonction des informations contenues dans les systèmes de votre entreprise. 

   1.  Connectez Amazon Q Business à la source de données de votre entreprise. Amazon Q Business propose des connecteurs prédéfinis vers plus de 40 sources de données prises en charge, notamment Amazon S3, Microsoft SharePoint, Salesforce et Atlassian Confluence. Pour plus d’informations, consultez [Connecteurs Amazon Q](https://aws.amazon.com/q/business/connectors/). 

1.  Automatisez le cas échéant. 

   1.  Les automatisations doivent être développées lorsque les services et les technologies fournissent une API. 

   1.  Formez de manière adéquate aux processus. Développez les témoignages d’utilisateurs et les exigences pour automatiser ces processus. 

   1.  Mesurez l’utilisation réussie de vos processus et procédures, et créez des problèmes ou des tickets pour soutenir l’amélioration itérative. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS02-BP01 Les ressources ont des propriétaires identifiés](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP04 Des mécanismes sont en place pour gérer les responsabilités et qui est responsable de quoi](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 
+  [OPS11-BP04 Gestion des connaissances](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documents connexes:** 
+  [AWS Livre blanc  : présentation du DevOps sur AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [Livre blanc AWS : bonnes pratiques en matière de balisage des ressources AWS](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [Livre blanc AWS : organisation de votre environnement AWS à l’aide de comptes multiples](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/organizing-your-aws-environment.html) 
+ [Blog sur les migrations et opérations cloud AWS Cloud : utilisation d’Amazon Q Business pour rationaliser vos opérations ](https://aws.amazon.com/blogs/mt/streamline-operations-using-amazon-q-for-business/)
+  [AWS Cloud Blog sur les opérations et les migrations  : Build a Cloud Automation Practice for Operational Excellence: Best Practices from AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [Blog sur les opérations et les migrations AWS Cloud : mise en œuvre de contrôles de balisage automatisés et centralisés avec AWS Config et AWS Organizations](https://aws.amazon.com/blogs/mt/implementing-automated-and-centralized-tagging-controls-with-aws-config-and-aws-organizations/) 
+  [AWS Blog de sécurité  : extension de vos hooks de pré-validation avec AWS CloudFormation Guard](https://aws.amazon.com/blogs/security/extend-your-pre-commit-hooks-with-aws-cloudformation-guard/) 
+  [Blog DevOps AWS : intégration de AWS CloudFormation Guard dans des pipelines CI/CD](https://aws.amazon.com/blogs/devops/integrating-aws-cloudformation-guard/) 

 **Ateliers connexes:** 
+  [AWS Atelier sur l’excellence opérationnelle Well-Architected](https://catalog.workshops.aws/well-architected-operational-excellence/en-US/) 
+  [AWS Atelier  : étiquetage](https://catalog.workshops.aws/tagging/) 

 **Vidéos connexes:** 
+  [Comment automatiser des opérations informatiques sur AWS](https://www.youtube.com/watch?v=GuWj_mlyTug) 
+  [AWS re:Invent 2020 - Automate anything with AWS Systems Manager](https://www.youtube.com/watch?v=AaI2xkW85yE) 
+  [AWS re:Inforce 2022 - Automating patch management and compliance using AWS (NIS306)](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [Supports You - Diving Deep into AWS Systems Manager](https://www.youtube.com/watch?v=xHNLNTa2xGU) 

 **Services connexes:** 
+  [AWS Systems Manager - automatisation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 
+  [Connecteur AWS Service Management](https://aws.amazon.com/service-management-connector/) 

# OPS02-BP03 Les activités opérationnelles ont des propriétaires identifiés responsables de leurs performances
<a name="ops_ops_model_def_activity_owners"></a>

 Déterminez qui est chargé d’exécuter des activités spécifiques sur des charges de travail définies et pourquoi cette responsabilité existe. La détermination de la personne responsable de l’exécution des activités indique qui va mener l’activité, valider le résultat et fournir des commentaires au propriétaire de l’activité. 

 **Résultat escompté :** 

 Votre organisation définit clairement les responsabilités relatives à l’exécution d’activités spécifiques sur des charges de travail définies et répond aux événements générés par la charge de travail. L’organisation documente la propriété des processus et de leur exécution et rend ces informations détectables. Vous passez en revue et mettez à jour les responsabilités lorsque des changements organisationnels se produisent, et les équipes suivent et mesurent les performances des activités d’identification des défauts et des inefficacités. Vous mettez en œuvre des mécanismes de rétroaction pour suivre les défauts et les améliorations et soutenir l’amélioration itérative. 

 **Anti-modèles courants :** 
+  Vous ne documentez pas les responsabilités. 
+  Des scripts fragmentés existent sur les postes de travail des opérateurs isolés. Seules quelques personnes savent comment les utiliser ou les qualifier de manière informelle de *connaissances d’équipe*. 
+  Un ancien processus doit être mis à jour, mais personne ne sait qui en a la responsabilité, et l’auteur d’origine ne fait plus partie de l’organisation. 
+  Les processus et les scripts ne sont pas détectables, ils ne sont donc pas facilement disponibles en cas de besoin (par exemple, pour répondre à un incident). 

 **Avantages liés au respect de cette bonne pratique :** 
+  Vous savez qui est responsable de l’exécution d’une activité, qui avertir lorsqu’une action est nécessaire et qui exécute l’action, qui valide le résultat et qui fournit des commentaires au responsable de l’activité. 
+  Les processus et les procédures dynamisent vos efforts pour gérer vos charges de travail. 
+  Les nouveaux membres de l’équipe deviennent efficaces plus rapidement. 
+  Vous réduisez le temps nécessaire pour atténuer les incidents. 
+  Les différentes équipes utilisent les mêmes processus et procédures pour effectuer les tâches de manière cohérente. 
+  Les équipes peuvent mettre à l’échelle leurs processus à l’aide de processus reproductibles. 
+  Les processus et procédures normalisés contribuent à atténuer l’impact du transfert des responsabilités liées à la charge de travail entre les équipes. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour commencer à définir les responsabilités, commencez par la documentation existante, comme les matrices de responsabilité, les processus et les procédures, les rôles et les responsabilités, ainsi que les outils et l’automatisation. Passez en revue et animez des discussions sur les responsabilités relatives aux processus documentés. Passez en revue les responsabilités avec les équipes pour identifier les incohérences entre les responsabilités et les processus des documents. Discutez des services proposés avec les clients internes de cette équipe afin d’identifier les écarts entre les équipes en matière d’attentes. 

 Analysez et corrigez les écarts. Identifiez les opportunités d’amélioration et recherchez les activités gourmandes en ressources et fréquemment demandées, qui sont généralement de bonnes candidates à l’amélioration. Explorez les bonnes pratiques, les modèles et les conseils prescriptifs pour simplifier et standardiser les améliorations. Enregistrez les opportunités d’amélioration et suivez les améliorations jusqu’à leur achèvement. 

 Au fil du temps, ces procédures doivent évoluer pour être exécutées sous forme de code, ce qui réduit la nécessité d’une intervention humaine. Par exemple, les procédures peuvent être lancées sous forme de fonctions AWS Lambda, de modèles CloudFormation ou de documents AWS Systems Manager Automatisation. Vérifiez que ces procédures sont contrôlées par version dans les référentiels appropriés et incluez un balisage des ressources adéquat afin que les équipes puissent identifier facilement les personnes responsables et la documentation. Documentez la responsabilité de l’exécution des activités, puis surveillez les automatisations pour garantir un démarrage et un fonctionnement réussis, ainsi que la performance des résultats souhaités. 

 **Exemple client** 

 AnyCompany Retail définit la propriété comme l’équipe ou la personne qui possède les processus d’une application ou de groupes d’applications (qui partagent des pratiques et des technologies architecturales communes). Dans un premier temps, l’entreprise documente les processus et les procédures sous forme de guides détaillés dans le système de gestion des documents. Elle fait en sorte que les procédures soient détectables à l’aide de balises sur le Compte AWS qui héberge l’application et sur des groupes spécifiques de ressources dans ce compte, en utilisant AWS Organizations pour gérer ses Comptes AWS. Au fil du temps, AnyCompany Retail convertit ces processus en code et définit les ressources en utilisant l’infrastructure sous forme de code (via des services tels que CloudFormation ou des modèles AWS Cloud Development Kit (AWS CDK)). Les processus opérationnels deviennent des documents d’automatisation dans AWS Systems Manager ou des fonctions AWS Lambda, que vous pouvez lancer en tant que tâches planifiées, en réponse à des événements tels que des alarmes Amazon CloudWatch ou des événements Amazon EventBridge, ou que vous pouvez démarrer par des demandes au sein d’une plateforme de gestion des services informatiques (ITSM). Tous les processus ont des balises pour identifier leur propriétaire. Les équipes gèrent la documentation relative à l’automatisation et au processus dans les pages wiki générées par le référentiel de code pour ce processus. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Documentez les processus et procédures existants. 

   1.  Passez-les en revue et vérifiez qu’ils sont à jour. 

   1.  Vérifiez que chaque processus ou procédure est associé à un responsable. 

   1.  Placez les procédures sous contrôle des versions. 

   1.  Dans la mesure du possible, partagez les processus et les procédures entre les charges de travail et les environnements qui ont des conceptions architecturales en commun. 

1.  Mettez en place des mécanismes de commentaires et d’amélioration. 

   1.  Définissez des politiques relatives à la fréquence à laquelle les processus doivent être révisés. 

   1.  Définissez les processus pour les réviseurs et les approbateurs. 

   1.  Mettez en œuvre une file d’attente de problèmes ou de tickets pour fournir et suivre les commentaires. 

   1.  Dans la mesure du possible, fournissez une approbation préalable et une classification des risques pour les processus et procédures effectuées par un comité d’approbation des modifications. 

1.  Rendez les processus et les procédures accessibles et détectables par les utilisateurs qui ont besoin de les exécuter. 

   1.  Utilisez des balises pour indiquer où accéder au processus et aux procédures pour la charge de travail. 

   1.  Utilisez des messages d’erreur et d’événements significatifs afin d’indiquer les processus ou procédures appropriés pour résoudre le problème. 

   1.  Utilisez les wikis ou la gestion de documents pour rendre les processus et les procédures consultables de manière cohérente dans l’ensemble de l’organisation. 

1.  Recourez à l’automatisation lorsque cela est approprié. 

   1.  Lorsque les services et les technologies fournissent une API, développez des automatisations. 

   1.  Vérifiez que les processus sont bien compris et développez les témoignages d’utilisateurs et les exigences pour automatiser ces processus. 

   1.  Mesurez l’utilisation réussie des processus et des procédures, avec un suivi des problèmes pour favoriser une amélioration itérative. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP01 Les ressources ont des propriétaires identifiés](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP02 Les processus et procédures ont des propriétaires identifiés](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP04 Des mécanismes sont en place pour gérer les responsabilités et qui est responsable de quoi](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 
+  [OPS02-BP05 Des mécanismes sont en place pour identifier la responsabilité et la propriété](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_find_owner.html) 
+  [OPS11-BP04 Gestion des connaissances](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documents connexes :** 
+  [Livre blanc AWS \$1 Présentation du DevOps sur AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [Livre blanc AWS \$1 Bonnes pratiques en matière de balisage des ressources AWS](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [Livre blanc AWS \$1 Organisation de votre environnement AWS à l’aide de comptes multiples](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/organizing-your-aws-environment.html) 
+  [Blog sur les opérations et les migrations AWS Cloud \$1 Build a Cloud Automation Practice for Operational Excellence: Best Practices from AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [Atelier AWS : étiquetage](https://catalog.workshops.aws/tagging/) 
+  [AWS Service Management Connector](https://aws.amazon.com/service-management-connector/) 

 **Vidéos connexes :** 
+  [AWS Knowledge Center Live \$1 Tagging AWS Resources](https://www.youtube.com/watch?v=MX9DaAQS15I) 
+  [AWS re:Invent 2020 \$1 Automate anything with AWS Systems Manager](https://www.youtube.com/watch?v=AaI2xkW85yE) 
+  [AWS re:Inforce 2022 \$1 Automating patch management and compliance using AWS (NIS306)](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [Supports You \$1 Diving Deep into AWS Systems Manager](https://www.youtube.com/watch?v=xHNLNTa2xGU) 

# OPS02-BP04 Des mécanismes sont en place pour gérer les responsabilités et qui est responsable de quoi
<a name="ops_ops_model_def_responsibilities_ownership"></a>

 L’identification des responsabilités de votre rôle et de la manière dont vous contribuez aux résultats de l’entreprise permet de définir les priorités de vos tâches et de comprendre pourquoi votre rôle est important. Cette approche permet aux membres de l’équipe d’identifier les besoins et d’y répondre de manière appropriée. Lorsque les membres de l’équipe connaissent leur rôle, ils savent qui est propriétaire, ils identifient les opportunités d’amélioration et ils comprennent comment influencer ou apporter les changements appropriés. 

 Il arrive qu’une responsabilité ne soit pas clairement attribuée à une personne en particulier. Dans ce cas, concevez un mécanisme permettant de combler cette lacune. Créez un chemin hiérarchique bien défini qui renvoie vers une personne habilitée à attribuer la responsabilité à un rôle spécifique ou à prévoir le nécessaire pour répondre à ce besoin. 

 **Résultat escompté :** les équipes de votre organisation ont des responsabilités clairement définies qui incluent la manière dont elles sont liées aux ressources, aux actions à effectuer, aux processus et aux procédures. Ces responsabilités correspondent aux responsabilités et aux objectifs de l’équipe, ainsi qu’à celles des autres équipes. Vous documentez les chemins hiérarchiques de manière cohérente et transparente, et vous intégrez ces décisions dans des artefacts de documentation, tels que des matrices de responsabilité, des définitions d’équipes ou des pages wiki. 

 **Anti-modèles courants :** 
+  Les responsabilités de l’équipe sont ambiguës ou mal définies. 
+  L’équipe n’attribue pas les responsabilités à des rôles spécifiques. 
+  L’équipe n’aligne pas ses buts et ses objectifs sur ses responsabilités, ce qui rend difficile la mesure du succès. 
+  Les responsabilités des membres de l’équipe ne correspondent pas à celles de l’équipe et de l’organisation dans son ensemble. 
+  Votre équipe ne tient pas les responsabilités à jour, ce qui les rend incompatibles avec les tâches qu’elle effectue. 
+  Les chemins hiérarchiques permettant de déterminer les responsabilités ne sont pas définis ou ne sont pas clairs. 
+  Les chemins hiérarchiques n’ont pas de responsable de thread unique pour garantir une réponse rapide. 
+  Les rôles, les responsabilités et les chemins hiérarchiques ne sont pas détectables, et ils ne sont donc pas facilement disponibles en cas de besoin (par exemple, en réponse à un incident). 

 **Avantages liés au respect de cette bonne pratique :** 
+  Lorsque vous savez qui est responsable ou propriétaire, vous pouvez contacter l’équipe ou le membre de l’équipe concerné pour faire une demande ou transférer une tâche. 
+  Pour réduire le risque d’inaction et de besoins non satisfaits, vous avez identifié une personne habilitée à attribuer la responsabilité ou la propriété. 
+  Lorsque vous définissez clairement l’étendue d’une responsabilité, les membres de votre équipe gagnent en autonomie et en propriété. 
+  Vos responsabilités éclairent les décisions que vous prenez, les actions que vous effectuez et vos activités de transfert à leurs véritables propriétaires. 
+  Il est facile d’identifier des responsabilités abandonnées, car vous comprenez clairement ce qui ne relève pas de la responsabilité de votre équipe, ce qui vous permet de demander des éclaircissements. 
+  Les équipes évitent la confusion et les tensions, et elles gèrent leurs charges de travail et leurs ressources de manière plus adéquate. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Identifiez les rôles et responsabilités des membres de l’équipe et assurez-vous qu’ils comprennent les attentes de leur rôle. Rendez ces informations accessibles afin que les membres de votre organisation sachent qui contacter, que ce soit une équipe ou une personne, pour des besoins spécifiques. Lorsque les organisations cherchent à tirer parti des opportunités de migration et de modernisation sur AWS, les rôles et les responsabilités peuvent également changer. Tenez vos équipes et leurs membres conscients de leurs responsabilités et formez-les de manière appropriée pour qu’ils s’acquittent de leurs tâches pendant ce changement. 

 Déterminez le rôle ou l’équipe qui doit recevoir les remontées hiérarchiques afin d’identifier les responsabilités et la propriété. Cette équipe peut dialoguer avec différentes parties prenantes pour prendre une décision. Cependant, elle doit être responsable de la gestion du processus de prise de décision. 

 Fournissez des mécanismes accessibles aux membres de votre organisation pour découvrir et identifier la propriété et la responsabilité. Ces mécanismes leur indiquent à qui s’adresser pour des besoins spécifiques. 

 **Exemple client** 

 AnyCompany Retail a récemment effectué une migration des charges de travail d’un environnement sur site vers sa zone de destination dans AWS en utilisant une approche de type « lift-and-shift ». Cette société a effectué un examen des opérations afin de réfléchir à la manière d’accomplir les tâches opérationnelles courantes, et a vérifié que sa matrice de responsabilité existante reflétait les opérations dans le nouvel environnement. Lors de la migration de l’infrastructure sur site vers AWS, elle a réduit les responsabilités de l’équipe chargée de l’infrastructure en ce qui concerne le matériel et l’infrastructure physique. Cette décision a également révélé de nouvelles opportunités de faire évoluer le modèle opérationnel pour ses charges de travail. 

 Tout en identifiant, en abordant et en documentant la majorité des responsabilités, elle a également défini des chemins hiérarchiques pour toutes les responsabilités qui n’ont pas été respectées ou qui pourraient changer à mesure que les pratiques opérationnelles évoluent. Pour explorer de nouvelles opportunités de standardisation et d’amélioration de l’efficacité de vos charges de travail, donnez accès à des outils opérationnels comme AWS Systems Manager et à des outils de sécurité comme AWS Security Hub CSPM et Amazon GuardDuty. L’entreprise AnyCompany Retail organise une révision de ses responsabilités et de sa stratégie en fonction des améliorations qu’elle souhaite apporter en premier lieu. Au fur et à mesure que l’entreprise adopte de nouvelles méthodes de travail et de nouveaux modèles technologiques, elle met à jour sa matrice de responsabilité en conséquence. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Commencez par la documentation existante. Certains documents sources classiques peuvent inclure les éléments suivants : 

   1.  Matrices de responsabilité ou matrices RACI (Responsible, Accountable, Consulted, and Informed) 

   1.  Définitions des équipes ou pages wiki 

   1.  Définitions et offres de services 

   1.  Descriptions de rôle ou de poste 

1.  Passez en revue les responsabilités documentées et organisez des discussions à ce sujet : 

   1.  Passez en revue les responsabilités avec les équipes pour identifier les incohérences entre les responsabilités documentées et les responsabilités que l’équipe assume habituellement. 

   1.  Discutez des services potentiels proposés par les clients internes afin d’identifier les écarts d’attentes entre les équipes. 

1.  Analysez et corrigez les écarts. 

1.  Identifiez les opportunités d’amélioration. 

   1.  Identifiez les demandes fréquentes gourmandes en ressources, qui sont généralement de bonnes candidates à l’amélioration. 

   1.  Recherchez les bonnes pratiques, comprenez les modèles, suivez les conseils prescriptifs, et simplifiez et standardisez les améliorations. 

   1.  Enregistrez les opportunités d’amélioration et suivez-les jusqu’à leur réalisation. 

1.  Si aucune équipe n’est encore chargée de la gestion et du suivi de l’attribution des responsabilités, identifiez un membre de l’équipe qui assumera cette responsabilité. 

1.  Définissez un processus permettant aux équipes de demander des éclaircissements sur les responsabilités. 

   1.  Passez en revue le processus et vérifiez qu’il est clair et simple à utiliser. 

   1.  Assurez-vous que quelqu’un contrôle les remontées hiérarchiques et en assure le suivi jusqu’à leur conclusion. 

   1.  Établissez des métriques opérationnelles pour mesurer l’efficacité. 

   1.  Créez un mécanisme de rétroaction pour vérifier que les équipes peuvent mettre en avant les opportunités d’amélioration. 

   1.  Mettez en place un mécanisme de vérification périodique. 

1.  Stockez les documents à un endroit détectable et accessible. 

   1.  Les wikis ou les portails de documentation sont des choix courants. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS01-BP06 Évaluation des compromis](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS03-BP02 Les membres de l’équipe sont habilités à agir lorsque les résultats sont remis en cause](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_emp_take_action.html) 
+  [OPS03-BP03 La remontée hiérarchique est encouragée](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_enc_escalation.html) 
+  [OPS03-BP07 Fournir aux équipes les ressources appropriées](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_res_appro.html) 
+  [OPS09-BP01 Mesure des objectifs opérationnels et des KPI à l’aide de métriques](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html) 
+  [OPS09-BP03 Vérification des métriques des opérations et définition de la priorité des améliorations](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS11-BP01 Définition d’un processus d’amélioration continue](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_process_cont_imp.html) 

 **Documents connexes :** 
+  [Livre blanc AWS : présentation du DevOps sur AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [Livre blanc AWS : cadre d’adoption AWS Cloud : point de vue des opérations](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/aws-caf-operations-perspective.html) 
+  [Excellence opérationnelle du cadre AWS Well-Architected : topologies du modèle d’exploitation au niveau de la charge de travail](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/operating-model-2-by-2-representations.html) 
+  [Conseils prescriptifs AWS : création de votre modèle d’exploitation cloud](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/welcome.html) 
+  [AWSConseils prescriptifs  : création d’une matrice RACI ou RASCI pour un modèle d’exploitation cloud](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/create-a-raci-or-rasci-matrix-for-a-cloud-operating-model.html) 
+  [Blog sur les opérations et les migrations AWS Cloud : création de valeur commerciale grâce aux équipes de la plateforme cloud](https://aws.amazon.com/blogs/mt/delivering-business-value-with-cloud-platform-teams/) 
+  [Blog sur les opérations et les migrations AWS Cloud : pourquoi un modèle d’exploitation dans le cloud ?](https://aws.amazon.com/blogs/mt/why-a-cloud-operating-model/) 
+  [Blog DevOps AWS : comment les entreprises se modernisent pour les opérations cloud](https://aws.amazon.com/blogs/devops/how-organizations-are-modernizing-for-cloud-operations/) 

 **Vidéos connexes :** 
+  [AWS Summit Online - Cloud Operating Models for Accelerated Transformation](https://www.youtube.com/watch?v=ksJ5_UdYIag) 
+  [AWS re:Invent 2023 - Future-proofing cloud security: A new operating model](https://www.youtube.com/watch?v=GFcKCz1VO2I) 

# OPS02-BP05 Des mécanismes sont en place pour demander des ajouts, des modifications et des dérogations
<a name="ops_ops_model_req_add_chg_exception"></a>

Vous pouvez adresser des demandes aux propriétaires des processus, des procédures et des ressources. Les demandes comprennent les ajouts, les modifications et les exceptions. Ces demandes sont soumises à un processus de gestion des modifications. Prenez des décisions avisées pour approuver les demandes lorsque celles-ci sont viables et appropriées après une évaluation des avantages et des risques. 

 **Résultat escompté :** 
+  Vous pouvez faire des demandes de modification des processus, des procédures et des ressources en fonction de la propriété attribuée. 
+  Les modifications sont réalisées de manière délibérée, en pesant les avantages et les risques. 

 **Anti-modèles courants :** 
+  Vous devez mettre à jour la façon dont vous déployez votre application, mais il n’existe aucun moyen de demander à l’équipe chargée des opérations de modifier le processus de déploiement. 
+  Le plan de reprise après sinistre doit être mis à jour, mais il n’y a aucun propriétaire désigné à qui demander des modifications. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Les processus, les procédures et les ressources peuvent évoluer au fur et à mesure que les exigences évoluent. 
+  Les propriétaires peuvent décider en connaissance de cause du moment où il convient d’apporter des modifications. 
+  Les modifications sont réalisées de manière délibérée. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour mettre en œuvre cette bonne pratique, vous devez être en mesure de demander des modifications des processus, des procédures et des ressources. Le processus de gestion des modifications peut être léger. Documentez le processus de gestion des modifications. 

 **Exemple client** 

 AnyCompany Retail utilise une matrice d’attribution des responsabilités (RACI) pour identifier qui est responsable des modifications des processus, des procédures et des ressources. La société dispose d’un processus de gestion des modifications documenté, léger et facile à suivre. En utilisant la matrice RACI et le processus, n’importe qui peut soumettre des demandes de modification. 

 **Étapes d’implémentation** 

1.  Identifiez les processus, les procédures et les ressources pour votre charge de travail et les responsables de chacun d’entre eux. Documentez-les dans votre système de gestion des connaissances. 

   1.  Si vous n’avez pas implémentés [OPS02-BP01 Les ressources ont identifié les propriétaires](ops_ops_model_def_resource_owners.md), [OPS02-BP02 Les processus et procédures ont des propriétaires identifiés](ops_ops_model_def_proc_owners.md) ou [OPS02-BP03 Les activités opérationnelles ont des propriétaires identifiés responsables de leurs performances](ops_ops_model_def_activity_owners.md), commencez par là. 

1.  Travaillez avec les parties prenantes de votre organisation pour élaborer un processus de gestion des modifications. Le processus doit couvrir les ajouts, les modifications et les exceptions pour les ressources, les processus et les procédures. 

   1.  Vous pouvez utiliser [AWS Systems Manager Change Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html) comme plateforme de gestion des modifications pour les ressources de charge de travail. 

1.  Documentez le processus de gestion des modifications dans votre système de gestion des connaissances. 

 **Niveau d’effort du plan d’implémentation :** moyen. L’élaboration d’un processus de gestion des modifications nécessite un alignement avec les multiples parties prenantes de votre organisation. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP01 Les ressources ont identifié les propriétaires](ops_ops_model_def_resource_owners.md) : les ressources ont besoin de propriétaires identifiés avant la mise en place d’un processus de gestion du changement. 
+  [OPS02-BP02 Les processus et procédures ont des propriétaires identifiés](ops_ops_model_def_proc_owners.md) : les processus ont besoin de propriétaires identifiés avant la mise en place d’un processus de gestion du changement. 
+  [OPS02-BP03 Les activités opérationnelles ont des propriétaires identifiés responsables de leurs performances](ops_ops_model_def_activity_owners.md) : les activités opérationnelles ont besoin de propriétaires identifiés avant la mise en place d’un processus de gestion du changement. 

 **Documents connexes :** 
+ [Conseils prescriptifs AWS : manuel de base pour les grandes migrations AWS : création de matrices RACI](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-foundation-playbook/team-org.html#raci)
+ [Livre blanc sur la gestion des modifications dans le cloud](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html)

 **Services connexes :** 
+ [Gestionnaire des modifications AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html)

# OPS02-BP06 Les responsabilités entre les équipes sont prédéfinies ou négociées
<a name="ops_ops_model_def_neg_team_agreements"></a>

Utilisez des accords définis ou négociés entre les équipes, accords qui décrivent la manière dont elles travaillent ensemble et se soutiennent mutuellement (par exemple, les temps de réponse, les objectifs de niveau de service ou les contrats de niveau de service). Les canaux de communication entre équipes sont documentés. La compréhension de l’impact du travail des équipes sur les résultats opérationnels et les résultats des autres équipes et organisations indique la priorité de leurs tâches et les aide à répondre de manière appropriée. 

 Lorsque la responsabilité et la propriété ne sont pas définies ou sont inconnues, vous risquez de ne pas traiter les activités nécessaires en temps opportun et de déployer des efforts redondants et potentiellement contradictoires pour répondre à ces besoins. 

 **Résultat escompté :** 
+  Des accords de travail ou de soutien entre équipes sont convenus et documentés. 
+  Les équipes qui se soutiennent ou travaillent les unes avec les autres ont défini des canaux de communication et des attentes en matière de réponse. 

 **Anti-modèles courants :** 
+  Un problème survient en production et deux équipes distinctes commencent à le résoudre indépendamment l’une de l’autre. Leurs efforts cloisonnés prolongent la panne. 
+  L’équipe chargée des opérations a besoin de l’aide de l’équipe de développement mais aucun délai de réponse n’a été convenu. La demande est bloquée dans le backlog. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Les équipes savent comment interagir et se soutenir mutuellement. 
+  Les attentes en matière de réactivité sont connues. 
+  Les canaux de communication sont clairement définis. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** bas 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 La mise en œuvre de cette bonne pratique signifie qu’il n’y a aucune ambiguïté sur la façon dont les équipes travaillent les unes avec les autres. Les accords formels codifient la manière dont les équipes travaillent ensemble ou se soutiennent mutuellement. Les canaux de communication entre équipes sont documentés. 

 **Exemple client** 

 L’équipe SRE d’AnyCompany Retail a conclu un contrat de niveau de service avec son équipe de développement. Chaque fois que l’équipe de développement émet une demande dans son système de tickets, elle peut s’attendre à recevoir une réponse dans les quinze minutes. En cas de panne du site, l’équipe SRE mène l’enquête avec le soutien de l’équipe de développement. 

 **Étapes d’implémentation** 

1.  En collaboration avec les parties prenantes de votre organisation, élaborez des accords entre les équipes sur la base de processus et de procédures. 

   1.  Si un processus ou une procédure est partagé entre deux équipes, élaborez un runbook sur la manière dont les équipes travailleront ensemble. 

   1.  S’il existe des dépendances entre les équipes, convenez d’un accord de niveau de service pour la réponse aux demandes. 

1.  Documentez les responsabilités dans votre système de gestion des connaissances. 

 **Niveau d’effort du plan d’implémentation :** moyen. Si rien n’est convenu entre les équipes, il peut être difficile de parvenir à un accord avec les parties prenantes de votre organisation. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP02 Les processus et procédures ont des propriétaires identifiés](ops_ops_model_def_proc_owners.md) : la propriété du processus doit être identifiée avant la conclusion d’accords entre les équipes. 
+  [OPS02-BP03 Les activités opérationnelles ont des propriétaires identifiés responsables de leurs performances](ops_ops_model_def_activity_owners.md) : la propriété des activités opérationnelles doit être identifiée avant la conclusion d’accords entre les équipes. 

 **Documents connexes :** 
+ [AWS Executive Insights : favoriser l’innovation avec l’équipe de Two-Pizza](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/)
+ [Présentation de DevOps sur AWS : équipes de Two-Pizza](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/two-pizza-teams.html)

# OPS 3. Comment votre culture organisationnelle soutient-elle vos résultats opérationnels ?
<a name="ops-03"></a>

 Offrez du soutien aux membres de votre équipe afin qu’ils puissent agir plus efficacement et soutenir les résultats commerciaux. 

**Topics**
+ [

# OPS03-BP01 Assurer le parrainage de la direction
](ops_org_culture_executive_sponsor.md)
+ [

# OPS03-BP02 Les membres de l’équipe sont habilités à agir lorsque les résultats sont remis en cause
](ops_org_culture_team_emp_take_action.md)
+ [

# OPS03-BP03 L'escalade est encouragée
](ops_org_culture_team_enc_escalation.md)
+ [

# OPS03-BP04 Les communications sont opportunes, claires et exploitables
](ops_org_culture_effective_comms.md)
+ [

# OPS03-BP05 L’expérimentation est encouragée
](ops_org_culture_team_enc_experiment.md)
+ [

# OPS03-BP06 Les membres de l’équipe sont invités à maintenir et à développer leurs compétences
](ops_org_culture_team_enc_learn.md)
+ [

# OPS03-BP07 Ressources appropriées pour les équipes
](ops_org_culture_team_res_appro.md)

# OPS03-BP01 Assurer le parrainage de la direction
<a name="ops_org_culture_executive_sponsor"></a>

 À l’échelon le plus élevé de l’entreprise, la haute direction agit en tant que parrain exécutif pour définir clairement les attentes et l’orientation des résultats de l’organisation, y compris en évaluant son succès. Ce parrain préconise et favorise l’adoption des bonnes pratiques et l’évolution de l’organisation. 

 **Résultat escompté :** les organisations qui s’efforcent d’adopter, de transformer et d’optimiser leurs opérations cloud établissent des lignes de direction et de responsabilité claires pour obtenir les résultats souhaités. L’organisation comprend chaque capacité requise pour atteindre un nouveau résultat et attribue la propriété du développement aux équipes fonctionnelles. La direction définit activement cette orientation, attribue la propriété, assume la responsabilité et définit le travail à accomplir. Les membres de l’organisation peuvent ainsi se mobiliser, se sentir inspirés et travailler activement à la réalisation des objectifs souhaités. 

 **Anti-modèles courants :** 
+  Les responsables de charges de travail doivent migrer les charges de travail vers AWS sans parrain ni plan précis pour les opérations cloud. Par conséquent, les équipes ne collaborent pas consciemment pour améliorer et faire mûrir leurs capacités opérationnelles. L’absence de normes en matière de bonnes pratiques opérationnelles submerge les équipes (telles que la quantité de travail des opérateurs, les astreintes et la dette technique), ce qui limite l’innovation. 
+  Un nouvel objectif à l’échelle de l’organisation a été fixé pour adopter une technologie émergente sans assurer le parrainage de la direction ni fournir aucune stratégie. Les équipes interprètent les objectifs différemment, ce qui ne permet pas de savoir où concentrer les efforts, pourquoi ils sont importants et comment mesurer l’impact. Par conséquent, l’organisation perd son élan dans l’adoption de la technologie. 

 **Avantages de l’établissement de cette bonne pratique :** lorsque le parrainage exécutif communique et partage clairement la vision, l’orientation et les objectifs, les membres de l’équipe savent ce que l’on attend d’eux. Les individus et les équipes commencent à concentrer intensément leurs efforts dans la même direction pour atteindre les objectifs définis lorsque les dirigeants sont activement engagés. Par conséquent, l’organisation maximise sa capacité à réussir. Lorsque vous évaluez le succès, vous pouvez mieux identifier les obstacles au succès afin de pouvoir les surmonter grâce à l’intervention du sponsor exécutif. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>
+  À chaque étape de la transition vers le cloud (migration, adoption ou optimisation), la réussite passe par une implication active au plus haut niveau de la direction, avec un parrain exécutif désigné. Le parrain exécutif aligne l’état d’esprit, les compétences et les méthodes de travail de l’équipe sur la stratégie définie. 
  +  **Explication de la *raison* :** apportez de la clarté et expliquez le raisonnement qui sous-tend la vision et la stratégie. 
  +  **Définition des attentes :** spécifiez et publiez des objectifs pour vos organisations, y compris la façon dont le progrès et la réussite sont évalués. 
  +  **Suivi de la réalisation des objectifs :** mesurez régulièrement la réalisation progressive des objectifs (non seulement l’achèvement des tâches). Partagez les résultats afin que les actions appropriées puissent être effectuées si les résultats sont menacés. 
  +  **Fourniture des ressources nécessaires pour atteindre vos objectifs :** réunissez les personnes et les équipes pour qu’elles collaborent et élaborent les bonnes solutions qui produisent les résultats définis. Cette approche permet de réduire ou d’éliminer les frictions organisationnelles. 
  +  **Défense de vos équipes :** restez impliqué avec vos équipes afin de comprendre comment elles évoluent et de savoir s’il existe des facteurs externes qui les affectent. Identifiez les obstacles qui entravent la progression de vos équipes. Agissez au nom de vos équipes pour surmonter les obstacles et éliminer les charges inutiles. Lorsque vos équipes sont affectées par des facteurs externes, réévaluez les objectifs et ajustez les cibles le cas échéant. 
  +  **Être un moteur de l’adoption des bonnes pratiques :** acceptez les bonnes pratiques qui apportent des avantages quantifiables et montrez de la reconnaissance pour les créateurs et les adoptants. Encouragez une adoption plus large pour amplifier les avantages obtenus. 
  +  **Encouragement de l’évolution de vos équipes :** créez une culture d’amélioration continue et apprenez de manière proactive des progrès réalisés et des échecs. Encouragez la croissance et le développement personnels et organisationnels. Utilisez les données et des anecdotes pour faire évoluer la vision et la stratégie. 

 **Exemple client** 

 AnyCompany Retail est en train de transformer ses activités grâce à une réinvention rapide de l’expérience client, à l’amélioration de la productivité et à l’accélération de la croissance via l’IA générative. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Établissez un leadership unique et désignez un sponsor exécutif principal pour diriger et piloter la transformation. 

1.  Définissez les résultats commerciaux clairs de votre transformation et attribuez les responsabilités aux parties prenantes. Donnez au sponsor exécutif principal le pouvoir nécessaire pour diriger et prendre des décisions critiques. 

1.  Vérifiez que votre stratégie de transformation est très claire et qu’elle est largement communiquée par le sponsor exécutif à tous les niveaux de l’organisation. 

   1.  Établissez des objectifs commerciaux clairement définis pour les initiatives informatiques et cloud. 

   1.  Documentez les métriques commerciales clés pour favoriser la transformation de l’informatique et du cloud. 

   1.  Communiquez la vision de manière cohérente à toutes les équipes et à toutes les personnes responsables de divers aspects de la stratégie. 

1.  Élaborez des matrices de planification de la communication qui spécifient le message à transmettre à des dirigeants, des responsables et des contributeurs individuels spécifiques. Spécifiez la personne ou l’équipe qui devra transmettre ce message. 

   1.  Exécutez les plans de communication de manière cohérente et fiable. 

   1.  Définissez et gérez les attentes en organisant régulièrement des événements en personne. 

   1.  Acceptez les retours sur l’efficacité des communications, ajustez les communications et planifiez en conséquence. 

   1.  Planifiez des événements de communication pour comprendre de manière proactive les défis rencontrés par les équipes et établissez une boucle de rétroaction cohérente qui permettra de corriger le cap si nécessaire. 

1.  Lancez activement chaque initiative du point de vue de la direction afin de vérifier que toutes les équipes concernées comprennent les résultats qu’elles sont tenues d’atteindre. 

1.  À chaque réunion sur l’état d’avancement, les sponsors exécutifs doivent rechercher les obstacles, examiner les métriques établies, les anecdotes ou le retour des équipes, et mesurer les progrès réalisés par rapport aux objectifs. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS03-BP04 Les communications sont opportunes, claires et exploitables](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_effective_comms.html) 
+  [OP11-BP01 Définition d’un processus d’amélioration continue](wellarchitected/latest/operational-excellence-pillar/evolve/learn_share_and_improve/ops_evolve_ops_process_cont_imp.html) 
+  [OPS11-BP07 Examen des métriques des opérations](wellarchitected/latest/operational-excellence-pillar/evolve/learn_share_and_improve/ops_evolve_ops_metrics_review.html) 

 **Documents connexes :** 
+  [Untangling Your Organisational Hairball: Highly Aligned](https://aws.amazon.com/blogs/enterprise-strategy/untangling-your-organisational-hairball-highly-aligned/) 
+  [The Living Transformation: Pragmatically approaching changes](https://aws.amazon.com/blogs/enterprise-strategy/the-living-transformation-pragmatically-approaching-changes/) 
+  [Becoming a Future-Ready Enterprise](https://aws.amazon.com/blogs/enterprise-strategy/becoming-a-future-ready-enterprise/) 
+  [7 Pitfalls to Avoid When Building a CCOE](https://aws.amazon.com/blogs/enterprise-strategy/7-pitfalls-to-avoid-when-building-a-ccoe/) 
+  [Navigating the Cloud: Key Performance Indicators for Success](https://aws.amazon.com/blogs/enterprise-strategy/navigating-the-cloud-key-performance-indicators-for-success/) 

 **Vidéos connexes :** 
+  [AWS re:INVENT 2023: A leader’s guide to generative AI: Using history to shape the future (SEG204)](https://youtu.be/e3snrDsct1o) 

 **Exemples connexes :** 
+  [Prosci : rôle et importance du parrain principal](https://www.prosci.com/blog/primary-sponsors-role-and-importance) 

# OPS03-BP02 Les membres de l’équipe sont habilités à agir lorsque les résultats sont remis en cause
<a name="ops_org_culture_team_emp_take_action"></a>

 Un comportement culturel axé sur la responsabilisation inculqué par la direction donne à chaque employé le sentiment d’être habilité à agir au nom de l’ensemble de l’entreprise au-delà de son mandat et de ses responsabilités définis. Les employés peuvent agir pour identifier les risques de manière proactive à mesure qu’ils apparaissent et prendre les mesures appropriées. Une telle culture permet aux employés de prendre des décisions importantes en ayant connaissance de la situation. 

 Par exemple, Amazon utilise [les principes de leadership](https://www.amazon.jobs/content/en/our-workplace/leadership-principles) comme directives pour inciter les employés à adopter le comportement souhaité afin d’avancer dans les situations, de résoudre les problèmes, de gérer les conflits et de prendre des mesures. 

 **Résultat escompté :** le leadership a influencé une nouvelle culture qui permet aux individus et aux équipes de prendre des décisions critiques, même aux niveaux inférieurs de l’organisation (les décisions à long terme étant définies par des autorisations vérifiables et des mécanismes de sécurité). L’échec n’est pas découragé et les équipes apprennent de manière itérative à améliorer leurs prises de décisions et leurs réactions afin de pouvoir faire face à des situations similaires à l’avenir. Si les actions d’une personne entraînent une amélioration susceptible pouvant bénéficier à d’autres équipes, les leçons tirées de ces actions sont partagées avec ces équipes. La direction mesure les améliorations opérationnelles et incite l’individu et l’organisation à adopter de tels modèles. 

 **Anti-modèles courants :** 
+  Il n’existe pas de directives ni de mécanismes clairs au sein d’une organisation, indiquant la marche à suivre lorsqu’un risque est identifié. Par exemple, lorsqu’un employé remarque une attaque de phishing, il n’en informe pas l’équipe de sécurité, ce qui entraîne une propagation de l’attaque dans une grande partie de l’organisation. Cela entraîne une violation de données. 
+  Vos clients se plaignent de l’indisponibilité du service, qui est principalement due à l’échec des déploiements. Votre équipe SRE est responsable de l’outil de déploiement, et une annulation automatique des déploiements figure dans sa feuille de route à long terme. Lors du récent déploiement d’une application, l’un des ingénieurs a conçu une solution permettant de restaurer automatiquement la version précédente de son application. Bien que sa solution puisse servir de modèle aux équipes SRE, les autres équipes ne l’adoptent pas, car il n’existe aucun processus permettant de suivre ces améliorations. L’organisation continue de faire face à des échecs de déploiements qui ont un impact sur les clients et suscitent encore davantage de sentiments négatifs. 
+  Afin de rester en conformité, votre équipe de sécurité informatique supervise un processus établi de longue date qui consiste à alterner régulièrement les clés SSH partagées pour le compte des opérateurs qui se connectent à leurs instances Amazon EC2 Linux. Les équipes de sécurité de l’information mettent plusieurs jours à effectuer la rotation des clés, ce qui vous empêche de vous connecter à ces instances. Personne, au sein de l’équipe de sécurité de l’information ou ailleurs, ne suggère d’utiliser d’autres options sur AWS pour obtenir le même résultat. 

 **Avantages de l’établissement de cette bonne pratique :** en décentralisant l’autorité chargée de prendre des décisions et en habilitant vos équipes à prendre les décisions clés, vous êtes en mesure de résoudre les problèmes plus rapidement avec des taux de réussite accrus. De plus, les équipes commencent à ressentir un sentiment d’appartenance et à réaliser que les échecs sont acceptables. L’expérimentation devient un pilier de la culture. Les responsables et les directeurs n’ont pas l’impression d’être microgérés dans tous les aspects de leur travail. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

1.  Développez une culture où l’on s’attend à ce que des échecs se produisent. 

1.  Définissez clairement la responsabilité et la propriété pour les différents domaines fonctionnels de l’organisation. 

1.  Communiquez la propriété et la responsabilité à tous afin que chaque personne sache qui peut l’aider à prendre des décisions décentralisées. 

1.  Définissez vos décisions à sens unique et bidirectionnelles pour aider les individus à déterminer quand ils doivent faire remonter un problème à des niveaux hiérarchiques supérieurs. 

1.  Sensibilisez l’organisation au fait que tous les employés sont habilités à agir à différents niveaux lorsque les résultats sont menacés. Fournissez aux membres de votre équipe de la documentation sur la gouvernance, les niveaux d’autorisation, les outils et les opportunités de mettre en pratique les compétences nécessaires pour réagir efficacement. 

1.  Donnez aux membres de votre équipe l’occasion de mettre en pratique les compétences nécessaires pour répondre à diverses décisions. Une fois les niveaux de décision définis, effectuez des journées de simulation pour vérifier que tous les contributeurs comprennent le processus et peuvent le démontrer. 

   1.  Fournissez d’autres environnements sûrs où les processus et les procédures peuvent être testés et auxquels les parties prenantes peuvent être formées en toute sécurité. 

   1.  Soulignez et faites prendre conscience que les membres de l’équipe ont le pouvoir de prendre des mesures lorsque le résultat présente un niveau de risque prédéfini. 

   1.  Définissez le pouvoir des membres de l’équipe de prendre des mesures en leur attribuant des autorisations et un accès aux charges de travail et aux composants qu’ils prennent en charge. 

1.  Permettez aux équipes de partager les leçons tirées (réussites et échecs opérationnels). 

1.  Donnez aux équipes les moyens de remettre en question le statu quo et fournissez des mécanismes permettant de suivre et de mesurer les améliorations, ainsi que leur impact sur l’organisation. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS01-BP06 Évaluation des compromis tout en gérant les avantages et les risques](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS02-BP05 Des mécanismes sont en place pour identifier la responsabilité et la propriété](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_req_add_chg_exception.html) 

 **Documents connexes :** 
+  [Article de blog AWS \$1 The agile enterprise](https://aws.amazon.com/blogs/enterprise-strategy/the-agile-enterprise/) 
+  [Article de blog AWS \$1 Measuring success : A paradox and a plan](https://aws.amazon.com/blogs/enterprise-strategy/measuring-success-a-paradox-and-a-plan/) 
+  [Article de blog AWS \$1 Letting go : Enabling autonomy in teams](https://aws.amazon.com/blogs/enterprise-strategy/letting-go-enabling-autonomy-in-teams/) 
+  [Centralize or Decentralize?](https://aws.amazon.com/blogs/enterprise-strategy/centralize-or-decentralize/) 

 **Vidéos connexes :** 
+  [re:Invent 2023 \$1 How to not sabotage your transformation (SEG201)](https://www.youtube.com/watch?v=heLvxK5N8Aw) 
+  [re:Invent 2021 - Amazon Builders’ Library: Operational Excellence at Amazon](https://www.youtube.com/watch?v=7MrD4VSLC_w) 
+  [Centralization vs. Decentralization](https://youtu.be/jviFsd4hhfE?si=fjt8avVAYxA9jF01) 

 **Exemples connexes :** 
+  [Utilisation d’enregistrements de décisions architecturales pour rationaliser la prise de décisions techniques dans le cadre d’un projet de développement logiciel](https://docs.aws.amazon.com/prescriptive-guidance/latest/architectural-decision-records/welcome.html) 

# OPS03-BP03 L'escalade est encouragée
<a name="ops_org_culture_team_enc_escalation"></a>

 Les membres de l’équipe sont encouragés par la direction à faire part des problèmes et des préoccupations aux décideurs et aux parties prenantes de niveau supérieur s’ils estiment que les résultats souhaités sont menacés et que les normes attendues ne sont pas respectées. Il s’agit d’une caractéristique de la culture de l’entreprise, qui est encouragée à tous les niveaux. Les remontées doivent être effectuées tôt et souvent afin que les risques puissent être identifiés et les incidents évités La direction ne réprimande pas les personnes qui font remonter un problème. 

 **Résultat escompté :** les membres de l’organisation sont à l’aise pour porter les problèmes à leur niveau de direction immédiat ou supérieur. La direction a délibérément et consciemment fixé des attentes pour que ses équipes se sentent en sécurité lorsqu’il s’agit de faire remonter un problème. Un mécanisme est en place pour faire remonter les problèmes à chaque niveau de l’organisation. Lorsque les employés font remonter un problème à leur responsable, ils décident conjointement du niveau d’impact et de la nécessité ou non de faire remonter ce problème à un niveau supérieur. Pour lancer une remontée hiérarchique, les employés doivent inclure une recommandation de plan de travail visant à résoudre le problème. Si le supérieur direct ne prend pas de mesures en temps opportun, les employés sont encouragés à faire remonter les problèmes au niveau hiérarchique le plus élevé au sein de la direction s’ils sont convaincus que les risques pour l’organisation justifient une telle démarche. 

 **Anti-modèles courants :** 
+  Les dirigeants ne posent pas suffisamment de questions approfondies lors de la réunion sur l’état d’avancement de votre programme de transformation du cloud pour identifier les problèmes et les blocages. Seules les bonnes nouvelles sont présentées dans l’état d’avancement. Elle CIO a clairement indiqué qu'elle n'aimait entendre que les bonnes nouvelles, car tout défi soulevé laisse CEO penser que le programme est un échec. 
+  Vous êtes ingénieur des opérations cloud et vous remarquez que le nouveau système de gestion des connaissances n’est pas largement adopté par les équipes d’application. L’entreprise a investi un an et plusieurs millions de dollars pour mettre en œuvre ce nouveau système de gestion des connaissances, mais les utilisateurs continuent de créer leurs runbooks localement et de les partager sur un partage cloud organisationnel. Cette approche rend difficile la recherche de connaissances pertinentes pour les charges de travail prises en charge. Vous essayez d’attirer l’attention de la direction sur ce point, car une utilisation cohérente de ce système contribuerait à améliorer l’efficacité opérationnelle. Lorsque vous expliquez la situation à la directrice qui gère la mise en œuvre du système de gestion des connaissances, elle vous réprimande, car cela remet en question l’investissement. 
+  L'équipe infosec chargée du renforcement des ressources informatiques a décidé de mettre en place un processus qui nécessite d'effectuer les analyses nécessaires pour garantir que les EC2 instances sont entièrement sécurisées avant que l'équipe de calcul ne libère la ressource pour utilisation. Cela a créé un délai d'une semaine supplémentaire pour le déploiement des ressources, ce qui les interromptSLA. L’équipe informatique craint de faire remonter ce problème au vice-président via le cloud, car cela donnerait une mauvaise image du vice-président de la sécurité de l’information. 

 **Avantages liés au respect de cette bonne pratique :** 

 Les problèmes complexes ou critiques sont résolus avant d’avoir un impact sur l’entreprise. Les pertes de temps sont réduites. Les risques sont minimisés. Les équipes deviennent plus proactives et plus axées sur les résultats lorsqu’elles résolvent des problèmes. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 La volonté et la capacité de faire remonter librement un problème à tous les niveaux de l’entreprise constituent un fondement organisationnel et culturel qui doit être développé consciemment en mettant l’accent sur la formation, la communication avec la direction, la définition des attentes et le déploiement de mécanismes dans l’ensemble de l’organisation à tous les niveaux. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Définissez les stratégies, les normes et les attentes de votre organisation. 

   1.  Assurez l’adoption et la compréhension à grande échelle des stratégies, des attentes et des normes. 

1.  Encouragez les employés, formez-les et donnez-leur les moyens de faire remonter les problèmes rapidement et fréquemment lorsque les normes ne sont pas respectées. 

1.  Reconnaissez sur le plan organisationnel que la bonne pratique consiste à faire remonter les informations rapidement et fréquemment. Acceptez le fait que les remontées puissent être sans fondement et qu’il est préférable d’avoir la possibilité d’éviter un incident plutôt que de devoir y faire face parce que vous n’avez pas fait remonter l’information. 

   1.  Construisez un mécanisme d’escalade (comme un système à cordes Andon). 

   1.  Disposez de procédures documentées définissant quand et comment la remontée doit avoir lieu. 

   1.  Définissez la série de personnes ayant un pouvoir croissant pour prendre ou approuver des mesures, ainsi que les coordonnées de chaque partie prenante. 

1.  Toute remontée hiérarchique doit rester ouverte jusqu’à ce que le membre de l’équipe soit convaincu que le risque a été atténué grâce aux mesures prises par la direction. 

   1.  Les remontées hiérarchiques doivent inclure les détails suivants : 

      1.  Description de la situation et de la nature du risque 

      1.  Sévérité de la situation 

      1.  Qui est concerné (ou quoi) 

      1.  Ampleur de l’impact 

      1.  Urgence en cas d’impact direct 

      1.  Solutions et plans d’atténuation suggérés 

   1.  Protégez les employés qui font remonter les problèmes. Définissez une stratégie qui protège les membres de l’équipe contre les représailles s’ils font remonter un problème auprès d’un décideur ou d’une partie prenante non réceptifs. Mettez en place des mécanismes permettant d’identifier si cela se produit et de répondre de manière appropriée. 

1.  Encouragez une culture basée sur des boucles de rétroaction pour l’amélioration continue dans tout ce que l’organisation produit. Les boucles de rétroaction s’apparentent à des remontées mineures adressées aux personnes responsables. Elles identifient les opportunités d’amélioration, même lorsque la remontée n’est pas nécessaire. Les cultures d’amélioration continue obligent tout le monde à être plus proactif. 

1.  La direction doit périodiquement rappeler l’importance des stratégies, des normes et des mécanismes, ainsi que le souhait de faire remonter les problèmes de manière ouverte et d’encourager des boucles de rétroaction continues, sans représailles. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP05 Des mécanismes sont en place pour demander des ajouts, des modifications et des dérogations](ops_ops_model_req_add_chg_exception.md) 

 **Documents connexes :** 
+  [How do you foster a culture of continuous improvement and learning from Andon and escalation systems?](https://www.linkedin.com/advice/0/how-do-you-foster-culture-continuous-improvement-7054190310033145857) 
+  [The Andon Cord (IT Revolution)](https://itrevolution.com/articles/kata/) 
+  [AWS DevOps Conseils \$1 Établissez des voies d'escalade claires et encouragez les désaccords constructifs](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/oa.bcl.5-establish-clear-escalation-paths-and-encourage-constructive-disagreement.html) 

 **Vidéos connexes :** 
+  [Jeff Bezos on how to make decisions (& increase velocity)](https://www.youtube.com/watch?v=VFwCGECvq4I) 
+  [Toyota Product System: Stopping Production, a Button, and an Andon Electric Board](https://youtu.be/TUKpxjAftnk?si=qohtCCX0q78GDzJu) 
+  [Andon Cord dans le secteur manufacturier LEAN](https://youtu.be/HshopyQk720?si=1XJkpCSqJSpk_zE6) 

 **Exemples connexes :** 
+  [Utilisation des plans d’escalade dans Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) 

# OPS03-BP04 Les communications sont opportunes, claires et exploitables
<a name="ops_org_culture_effective_comms"></a>

 La direction est responsable de la création de communications solides et efficaces, en particulier lorsque l’organisation adopte de nouvelles stratégies, technologies ou méthodes de travail. Les dirigeants doivent fixer des attentes pour que l’ensemble du personnel travaille à la réalisation des objectifs de l’entreprise. Concevez des mécanismes de communication qui sensibilisent à long terme les équipes responsables de l’exécution des plans financés et parrainés par la direction. Tirez parti de la diversité interorganisationnelle et écoutez attentivement les divers points de vue uniques. Utilisez cette perspective pour accroître l’innovation, remettre en question vos hypothèses et réduire le risque de biais de confirmation. Favorisez l’inclusion, la diversité et l’accessibilité au sein de vos équipes afin d’obtenir des perspectives bénéfiques. 

 **Résultat escompté :** votre organisation conçoit des stratégies de communication pour faire face à l’impact du changement sur l’organisation. Les équipes restent informées et motivées pour continuer à travailler les unes avec les autres plutôt que les unes contre les autres. Chaque personne comprend à quel point son rôle est important pour atteindre les objectifs fixés. Le courrier électronique n’est qu’un mécanisme passif de communication et est utilisé en conséquence. Les responsables passent du temps avec leurs collaborateurs individuels pour les aider à comprendre leurs responsabilités, les tâches à accomplir et la manière dont leur travail contribue à la mission globale. Lorsque cela est nécessaire, les dirigeants mobilisent les intéressés directement dans des lieux plus restreints pour transmettre certains messages et vérifier qu’ils sont transmis efficacement. Grâce à de bonnes stratégies de communication, l’organisation obtient des résultats égaux ou supérieurs aux attentes de la direction. La direction encourage et sollicite la diversité des opinions au sein des équipes et entre elles. 

 **Anti-modèles courants :** 
+  Votre organisation dispose d’un plan quinquennal pour migrer toutes les charges de travail vers AWS. L’analyse de rentabilisation du cloud inclut la modernisation de 25 % de toutes les charges de travail afin de tirer parti de la technologie sans serveur. Le directeur informatique communique cette stratégie aux subordonnés directs et attend de chaque chef de file qu’il diffuse cette présentation aux responsables, aux directeurs et aux contributeurs individuels sans aucune communication en personne. Le directeur informatique prend du recul et attend de son organisation qu’elle mette en œuvre la nouvelle stratégie. 
+  La direction ne fournit ni n’utilise de mécanisme de commentaires, et l’écart entre les attentes se creuse, ce qui entraîne le blocage des projets. 
+  Il vous est demandé d’apporter une modification à vos groupes de sécurité, mais aucune information ne vous est donnée quant à la modification à apporter, à l’impact qu’elle pourrait avoir sur l’ensemble des charges de travail et à quel moment elle devrait avoir lieu. Le responsable transfère un e-mail du vice-président de la sécurité de l’information et ajoute le message « Faites en sorte que cela se produise ». 
+  Des modifications ont été apportées à votre stratégie de migration afin de faire passer le nombre de modernisations prévues de 25 % à 10 %. Cela a des répercussions en aval sur l’organisation des opérations. Il n’a pas été informé de ce changement stratégique et ne dispose donc pas de suffisamment de main-d’œuvre qualifiée pour gérer la migration en lift-and-shift d’un plus grand nombre de charges de travail vers AWS. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Votre organisation est bien informée sur les stratégies nouvelles ou modifiées, et elle agit en conséquence avec une forte motivation pour s’aider mutuellement à atteindre les objectifs généraux et les métriques fixés par la direction. 
+  Des mécanismes existent et sont utilisés pour informer en temps opportun les membres de l’équipe des risques connus et des événements planifiés. 
+  Les nouvelles méthodes de travail (y compris les changements apportés aux parties prenantes ou à l’organisation, aux processus ou à la technologie), ainsi que les compétences requises, sont adoptées plus efficacement par l’organisation, et votre organisation bénéficie d’avantages commerciaux plus rapidement. 
+  Les membres de l’équipe disposent du contexte nécessaire pour les communications reçues et peuvent être plus efficaces dans leur travail. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour mettre en œuvre cette bonne pratique, vous devez travailler avec les parties prenantes de votre organisation pour convenir de normes de communication. Diffusez ces normes dans votre organisation. Pour toute transition informatique importante, une équipe de planification bien établie est mieux à même de gérer l’impact du changement sur ses collaborateurs qu’une organisation qui ignore cette pratique. Les organisations de grande envergure peuvent avoir plus de difficulté à gérer le changement, car il est essentiel d’obtenir l’adhésion de tous les contributeurs individuels par rapport à une nouvelle stratégie. En l’absence d’une équipe de planification de la transition, la direction assume 100 % de la responsabilité liée à une communication efficace. Lorsque vous mettez en place une équipe de planification de la transition, demandez aux membres de l’équipe de travailler avec tous les dirigeants de l’organisation afin de définir et de gérer des communications efficaces à tous les niveaux. 

 **Exemple client** 

 AnyCompany Retail a souscrit à AWS Enterprise Support et dépend d’autres fournisseurs tiers pour ses opérations cloud. L’entreprise utilise le chat et le chatops comme principal moyen de communication pour ses activités opérationnelles. Les alertes et autres informations alimentent des canaux spécifiques. Lorsque quelqu’un doit agir, il indique clairement le résultat souhaité et, dans de nombreux cas, il reçoit un dossier d’exploitation ou un playbook à utiliser. Il planifie les modifications majeures des systèmes de production à l’aide d’un calendrier des modifications. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Mettez en place une équipe centrale au sein de l’organisation chargée d’élaborer et de lancer des plans de communication pour les changements qui se produisent à plusieurs niveaux de l’organisation. 

1.  Nommez des responsables uniques pour assurer la supervision. Donnez aux équipes individuelles la capacité d’innover de manière indépendante et trouvez un juste milieu avec l’utilisation de mécanismes cohérents, afin d’obtenir le bon niveau d’inspection et de vision directionnelle. 

1.  Travaillez avec les parties prenantes de votre organisation pour convenir de normes, de pratiques et de plans de communication. 

1.  Vérifiez que l’équipe centrale des communications collabore avec la direction de l’organisation et du programme pour rédiger des messages destinés au personnel concerné au nom des dirigeants. 

1.  Créez des mécanismes de communication stratégiques pour gérer le changement grâce à des communiqués, à des calendriers partagés, à des réunions générales et à des approches en personne ou en tête-à-tête afin que les membres de l’équipe aient des attentes appropriées quant aux mesures à prendre. 

1.  Fournissez le contexte, les détails et l’heure nécessaires (si possible) pour déterminer si une action est nécessaire. Lorsqu’une action est nécessaire, précisez l’action requise et son impact. 

1.  Mettez en œuvre des outils qui facilitent les communications tactiques, tels que le chat interne, le courrier électronique et la gestion des connaissances. 

1.  Mettez en œuvre des mécanismes pour mesurer et vérifier que toutes les communications aboutissent aux résultats souhaités. 

1.  Mettez en place une boucle de commentaires qui mesure l’efficacité de toutes les communications, en particulier lorsque les communications sont liées à la résistance aux changements dans l’ensemble de l’organisation. 

1.  Pour tous Comptes AWS, établissez d’[autres contacts](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-update-contact-alternate.html) pour la facturation, la sécurité et les opérations. Idéalement, chaque contact devrait correspondre à une liste de distribution par e-mail et non à un contact individuel spécifique. 

1.  Établissez un plan de communication en matière de remontée d’informations et de remontée d’informations inversée pour dialoguer avec vos équipes internes et externes, y compris AWS Support et d’autres fournisseurs tiers. 

1.  Initiez et mettez en œuvre des stratégies de communication de manière cohérente tout au long de la durée de vie de chaque programme de transformation. 

1.  Définissez la priorité des actions qui sont reproductibles dans la mesure du possible pour procéder à une automatisation à grande échelle en toute sécurité. 

1.  Lorsque des communications sont requises dans les scénarios où les actions sont automatisées, leur objectif doit être d’informer les équipes à des fins d’audit ou dans le cadre du processus de gestion du changement. 

1.  Analysez les communications de vos systèmes d’alerte pour détecter les faux positifs ou les alertes créées en permanence. Supprimez ou modifiez ces alertes afin qu’elles se déclenchent lorsqu’une intervention humaine est requise. Si une alerte est déclenchée, fournissez un dossier d’exploitation ou un playbook. 

   1.  Vous pouvez utiliser [AWS Systems Manager Documents](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-ssm-docs.html) pour créer des playbooks et des dossiers d’exploitation pour les alertes. 

1.  Des mécanismes sont en place pour notifier les risques ou les événements prévus d’une manière claire et exploitable, avec un préavis suffisant pour permettre des réponses appropriées. Utilisez des listes d’e-mails ou des canaux de chat pour envoyer des notifications avant les événements prévus. 

   1.  [AWS Chatbot](https://docs.aws.amazon.com/chatbot/latest/adminguide/what-is.html) peut être utilisé pour envoyer des alertes et répondre à des événements au sein de la plateforme de messagerie de votre organisation. 

1.  Fournissez une source d’informations accessible où les événements planifiés peuvent être découverts. Envoyez des notifications d’événements planifiés à partir du même système. 

   1.  Le [calendrier des modifications AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-change-calendar.html) peut être utilisé pour créer des fenêtres de modification lorsque des modifications peuvent survenir. Cela permet aux membres de l’équipe de savoir quand ils peuvent apporter des modifications en toute sécurité. 

1.  Surveillez les notifications de vulnérabilités et les informations sur les correctifs pour comprendre les failles dangereuses et les risques potentiels associés aux éléments de votre charge de travail. Envoyez une notification aux membres de l’équipe afin qu’ils puissent agir. 

   1.  Vous pouvez vous abonner aux [bulletins AWS de sécurité](https://aws.amazon.com/security/security-bulletins/) pour recevoir des notifications de vulnérabilités sur AWS. 

1.  **Recherche d’opinions et de perspectives variées :** encouragez les contributions de chacun. Offrez des opportunités de communication aux groupes sous-représentés. Effectuez une rotation des rôles et des responsabilités lors des réunions. 

   1.  **Élargissement des rôles et des responsabilités :** offrez aux membres de l’équipe la possibilité d’assumer des rôles qu’ils n’auraient pas autrement. Ils pourront ainsi acquérir de l’expérience et façonner leur perspective grâce à leur rôle et à leurs interactions avec de nouveaux membres de l’équipe avec lesquels ils n’auraient peut-être pas eu d’interaction autrement. Ils pourront également apporter leur expérience et leur perspective au nouveau rôle et aux nouveaux membres de l’équipe avec lesquels ils interagissent. À mesure que les perspectives s’élargissent, identifiez les opportunités commerciales émergentes ou les nouvelles opportunités d’amélioration. Demandez aux membres d’une équipe d’effectuer des tâches communes que d’autres exécutent habituellement afin de comprendre les exigences et l’impact de leur exécution. 

   1.  **Offrir un environnement sûr et accueillant :** établissez une politique et des contrôles qui protègent la sécurité mentale et physique des membres de l’équipe au sein de votre organisation. Les membres de l’équipe doivent être en mesure d’interagir sans craindre de représailles. Lorsque les membres de l’équipe se sentent en sécurité et sont les bienvenus, ils sont plus susceptibles d’être impliqués et productifs. Plus votre organisation est diversifiée, mieux vous pouvez comprendre les personnes que vous soutenez, y compris vos clients. Lorsque les membres de votre équipe sont à l’aise, se sentent libres de parler et sont sûrs d’être entendus, ils sont plus susceptibles de partager des informations précieuses (par exemple, les opportunités de marketing, les besoins d’accessibilité, les segments de marché délaissés et les risques non reconnus dans votre environnement). 

   1.  **Encourager les membres de l’équipe à participer pleinement :** fournissez les ressources nécessaires pour que vos employés puissent participer pleinement à toutes les activités liées à leur travail. Les membres de l’équipe confrontés à des défis quotidiens développent des compétences pour les surmonter. Ces compétences développées de manière unique peuvent apporter des avantages considérables à votre organisation. Accompagnez les membres de l’équipe avec les ajustements nécessaires pour accroître les avantages que vous pouvez tirer de leurs contributions. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS03-BP01 Assurer le parrainage de la direction](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_executive_sponsor.html) 
+  [OPS07-BP03 Utilisation de dossiers d’exploitation pour effectuer des procédures](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_runbooks.html) 
+  [OPS07-BP04 Utilisation de playbooks pour analyser les problèmes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_playbooks.html) 

 **Documents connexes :** 
+  [Article de blog AWS \$1 La responsabilisation et l’autonomisation sont essentielles pour des organisations agiles performantes](https://aws.amazon.com/blogs/enterprise-strategy/two-pizza-teams-are-just-the-start-accountability-and-empowerment-are-key-to-high-performing-agile-organizations-part-2/) 
+  [Executive Insights AWS \$1 Apprenez à développer l’innovation, et non la complexité \$1 Single-Thread Leaders](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/#Single-Threaded_Leaders) 
+  [Bulletins de sécurité AWS](https://aws.amazon.com/security/security-bulletins) 
+  [Ouverture de CVE](https://www.opencve.io/welcome) 
+  [Application Support dans Slack pour gérer les demandes de support](https://aws.amazon.com/blogs/aws/new-aws-support-app-in-slack-to-manage-support-cases/) 
+  [Gérer les ressources AWS de vos canaux Slack avec Amazon Q Developer dans les applications de chat](https://aws.amazon.com/blogs/mt/manage-aws-resources-in-your-slack-channels-with-aws-chatbot/) 

 **Services connexes:** 
+  [Amazon Q Developer dans les applications de chat](https://docs.aws.amazon.com/chatbot/latest/adminguide/what-is.html) 
+  [AWS Systems Manager Change Calendar](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-change-calendar.html) 
+  [AWS Systems Manager Documents](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-ssm-docs.html) 

# OPS03-BP05 L’expérimentation est encouragée
<a name="ops_org_culture_team_enc_experiment"></a>

L’expérimentation est un catalyseur qui permet de transformer de nouvelles idées en produits et en fonctionnalités. Elle accélère la formation et permet aux membres de l’équipe de s’intéresser et d’être engagés. Les membres de l’équipe sont encouragés à expérimenter souvent pour stimuler l’innovation. Même lorsqu’un résultat indésirable se produit, il est bon de savoir ce qu’il ne faut pas faire. Les membres de l’équipe ne sont pas sanctionnés pour les expérimentations réussies produisant des résultats indésirables. 

 **Résultat escompté :** 
+  Votre organisation encourage l’expérimentation pour favoriser l’innovation. 
+  Les expériences sont utilisées comme une occasion d’apprendre. 

 **Anti-modèles courants :** 
+  Vous souhaitez effectuer un test A/B mais il n’existe aucun mécanisme pour réaliser l’expérience. Vous déployez une modification de l’interface utilisateur sans pouvoir la tester. Il en résulte une expérience négative pour le client. 
+  Votre entreprise ne dispose que d’un environnement d’étape et de production. Il n’existe pas d’environnement de test (sandbox) pour expérimenter de nouvelles fonctionnalités ou de nouveaux produits. Vous devez donc expérimenter dans l’environnement de production. 

 **Avantages liés au respect de cette bonne pratique :** 
+  L’expérimentation est le moteur de l’innovation. 
+  Vous pouvez réagir plus rapidement aux commentaires des utilisateurs grâce à l’expérimentation. 
+  Votre organisation développe une culture de l’apprentissage. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Les expériences doivent être menées en toute sécurité. Exploitez plusieurs environnements pour expérimenter sans mettre en péril les ressources de production. Utilisez les tests A/B et les indicateurs de fonctionnalités pour tester les expériences. Donnez aux membres de l’équipe la possibilité de mener des expériences dans un environnement de test (sandbox). 

 **Exemple client** 

 AnyCompany Retail encourage l’expérimentation. Les membres de l’équipe peuvent utiliser 20 % de leur semaine de travail pour expérimenter ou apprendre de nouvelles technologies. Ils disposent d’un environnement de test (sandbox) où ils peuvent innover. Les tests A/B sont utilisés pour les nouvelles fonctionnalités afin de les valider en fonction des commentaires réels des utilisateurs. 

 **Étapes d’implémentation** 

1.  Travaillez avec les dirigeants de votre organisation pour soutenir l’expérimentation. Les membres de l’équipe doivent être encouragés à réaliser des expériences en toute sécurité. 

1.  Offrez aux membres de votre équipe un environnement où ils peuvent expérimenter en toute sécurité. Ils doivent avoir accès à un environnement similaire à celui de la production. 

   1.  Vous pouvez utiliser un Compte AWS distinct pour créer un environnement de test (sandbox) à des fins d’expérimentation. [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) peut être utilisé pour approvisionner ces comptes. 

1.  Utilisez des indicateurs de fonctionnalités et des tests A/B pour expérimenter en toute sécurité et recueillir les commentaires des utilisateurs. 

   1.  [AWS AppConfig Feature Flags](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) permet de créer des indicateurs de fonctionnalités. 

   1.  Vous pouvez utiliser des [versions AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/configuration-versions.html) pour déployer une nouvelle version d’une fonction à des fins de test bêta. 

 **Niveau d’effort du plan d’implémentation :** élevé La fourniture aux membres de l’équipe d’un environnement dans lequel expérimenter et d’un moyen sûr de mener des expériences peut nécessiter un investissement important. Il se peut également que vous deviez modifier le code de l’application pour utiliser des indicateurs de fonctionnalités ou prendre en charge les tests A/B. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) : les leçons tirées des incidents constituent un moteur important de l’innovation, tout comme de l’expérimentation. 
+  [OPS11-BP03 Implémenter des boucles de rétroaction](ops_evolve_ops_feedback_loops.md) : les boucles de commentaires jouent un rôle important dans l’expérimentation. 

 **Documents connexes :** 
+ [An Inside Look at the Amazon Culture: Experimentation, Failure, and Customer Obsession](https://aws.amazon.com/blogs/industries/an-inside-look-at-the-amazon-culture-experimentation-failure-and-customer-obsession/)
+ [Bonnes pratiques pour créer et gérer des comptes d’environnement de test (sandbox) dans AWS](https://aws.amazon.com/blogs/mt/best-practices-creating-managing-sandbox-accounts-aws/)
+ [Créez une culture d’expérimentation rendue possible par le cloud](https://aws.amazon.com/blogs/enterprise-strategy/create-a-culture-of-experimentation-enabled-by-the-cloud/)
+ [Permettre l’expérimentation et l’innovation dans le cloud chez SulAmérica Seguros](https://aws.amazon.com/blogs/mt/enabling-experimentation-and-innovation-in-the-cloud-at-sulamerica-seguros/)
+ [Expérimentez plus, échouez moins](https://aws.amazon.com/blogs/enterprise-strategy/experiment-more-fail-less/)
+ [Organisation de votre environnement AWS à l’aide de comptes multiples – UO d’environnement de test (sandbox)](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/sandbox-ou.html)
+ [Utilisation des indicateurs de fonctionnalité AWS AppConfig](https://aws.amazon.com/blogs/mt/using-aws-appconfig-feature-flags/)

 **Vidéos connexes :** 
+ [AWS On Air ft. Amazon CloudWatch Evidently \$1 Events AWS](https://www.youtube.com/watch?v=ydX7lRNKAOo)
+ [AWS On Air San Fran Summit 2022 ft. AWS AppConfig Feature Flags integration with Jira ](https://www.youtube.com/watch?v=miAkZPtjqHg)
+ [AWS re:Invent 2022 - A deployment is not a release: Control your launches w/feature flags (BOA305-R)](https://www.youtube.com/watch?v=uouw9QxVrE8)
+ [Programmatically Create an Compte AWS with AWS Control Tower](https://www.youtube.com/watch?v=LxxQTPdSFgw)
+ [Set Up a Multi-Account AWS Environment that Uses Best Practices for AWS Organizations](https://www.youtube.com/watch?v=uOrq8ZUuaAQ)

 **Exemples connexes :** 
+ [AWS Innovation Sandbox ](https://aws.amazon.com/solutions/implementations/aws-innovation-sandbox/)
+ [Personnalisation de bout en bout 101 pour le commerce électronique](https://catalog.workshops.aws/personalize-101-ecommerce/en-US/labs/ab-testing)

 **Services connexes :** 
+  [Amazon CloudWatch Evidently](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Evidently.html) 
+  [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) 
+  [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) 

# OPS03-BP06 Les membres de l’équipe sont invités à maintenir et à développer leurs compétences
<a name="ops_org_culture_team_enc_learn"></a>

 Les équipes doivent accroître leurs compétences pour adopter les nouvelles technologies, et pour faire face à l’évolution de la demande et des responsabilités afin de supporter votre charge de travail. Le développement des compétences dans les nouvelles technologies est souvent une source de satisfaction pour les membres de l’équipe et favorise l’innovation. Aidez les membres de votre équipe à obtenir et à conserver des certifications sectorielles qui valident et reconnaissent leurs compétences croissantes. Mettez en place la formation croisée pour promouvoir le transfert de connaissances et réduire le risque d’impact significatif lorsque vous perdez des membres d’équipe qualifiés et expérimentés ayant un savoir institutionnel. Mettez en place des créneaux dédiés à la formation. 

 AWS fournit des ressources, notamment [AWS Mise en route avec le Centre de ressources](https://aws.amazon.com/getting-started/), des [blogs AWS](https://aws.amazon.com/blogs/), des [conférences techniques en ligne AWS](https://aws.amazon.com/getting-started/), des [événements et des webinaires AWS](https://aws.amazon.com/events/) et des [ateliers AWS Well-Architected](https://wellarchitectedlabs.com/), qui fournissent des conseils, des exemples et des procédures détaillées pour former vos équipes. 

 Des ressources telles que [Support](https://aws.amazon.com/premiumsupport/programs/), ([AWS Re:Post](https://repost.aws/), [Support Center](https://console.aws.amazon.com/support/home/)) et la [documentation AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) permettent d’éliminer les obstacles techniques et d’améliorer les opérations. Contactez Support via le centre Support pour obtenir des réponses à vos questions. 

 AWS partage également les bonnes pratiques et les modèles que nous avons appris grâce au fonctionnement d’AWS dans [The Amazon Builders’ Library](https://aws.amazon.com/builders-library/) et d’une grande variété d’autres supports pédagogiques utiles via le [blog AWS](https://aws.amazon.com/blogs/) et le [podcast AWS officiel](https://aws.amazon.com/podcasts/aws-podcast/). 

 Le service [AWS Training et certification](https://aws.amazon.com/training/) inclut une formation gratuite par le biais de cours numériques adaptés à votre rythme, ainsi que des plans d’apprentissage par rôle ou par domaine. Vous pouvez également vous inscrire à une formation dirigée par un instructeur afin de soutenir le développement des compétences AWS de vos équipes. 

 **Résultat escompté :** votre organisation évalue constamment les lacunes en matière de compétences et les comble grâce à un budget et à des investissements structurés. Les équipes encouragent et incitent leurs membres grâce à des activités de renforcement des compétences, telles que l’obtention de certifications de premier plan dans le secteur. Les équipes tirent parti de programmes dédiés au partage mutuel des connaissances, tels que des déjeuners d’apprentissage, des journées d’immersion, des hackathons et des journées de simulation. Les systèmes de connaissances de votre organisation sont à jour et pertinents pour assurer la formation polyvalente des membres de l’équipe, y compris les formations d’intégration des nouveaux employés. 

 **Anti-modèles courants :** 
+  En l’absence d’un programme de formation et d’un budget structurés, les équipes sont confrontées à l’incertitude lorsqu’elles tentent de suivre le rythme de l’évolution technologique, ce qui entraîne une augmentation de l’attrition. 
+  Dans le cadre de la migration vers AWS, votre organisation présente des lacunes en matière de compétences et une maîtrise variable du cloud au sein de ses équipes. Sans effort de renforcement des compétences, les équipes se retrouvent surchargées par la gestion inefficace et traditionnelle de l’environnement cloud, ce qui accroît la quantité de travail accrue pour les opérateurs. Cette surcharge de travail accroît le mécontentement des employés. 

 **Avantages de la mise en place de cette bonne pratique :** lorsque votre organisation investit consciemment dans l’amélioration des compétences de ses équipes, elle contribue également à accélérer et à mettre à l’échelle l’adoption et l’optimisation du cloud. Les programmes de formation ciblés stimulent l’innovation et renforcent la capacité opérationnelle des équipes à se préparer à gérer les événements. Les équipes investissent consciemment dans la mise en œuvre et l’évolution des bonnes pratiques. Le moral de l’équipe est au beau fixe et ses membres apprécient leur contribution à l’entreprise. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour adopter de nouvelles technologies, stimuler l’innovation et suivre l’évolution de la demande et des responsabilités afin de pouvoir gérer efficacement vos charges de travail, investissez continuellement dans le développement professionnel de vos équipes. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Utilisation de programmes structurés de promotion du cloud :** [AWS Skills Guild](https://aws.amazon.com/training/teams/aws-skills-guild/) propose des formations consultatives pour renforcer la confiance en matière de compétences cloud et renforcer une culture de l’apprentissage continu. 

1.  **Fourniture de ressources de formation :** fournissez un temps structuré dédié, l’accès à des supports de formation et à des ressources d’atelier, ainsi que la possibilité de participer à des conférences et d’accéder à des organisations professionnelles qui offrent des possibilités de formation auprès de formateurs et de pairs. Donnez aux membres de votre équipe junior l’accès à des membres seniors de l’équipe en tant que mentors, ou permettez aux membres juniors de suivre le travail de leurs seniors et de découvrir leurs méthodes et leurs compétences. Encouragez l’apprentissage du contenu qui n’est pas directement lié au travail afin d’avoir une perspective plus large. 

1.  **Encouragement de l’utilisation de ressources techniques spécialisées :** tirez parti de ressources comme [AWSRe:post](https://repost.aws/) pour accéder à des connaissances sélectionnées et à une communauté dynamique. 

1.  **Création et maintien d’un référentiel de connaissances à jour :** utilisez des plateformes de partage de connaissances telles que les wikis et les runbooks. Créez votre propre source de connaissances d’experts réutilisable avec [AWS Re:Post Private](https://aws.amazon.com/repost-private/) pour rationaliser la collaboration, améliorer la productivité et accélérer l’intégration des employés. 

1.  **Formation des équipes et engagement entre équipes :** planifiez les besoins de formation continue des membres de votre équipe. Offrez aux membres de l’équipe la possibilité de rejoindre d’autres équipes (temporairement ou définitivement) pour partager les compétences et les bonnes pratiques au profit de l’ensemble de votre organisation. 

1.  **Soutien à l’obtention et au maintien des certifications industrielles :** soutenez les membres de votre équipe dans l’acquisition et le maintien de certifications industrielles qui valident ce qu’ils ont appris et reconnaissent leurs réalisations. 

 **Niveau d’effort du plan d’implémentation :** élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS03-BP01 Assurer le parrainage de la direction](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_executive_sponsor.html) 
+  [OPS11-BP04 Gestion des connaissances](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documents connexes :** 
+  [AWSLivre blanc \$1 Cadre d’adoption du cloud : le point de vue des personnes](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-people-perspective/aws-caf-people-perspective.html) 
+  [Investissement dans l’apprentissage continu pour développer le futur de votre organisation](https://aws.amazon.com/blogs/publicsector/investing-continuous-learning-grow-organizations-future/) 
+  [AWS Skills Guild](https://aws.amazon.com/training/teams/aws-skills-guild/) 
+  [AWS Training et la certification](https://aws.amazon.com/training/) 
+  [Support](https://aws.amazon.com/premiumsupport/programs/) 
+  [AWS re:Post](https://repost.aws/) 
+  [AWS Mise en route avec le Centre de ressources](https://aws.amazon.com/getting-started/) 
+  [Blogs AWS](https://aws.amazon.com/blogs/) 
+  [AWS Cloud Conformité](https://aws.amazon.com/compliance/) 
+  [AWS Documentation](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Podcast AWS officiel](https://aws.amazon.com/podcasts/aws-podcast/). 
+  [AWS Online Tech Talks](https://aws.amazon.com/getting-started/) 
+  [Événements et webinaires AWS](https://aws.amazon.com/events/) 
+  [Ateliers AWS Well-Architected](https://wellarchitectedlabs.com/) 
+  [Bibliothèque Amazon Builders’ Library](https://aws.amazon.com/builders-library/) 

 **Vidéos connexes :** 
+  [AWS re:INVENT 2023 \$1 Reskilling at the speed of cloud: Turning employees into entrepreneurs](https://www.youtube.com/watch?v=Ax7JqIDIXEY) 
+  [WS re:Invent 2023 \$1 Building a culture of curiosity through gamification](https://www.youtube.com/watch?v=EqWvSBAmD3w) 

# OPS03-BP07 Ressources appropriées pour les équipes
<a name="ops_org_culture_team_res_appro"></a>

 Allouez le nombre approprié de membres d’équipe compétents et fournissez les outils et les ressources nécessaires pour répondre à vos besoins en matière de charge de travail. La surcharge des membres de l’équipe accroît le risque d’erreur humaine. Les investissements dans des outils et des ressources, tels que l’automatisation, peuvent mettre à l’échelle l’efficacité de votre équipe et l’aider à gérer efficacement un plus grand nombre de charges de travail sans avoir besoin de capacité supplémentaire. 

 **Résultat escompté :** 
+  Vous avez doté votre équipe du personnel approprié pour acquérir les compétences nécessaires pour gérer les charges de travail conformément AWS à votre plan de migration. Au fur et à mesure que votre équipe s'est développée au cours de votre projet de migration, elle a acquis des compétences dans les AWS technologies de base que l'entreprise prévoit d'utiliser lors de la migration ou de la modernisation de ses applications. 
+  Vous avez soigneusement aligné votre plan de dotation en personnel afin d’utiliser efficacement les ressources en tirant parti de l’automatisation et du flux de travail. Une équipe plus petite peut désormais gérer une plus grande partie de l’infrastructure pour le compte des équipes de développement d’applications. 
+  Compte tenu de l’évolution des priorités opérationnelles, toutes les contraintes en matière de ressources humaines sont identifiées de manière proactive afin de protéger le succès des initiatives commerciales. 
+  Les métriques opérationnelles qui font état du labeur opérationnel (comme la fatigue liée au travail d’astreinte ou les appels excessifs) sont passés en revue pour vérifier que le personnel n’est pas dépassé. 

 **Anti-modèles courants :** 
+  Votre personnel n'a pas développé ses AWS compétences alors que vous approchez de votre plan pluriannuel de migration vers le cloud, ce qui risque de supporter les charges de travail et de réduire le moral des employés. 
+  L’ensemble de votre organisation informatique est en train de passer à des méthodes de travail agiles. L’entreprise donne la priorité au portefeuille de produits et définit des métriques pour les fonctionnalités qui doivent être développées en premier. Votre processus agile n’oblige pas les équipes à attribuer des points d’histoire à leurs plans de travail. Par conséquent, il est impossible de connaître le niveau de capacité requis pour le prochain volume de travail ou de déterminer si vous possédez les compétences appropriées pour le travail à accomplir. 
+  Vous demandez à un AWS partenaire de migrer vos charges de travail et vous n'avez pas de plan de transition de support pour vos équipes une fois que le partenaire a terminé le projet de migration. Vos équipes ont du mal à gérer les charges de travail de manière efficiente et efficace. 

 **Avantages de la mise en place de cette bonne pratique :** vous disposez au sein de votre organisation de membres d’équipe possédant les compétences nécessaires pour gérer les charges de travail. L’allocation des ressources peut s’adapter à l’évolution des priorités sans affecter les performances. Les équipes sont donc capables de gérer efficacement les charges de travail tout en maximisant le temps nécessaire pour se concentrer sur l’innovation pour les clients, ce qui augmente la satisfaction des employés. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 La planification des ressources pour votre migration vers le cloud doit être effectuée à un niveau organisationnel qui correspond à votre plan de migration, ainsi qu’au modèle opérationnel souhaité mis en œuvre pour prendre en charge votre nouvel environnement cloud. Cela devrait inclure la compréhension des technologies cloud déployées pour les équipes commerciales et de développement d’applications. La direction de l’infrastructure et des opérations doit planifier l’analyse des lacunes en matière de compétences, la formation et la définition des rôles des ingénieurs qui dirigent l’adoption du cloud. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Définissez les critères de réussite de l’équipe à l’aide de mesures opérationnelles pertinentes telles que la productivité du personnel (par exemple, le coût de prise en charge d’une charge de travail ou les heures passées par l’opérateur lors d’incidents). 

1.  Définissez des mécanismes de planification et d’inspection de la capacité en matière de ressources pour confirmer que la quantité appropriée de capacités qualifiées est disponible en cas de besoin et qu’elle pourra être ajustée au fil du temps. 

1.  Créez des mécanismes (par exemple, l’envoi d’une enquête mensuelle aux équipes) pour comprendre les défis liés au travail qui ont un impact sur les équipes (comme l’augmentation des responsabilités, les changements technologiques, la perte de personnel ou l’augmentation du nombre de clients pris en charge). 

1.  Utilisez ces mécanismes pour interagir avec les équipes et identifier les tendances susceptibles de contribuer aux problèmes de productivité des employés. Lorsque vos équipes sont affectées par des facteurs externes, réévaluez les objectifs et ajustez les cibles le cas échéant. Identifiez les obstacles qui entravent la progression de votre équipe. 

1.  Vérifiez régulièrement si les ressources allouées restent suffisantes ou si des ressources supplémentaires sont nécessaires, et apportez les ajustements appropriés pour soutenir les équipes. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS03-BP06 Les membres de l'équipe sont encouragés à maintenir et à développer leurs compétences](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_enc_learn.html) 
+  [OPS09-BP03 Examiner les indicateurs des opérations et prioriser les améliorations](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP07 Automatiser les réponses aux événements](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_auto_event_response.html) 

 **Documents connexes :** 
+  [AWS Cloud Cadre d'adoption : point de vue des personnes](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-people-perspective/aws-caf-people-perspective.html) 
+  [Becoming a Future-Ready Enterprise](https://aws.amazon.com/blogs/enterprise-strategy/becoming-a-future-ready-enterprise/) 
+  [Prioritize your Employees’ Skills to Drive Business Growth](https://aws.amazon.com/executive-insights/content/prioritize-your-employees-skills-to-drive-business-growth/) 
+  [High performing organization - the Amazon Two-Pizza team](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/) 
+  [How Cloud-Mature Enterprises Succeed](https://aws.amazon.com/blogs/mt/how-cloud-mature-enterprises-succeed/) 

# Préparation
<a name="a-prepare"></a>

**Topics**
+ [

# OPS 4. Comment mettre en œuvre l’observabilité dans votre charge de travail ?
](ops-04.md)
+ [

# OPS 5. Comment réduire les défauts, faciliter les corrections et améliorer le flux dans la production ?
](ops-05.md)
+ [

# OPS 6. Comment réduire les risques liés au déploiement ?
](ops-06.md)
+ [

# OPS 7. Comment savoir si vous êtes prêt à assurer une charge de travail ?
](ops-07.md)

# OPS 4. Comment mettre en œuvre l’observabilité dans votre charge de travail ?
<a name="ops-04"></a>

Intégrez l’observabilité à votre charge de travail afin de comprendre son état et de prendre des décisions basées sur les données en fonction des exigences de l’entreprise.

**Topics**
+ [

# OPS04-BP01 Identifier les indicateurs de performance clés
](ops_observability_identify_kpis.md)
+ [

# OPS04-BP02 Implémenter la télémétrie des applications
](ops_observability_application_telemetry.md)
+ [

# OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur
](ops_observability_customer_telemetry.md)
+ [

# OPS04-BP04 Mise en œuvre de la télémétrie des dépendances
](ops_observability_dependency_telemetry.md)
+ [

# OPS04-BP05 Mettre en œuvre le traçage distribué
](ops_observability_dist_trace.md)

# OPS04-BP01 Identifier les indicateurs de performance clés
<a name="ops_observability_identify_kpis"></a>

 La mise en œuvre de l’observabilité dans votre charge de travail commence par la compréhension de son état et par la prise de décisions basées sur les données en fonction des exigences de l’entreprise. L'un des moyens les plus efficaces de garantir l'alignement entre les activités de surveillance et les objectifs commerciaux consiste à définir et à suivre des indicateurs de performance clés (KPIs). 

 **Résultat escompté :** pratiques d’observabilité efficaces qui sont étroitement alignées sur les objectifs commerciaux, garantissant que les efforts de surveillance sont toujours au service de résultats commerciaux tangibles. 

 **Anti-modèles courants :** 
+  Non défini KPIs : le fait de travailler sans clarté KPIs peut entraîner une surveillance trop importante ou insuffisante, ce qui peut entraîner l'absence de signaux vitaux. 
+  Statique KPIs : ne pas revoir ou affiner au KPIs fur et à mesure de l'évolution de la charge de travail ou des objectifs commerciaux. 
+  Désalignement : se concentrer sur des métriques techniques qui ne sont pas directement corrélées aux résultats commerciaux ou qui sont plus difficiles à corréler aux problèmes réels. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Facilité d'identification des problèmes : les entreprises identifient KPIs souvent les problèmes plus clairement que les indicateurs techniques. Une baisse d'activité KPI permet d'identifier un problème plus efficacement que de passer au crible de nombreux indicateurs techniques. 
+  Cohérence des activités : garantit que les activités de surveillance soutiennent directement les objectifs commerciaux. 
+  Efficacité : la priorité est donnée à la surveillance des ressources et l’attention est concentrée sur les métriques déterminantes. 
+  Proactivité : identifiez et traitez les problèmes avant qu’ils n’aient des implications commerciales plus larges. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour définir efficacement la charge de travail KPIs : 

1.  **Commencement par les résultats commerciaux :** avant de vous plonger dans les métriques, déterminez les résultats commerciaux souhaités. S’agit-il d’une augmentation des ventes, d’un engagement plus élevé des utilisateurs ou d’une réduction des temps de réponse ? 

1.  **Corrélation des métriques techniques avec les objectifs commerciaux :** les métriques techniques n’ont pas toutes un impact direct sur les résultats commerciaux. Identifiez ceux qui le font, mais il est souvent plus simple d'identifier un problème dans le cadre d'une entrepriseKPI. 

1.  **Utilisez [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) :** Employ CloudWatch pour définir et surveiller les indicateurs qui représentent votreKPIs. 

1.  **Révision et mise à jour régulières KPIs :** au fur et à mesure de l'évolution de votre charge de travail et de votre activité, restez KPIs pertinent. 

1.  **Impliquer les parties prenantes :** Impliquer les équipes techniques et commerciales dans la définition et la révisionKPIs. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+ [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md)
+ [OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur](ops_observability_customer_telemetry.md)
+ [OPS04-BP04 Mise en œuvre de la télémétrie des dépendances](ops_observability_dependency_telemetry.md)
+ [OPS04-BP05 Mettre en œuvre le traçage distribué](ops_observability_dist_trace.md)

 **Documents connexes :** 
+ [AWS Meilleures pratiques en matière d'observabilité](https://aws-observability.github.io/observability-best-practices/)
+ [ CloudWatch Guide de l'utilisateur](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [AWS Cours de renforcement des compétences en observabilité](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability)

 **Vidéos connexes :** 
+ [Developing an observability strategy](https://www.youtube.com/watch?v=Ub3ATriFapQ)

 **Exemples connexes :** 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US) 

# OPS04-BP02 Implémenter la télémétrie des applications
<a name="ops_observability_application_telemetry"></a>

 La télémétrie de l’application est la pierre angulaire de l’observabilité de votre charge de travail. Il est essentiel de diffuser des données télémétriques fournissant des informations exploitables sur l’état de votre application et sur son taux de réussite par rapport aux résultats techniques et commerciaux. Qu'il s'agisse de résoudre des problèmes, de mesurer l'impact d'une nouvelle fonctionnalité ou de garantir l'alignement sur les indicateurs de performance clés de l'entreprise (KPIs), la télémétrie des applications vous permet de créer, d'exploiter et de faire évoluer votre charge de travail. 

 Les métriques, les journaux et les données de suivi constituent les trois principaux piliers de l’observabilité. Ils servent d’outils de diagnostic qui décrivent l’état de votre application. Au fil du temps, ils contribuent à créer des points de référence et à identifier les anomalies. Cependant, pour garantir l'alignement entre les activités de surveillance et les objectifs commerciaux, il est essentiel de les définir et de les surveillerKPIs. KPIsLes entreprises facilitent souvent l'identification des problèmes par rapport aux seuls indicateurs techniques. 

 D'autres types de télémétrie, tels que la surveillance des utilisateurs réels (RUM) et les transactions synthétiques, complètent ces sources de données principales. RUMfournit des informations sur les interactions des utilisateurs en temps réel, tandis que les transactions synthétiques simulent les comportements potentiels des utilisateurs, aidant ainsi à détecter les goulets d'étranglement avant que les utilisateurs réels ne les rencontrent. 

 **Résultat escompté :** obtenez des informations exploitables sur les performances de votre charge de travail. Ces informations vous permettront de prendre des décisions proactives concernant l’optimisation des performances, d’accroître la stabilité de la charge de travail, de rationaliser les processus CI/CD et d’utiliser efficacement les ressources. 

 **Anti-modèles courants :** 
+  **Observabilité incomplète :** le fait de négliger d’intégrer l’observabilité à chaque niveau de la charge de travail entraîne des angles morts susceptibles de masquer des informations essentielles sur les performances et le comportement du système. 
+  **Vue fragmentée des données :** lorsque les données sont dispersées entre plusieurs outils et systèmes, il devient difficile de conserver une vision globale de l’état et des performances de la charge de travail. 
+  **Problèmes signalés par les utilisateurs :** cela indique que la détection proactive des problèmes par le biais de la télémétrie et de la KPI surveillance des activités fait défaut. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Prise de **décision éclairée :** grâce aux informations issues de la télémétrie et des activités commercialesKPIs, vous pouvez prendre des décisions basées sur les données. 
+  **Efficacité opérationnelle améliorée :** l’utilisation des ressources axée sur les données est source de rentabilité. 
+  **Stabilité accrue de la charge de travail :** détection et résolution plus rapides des problèmes, ce qui améliore la disponibilité. 
+  **Processus CI/CD rationalisés :** les informations issues des données de télémétrie facilitent l’affinement des processus et la livraison fiable du code. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour implémenter la télémétrie des applications pour votre charge de travail, utilisez AWS des services tels qu'[Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) et. [AWS X-Ray](https://aws.amazon.com/xray/) Amazon CloudWatch fournit une suite complète d'outils de surveillance, qui vous permet d'observer vos ressources et vos applications dans AWS et sur site. Il collecte, suit et analyse les métriques, consolide et surveille les données des journaux, et répond à l’évolution de vos ressources, vous permettant ainsi de mieux comprendre le fonctionnement de votre charge de travail. En tandem, vous AWS X-Ray permet de suivre, d'analyser et de déboguer vos applications, ce qui vous permet de mieux comprendre le comportement de votre charge de travail. Des fonctionnalités telles que les cartes de service, les distributions de latence et les chronologies de suivi AWS X-Ray fournissent des informations sur les performances de votre charge de travail et les obstacles qui l'affectent. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Identification des données à collecter :** déterminez les métriques, les journaux et les données de suivi essentiels qui fourniraient des informations substantielles sur l’état, les performances et le comportement de votre charge de travail. 

1.  **Déployez l'[CloudWatchagent](https://aws.amazon.com/cloudwatch/) :** l' CloudWatch agent joue un rôle essentiel dans l'obtention de métriques et de journaux du système et des applications à partir de votre charge de travail et de son infrastructure sous-jacente. L' CloudWatch agent peut également être utilisé pour collecter OpenTelemetry ou radiographier des traces et les envoyer à X-Ray. 

1.  **Mettez en œuvre la détection des anomalies pour les journaux et les métriques :** utilisez la détection [CloudWatch des anomalies des journaux et la détection CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) [des anomalies des métriques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pour identifier automatiquement les activités inhabituelles dans les opérations de votre application. Ces outils utilisent des algorithmes de machine learning pour détecter les anomalies et émettre des alertes en cas d’anomalie, ce qui améliore vos capacités de surveillance et accélère le temps de réponse en cas de perturbations ou de menaces de sécurité potentielles. Configurez ces fonctionnalités pour gérer de manière proactive l’intégrité et la sécurité des applications. 

1.  **Sécurisez les données de journal sensibles :** utilisez la [protection des données Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/mask-sensitive-log-data.html) pour masquer les informations sensibles contenues dans vos journaux. Cette fonctionnalité permet de préserver la confidentialité et la conformité grâce à la détection automatique et au masquage des données sensibles avant leur accès. Mettez en œuvre le masquage des données pour gérer et protéger en toute sécurité les informations sensibles telles que les informations personnelles identifiables (PII). 

1.  **Définissez et surveillez les activités KPIs :** établissez [des indicateurs personnalisés](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) qui correspondent aux [résultats de votre entreprise](https://aws-observability.github.io/observability-best-practices/guides/operational/business/monitoring-for-business-outcomes/). 

1.  **Instrumentez votre application avec AWS X-Ray :** Outre le déploiement de l' CloudWatchagent, il est essentiel d'[instrumenter votre application](https://docs.aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html) pour émettre des données de trace. Ce processus peut fournir des informations supplémentaires sur le comportement et les performances de votre charge de travail. 

1.  **Standardisation de la collecte de données dans l’ensemble de votre application :** standardisez les pratiques de collecte de données dans l’ensemble de votre application. L’uniformité facilite la corrélation et l’analyse des données, fournissant ainsi une vue complète du comportement de votre application. 

1.  **Mettez en œuvre l'observabilité entre comptes :** améliorez l'efficacité de la surveillance sur plusieurs comptes grâce à l'observabilité entre comptes Comptes AWS [Amazon CloudWatch .](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) Grâce à cette fonctionnalité, vous pouvez consolider les métriques, les journaux et les alarmes de différents comptes en une seule vue, ce qui simplifie la gestion et améliore les temps de réponse aux problèmes identifiés dans l' AWS environnement de votre entreprise. 

1.  **Analysez les données et agissez en conséquence :** une fois que la collecte et la normalisation des données sont en place, utilisez [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) pour l'analyse des métriques et des journaux, ainsi que [AWS X-Ray](https://aws.amazon.com/xray/features/)pour l'analyse des traces. Une telle analyse peut fournir des informations cruciales sur l’état, les performances et le comportement de votre charge de travail, orientant ainsi votre processus décisionnel. 

 **Niveau d’effort du plan d’implémentation :** élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Définir la charge de travail KPIs](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP03 Implémenter la télémétrie de l'activité des utilisateurs](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP04 Implémenter la télémétrie des dépendances](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dependency_telemetry.html) 
+  [OPS04-BP05 Mettre en œuvre la traçabilité des transactions](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 

 **Documents connexes :** 
+  [Bonnes pratiques AWS en matière d’observabilité](https://aws-observability.github.io/observability-best-practices/) 
+  [Guide de l’utilisateur CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [AWS X-Ray Manuel du développeur](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Instrumentation des systèmes distribués au profit de la visibilité opérationnelle](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility) 
+  [Cours de renforcement des compétences en observabilitéAWS](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability) 
+  [Nouveautés d'Amazon CloudWatch](https://aws.amazon.com/about-aws/whats-new/management-and-governance/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23amazon-cloudwatch) 
+  [Quoi de neuf avec AWS X-Ray](https://aws.amazon.com/about-aws/whats-new/developer-tools/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23aws-x-ray) 

 **Vidéos connexes :** 
+  [AWS re:Invent 2022 - Meilleures pratiques en matière d'observabilité sur Amazon](https://youtu.be/zZPzXEBW4P8) 
+  [AWS re:Invent 2022 - Élaboration d'une stratégie d'observabilité](https://youtu.be/Ub3ATriFapQ) 

 **Exemples associés :** 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability) 
+  [AWS Bibliothèque de solutions : surveillance des applications avec Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch) 

# OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur
<a name="ops_observability_customer_telemetry"></a>

 Il est essentiel d’obtenir des informations approfondies sur les expériences des clients et leurs interactions avec votre application. La surveillance des utilisateurs réels (RUM) et les transactions synthétiques constituent de puissants outils à cette fin. RUMfournit des données sur les interactions réelles des utilisateurs, offrant une perspective non filtrée de la satisfaction des utilisateurs, tandis que les transactions synthétiques simulent les interactions des utilisateurs, aidant à détecter les problèmes potentiels avant même qu'ils n'affectent les utilisateurs réels. 

 **Résultat escompté :**une vision globale de l’expérience client, une détection proactive des problèmes et une optimisation des interactions avec les utilisateurs pour proposer des expériences numériques fluides. 

 **Anti-modèles courants :** 
+  Applications sans véritable surveillance des utilisateurs (RUM) : 
  +  Détection différée des problèmes : sans celaRUM, vous ne vous rendrez peut-être pas compte de l'existence de problèmes ou de problèmes de performances tant que les utilisateurs ne se seront pas plaints. Cette approche réactive peut entraîner l’insatisfaction des clients. 
  +  Manque d'informations sur l'expérience utilisateur : si vous RUM ne l'utilisez pas, vous perdez des données cruciales qui montrent comment les utilisateurs réels interagissent avec votre application, ce qui limite votre capacité à optimiser l'expérience utilisateur. 
+  Applications sans transactions synthétiques : 
  +  Cas marginaux manqués : les transactions synthétiques vous aident à tester des chemins et des fonctions qui ne sont pas toujours fréquemment utilisés par les utilisateurs ordinaires, mais qui sont essentiels à certaines fonctions commerciales. Sans ces transactions synthétiques, ces chemins pourraient mal fonctionner et passer inaperçus. 
  +  Recherche de problèmes lorsque l’application n’est pas utilisée : des tests synthétiques réguliers permettent de simuler les situations où les utilisateurs réels n’interagissent pas activement avec votre application, garantissant ainsi le bon fonctionnement du système. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Détection proactive des problèmes : identifiez et résolvez les problèmes potentiels avant qu’ils n’affectent les utilisateurs réels. 
+  Expérience utilisateur optimisée : le feedback continu RUM permet d'affiner et d'améliorer l'expérience utilisateur globale. 
+  Informations sur les performances de l’appareil et du navigateur : comprenez le fonctionnement de votre application sur différents appareils et navigateurs, afin de l’affiner davantage. 
+  Flux de travail validés : des transactions synthétiques régulières garantissent que les fonctionnalités de base et les chemins critiques restent opérationnels et efficaces. 
+  Performances améliorées des applications : exploitez les informations recueillies à partir de données sur les utilisateurs réels pour améliorer la réactivité et la fiabilité des applications. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour exploiter RUM et synthétiser les transactions à des fins de télémétrie de l'activité des utilisateurs, AWS propose des services tels qu'Amazon et [ CloudWatch RUMAmazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) [Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). Les métriques, les journaux et les données de suivi, associés aux données d’activité des utilisateurs, fournissent une vue complète de l’état de fonctionnement de l’application et de l’expérience utilisateur. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Déployez Amazon CloudWatch RUM :** intégrez votre application CloudWatch RUM pour collecter, analyser et présenter des données utilisateur réelles. 

   1.  Utilisez la [CloudWatch RUM JavaScript bibliothèque](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) pour l'intégrer RUM à votre application. 

   1.  Configurez des tableaux de bord pour visualiser et surveiller les données sur les utilisateurs réels. 

1.  **Configurer CloudWatch Synthetics** : créez des canaris, ou des routines scriptées, qui simulent les interactions des utilisateurs avec votre application. 

   1.  Définissez les flux de travail et les chemins d’application critiques. 

   1.  Concevez des canaris à l'aide [CloudWatch de scripts Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) pour simuler les interactions des utilisateurs sur ces trajectoires. 

   1.  Planifiez et surveillez les scripts canary pour qu’ils fonctionnent à des intervalles spécifiés, afin de garantir des contrôles de performance cohérents. 

1.  **Analysez les données et agissez en fonction de celles-ci :** utilisez les données issues RUM des transactions synthétiques pour obtenir des informations et prendre des mesures correctives lorsque des anomalies sont détectées. Utilisez des CloudWatch tableaux de bord et des alarmes pour rester informé. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS04-BP04 Mise en œuvre de la télémétrie des dépendances](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Mettre en œuvre le traçage distribué](ops_observability_dist_trace.md) 

 **Documents connexes :** 
+ [ CloudWatch RUMGuide Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html)
+ [Guide Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)

 **Vidéos connexes :** 
+ [Optimisez les applications grâce aux informations sur les utilisateurs finaux avec Amazon CloudWatch RUM](https://www.youtube.com/watch?v=NMaeujY9A9Y)
+ [AWS sur Air ft. Surveillance des utilisateurs réels pour Amazon CloudWatch](https://www.youtube.com/watch?v=r6wFtozsiVE)

 **Exemples connexes :** 
+ [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro)
+ [Référentiel Git pour Amazon CloudWatch RUM Web Client](https://github.com/aws-observability/aws-rum-web)
+ [Utilisation d'Amazon CloudWatch Synthetics pour mesurer le temps de chargement des pages](https://github.com/aws-samples/amazon-cloudwatch-synthetics-page-performance)

# OPS04-BP04 Mise en œuvre de la télémétrie des dépendances
<a name="ops_observability_dependency_telemetry"></a>

 La télémétrie des dépendances est essentielle pour surveiller l’état et les performances des services et composants externes sur lesquels repose votre charge de travail. Elle fournit des informations précieuses sur l’accessibilité, les délais d’attente et d’autres événements critiques liés aux dépendances comme le DNS, les bases de données ou les API tierces. Lorsque vous instrumentez votre application de sorte à émettre des métriques, des journaux et des données de suivi concernant ces dépendances, vous identifiez plus facilement les goulets d’étranglement potentiels, les problèmes de performances ou les défaillances susceptibles d’avoir un impact sur votre charge de travail. 

 **Résultat escompté :** assurez-vous que les dépendances sur lesquelles repose votre charge de travail fonctionnent comme prévu, ce qui vous permet de résoudre les problèmes de manière proactive et de garantir des performances de charge de travail optimales. 

 **Anti-modèles courants :** 
+  **Omission des dépendances externes :** se concentrer uniquement sur les métriques internes des applications tout en négligeant les métriques liées aux dépendances externes. 
+  **Absence de surveillance proactive :** attendre l’apparition de problèmes au lieu de surveiller en permanence l’état et les performances des dépendances. 
+  **Surveillance cloisonnée :** utiliser des outils de surveillance divers et variés qui peuvent donner lieu à des visions fragmentées et incohérentes de l’état des dépendances. 

 **Avantages liés au respect de cette bonne pratique :** 
+  **Fiabilité améliorée de la charge de travail :** en garantissant que les dépendances externes sont constamment disponibles et fonctionnent de manière optimale. 
+  **Détection et résolution plus rapides des problèmes :** en identifiant et en résolvant de manière proactive les problèmes liés aux dépendances avant qu’ils n’affectent la charge de travail. 
+  **Vue globale :** grâce à une visibilité complète des composants internes et externes qui influencent l’état de la charge de travail. 
+  **Meilleure capacité de mise à l’échelle de la charge de travail :** grâce à une meilleure compréhension des limites de la capacité de mise à l’échelle et des caractéristiques de performance des dépendances externes. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Mettez en œuvre la télémétrie des dépendances en commençant par identifier les services, l’infrastructure et les processus sur lesquels repose votre charge de travail. Quantifiez ce à quoi les conditions favorables ressemblent lorsque ces dépendances fonctionnent comme prévu, puis déterminez les données nécessaires pour les mesurer. Ces informations vous permettront de créer des tableaux de bord et des alertes qui fourniront à vos équipes opérationnelles des informations sur l’état de ces dépendances. Utilisez les outils AWS pour découvrir et quantifier les impacts lorsque les dépendances ne répondent pas aux besoins. Revoyez continuellement votre stratégie en tenant compte de l’évolution des priorités, des objectifs et des connaissances acquises. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Pour implémenter efficacement la télémétrie des dépendances : 

1.  **Identification des dépendances externes :** collaborez avec les parties prenantes pour identifier les dépendances externes sur lesquelles repose votre charge de travail. Les dépendances externes peuvent inclure des services tels que des bases de données externes, des API tierces, des routes de connectivité réseau vers d’autres environnements et des services DNS. La première étape à suivre pour assurer l’efficacité de la télémétrie des dépendances consiste à comprendre parfaitement ce que sont ces dépendances. 

1.  **Élaboration d’une stratégie de suivi :** une fois que vous avez une idée précise de vos dépendances externes, élaborez une stratégie de surveillance qui leur est adaptée. Cela implique de comprendre le caractère critique de chaque dépendance, son comportement attendu et tous les contrats ou tous les objectifs de niveau de service associés (SLA ou SLT). Configurez des alertes proactives pour vous informer des changements d’état ou des écarts de performance. 

1.  **Utilisation de la [surveillance du réseau](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Network-Monitoring-Sections.html) :** utilisez [Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) et [Network Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/what-is-network-monitor.html), qui fournissent des informations complètes sur l’état mondial de l’Internet et du réseau. Ces outils vous aident à comprendre les pannes, les interruptions ou les dégradations de performances qui affectent vos dépendances externes et à y répondre. 

1.  **Restez informé avec [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/) :** AWS Health est la source d’informations faisant autorité sur l’intégrité de vos ressources AWS Cloud. Utilisez AWS Health pour visualiser et recevoir des notifications sur les événements de service en cours et les changements à venir, tels que les événements de cycle de vie planifiés, afin que vous puissiez prendre des mesures pour atténuer les impacts. 

   1.  [Créez des notifications d’événements AWS Health spécialement adaptées](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) aux e-mails et aux canaux de discussion via [Notifications des utilisateurs AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) et intégrez-les de manière programmatique à [vos outils de surveillance et d’alerte via Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou l’[API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planifiez et suivez l’évolution des événements d’intégrité qui nécessitent une action en intégrant des outils de gestion des modifications ou des outils ITSM (tels que [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) ou [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) que vous utilisez peut-être déjà via Amazon EventBridge ou l’API AWS Health. 

   1.  Si vous utilisez AWS Organizations, activez la [vue de l’organisation pour AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) afin d’agréger les événements AWS Health sur l’ensemble des comptes. 

1.  **Instrumentation de votre application avec [AWS X-Ray](https://aws.amazon.com/xray/) :** AWS X-Ray fournit des informations sur les performances des applications et de leurs dépendances sous-jacentes. En suivant les requêtes du début à la fin, vous pouvez identifier les goulets d’étranglement ou les défaillances des services ou composants externes sur lesquels repose votre application. 

1.  **Utilisation d’[Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) :** ce service basé sur le machine learning identifie les problèmes opérationnels, prédit quand des problèmes critiques peuvent survenir et recommande des mesures spécifiques à prendre. Il s’agit d’un outil inestimable qui permet de mieux comprendre les dépendances et de déterminer qu’elles ne sont pas à l’origine de problèmes opérationnels. 

1.  **Surveillance régulière :** surveillez en permanence les métriques et les journaux liés aux dépendances externes. Configurez des alertes en cas de comportement inattendu ou de dégradation des performances. 

1.  **Validation après les modifications :** chaque fois qu’une dépendance externe est mise à jour ou modifiée, validez ses performances et vérifiez qu’elle correspond aux exigences de votre application. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Définition des indicateurs de rendement clés de la charge de travail](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP02 Mise en œuvre de la télémétrie de l’application](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_application_telemetry.html) 
+  [OPS04-BP03 Mise en œuvre de la télémétrie pour l’activité des utilisateurs](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP05 Mise en œuvre de la traçabilité des transactions](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 
+  [OP08-BP04 Création d’alertes exploitables](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_alerts.html) 

 **Documents connexes :** 
+  [Guide de l’utilisateur d’Amazon Personal Tableau de bord Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Guide de l’utilisateur d’AWS Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) 
+  [Guide du développeur AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Guide de l’utilisateur d’AWS DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 

 **Vidéos connexes :** 
+  [Visibility into how internet issues impact app performance](https://www.youtube.com/watch?v=Kuc_SG_aBgQ) 
+  [Présentation d’Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY) 
+  [Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA) 

 **Exemples connexes :** 
+  [AWS Health Aware](https://github.com/aws-samples/aws-health-aware/) 
+  [Utilisation du filtrage basé sur des balises pour gérer la surveillance et les alertes AWS Health à l’échelle](https://aws.amazon.com/blogs/mt/using-tag-based-filtering-to-manage-health-monitoring-and-alerting-at-scale/) 

# OPS04-BP05 Mettre en œuvre le traçage distribué
<a name="ops_observability_dist_trace"></a>

 Le suivi distribué permet de surveiller et de visualiser les requêtes lorsqu’elles traversent les différents composants d’un système distribué. En capturant les données de suivi provenant de plusieurs sources et en les analysant dans une vue unifiée, les équipes peuvent mieux comprendre le flux des requêtes, les endroits où les goulots d’étranglement ont lieu et les domaines dans lesquels les efforts d’optimisation doivent se concentrer. 

 **Résultat escompté :** bénéficiez d’une vue globale des requêtes circulant dans votre système distribué, ce qui permet un débogage précis, des performances optimisées et une meilleure expérience utilisateur. 

 **Anti-modèles courants :** 
+  Instrumentation incohérente : les services d’un système distribué ne sont pas tous instrumentés pour le suivi. 
+  Ignorer la latence : se concentrer uniquement sur les erreurs et ne pas tenir compte de la latence ou de la dégradation progressive des performances. 

 **Avantages liés au respect de cette bonne pratique :** 
+ Vue d’ensemble complète du système : visualisation du parcours complet des requêtes, de l’entrée à la sortie.
+  Débogage amélioré : identification rapide des défaillances ou des problèmes de performance. 
+  Expérience utilisateur améliorée : surveillance et optimisation basées sur des données sur les utilisateurs réels, afin de garantir que le système répond aux exigences du monde réel. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Commencez par identifier tous les éléments de votre charge de travail qui nécessitent de l’instrumentation. Une fois que tous les composants sont pris en compte, utilisez des outils tels que AWS X-Ray et OpenTelemetry pour collecter des données de trace à des fins d'analyse avec des outils tels que X-Ray et Amazon CloudWatch ServiceLens Map. Participez à des évaluations régulières avec les développeurs et complétez ces discussions avec des outils tels qu'Amazon DevOps Guru, X-Ray Analytics et X-Ray Insights pour vous aider à découvrir des résultats plus approfondis. Définissez des alertes à partir des données de suivi pour envoyer une notification lorsque les résultats, tels que décrits dans le plan de surveillance de la charge de travail, sont menacés. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Pour mettre en œuvre efficacement le suivi distribué : 

1.  **Adoption de [AWS X-Ray](https://aws.amazon.com/xray/) :** intégrez X-Ray à votre application pour mieux comprendre son comportement, interpréter ses performances et identifier les goulots d’étranglement. Utilisez X-Ray Insights pour l’analyse automatique des données de suivi. 

1.  **Instrumentez vos services :** vérifiez que chaque service, qu'il s'agisse d'une [AWS Lambda](https://aws.amazon.com/lambda/)fonction ou d'une [EC2instance](https://aws.amazon.com/ec2/), envoie des données de suivi. Plus vous instrumentez de services, plus la end-to-end vue est claire. 

1.  **Intégrez la [surveillance des utilisateurs CloudWatch réels](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) et la [surveillance synthétique](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) :** intégrez la surveillance des utilisateurs réels (RUM) et la surveillance synthétique avec X-Ray. Cela permet de capturer des expériences utilisateur réelles et de simuler les interactions des utilisateurs afin d’identifier les problèmes potentiels. 

1.  **Utiliser l'[CloudWatch agent](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) :** l'agent peut envoyer des traces à partir de X-Ray ou OpenTelemetry pour améliorer la profondeur des informations obtenues. 

1.  **Utilisez [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) :** DevOps Guru utilise les données de X-Ray CloudWatch, AWS Config, et AWS CloudTrail pour fournir des recommandations exploitables. 

1.  **Analyse des traces :** passez régulièrement en revue les données de suivi pour identifier les tendances, les anomalies ou les goulots d’étranglement susceptibles d’avoir un impact sur les performances de votre application. 

1.  **Configurez des alertes :** configurez les alarmes en fonction [CloudWatch](https://aws.amazon.com/cloudwatch/)de modèles inhabituels ou de latences prolongées, ce qui permet de résoudre les problèmes de manière proactive. 

1.  **Amélioration continue :** revoyez votre stratégie de suivi au fur et à mesure que des services sont ajoutés ou modifiés afin de capturer tous les points de données pertinents. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Mise en œuvre de la télémétrie des dépendances](ops_observability_dependency_telemetry.md) 

 **Documents connexes :** 
+ [AWS X-Ray Guide du développeur](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ [Guide de CloudWatch l'utilisateur d'Amazon Agent](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Guide de l'utilisateur Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)

 **Vidéos connexes :** 
+ [Utilisez AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw)
+ [AWS sur Air ft. Observabilité : Amazon CloudWatch ](https://www.youtube.com/watch?v=qBDBnPkZ-KI) et AWS X-Ray

 **Exemples connexes :** 
+ [Instrumentation de votre application pour AWS X-Ray](https://aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html)

# OPS 5. Comment réduire les défauts, faciliter les corrections et améliorer le flux dans la production ?
<a name="ops-05"></a>

 Adoptez des approches qui améliorent l’entrée des modifications en production et qui permettent une refactorisation, des retours rapides sur la qualité et la correction de bogues. Cela permet d’accélérer l’entrée des modifications bénéfiques en production, de limiter le déploiement de problèmes et d’identifier et de corriger rapidement les problèmes introduits par les activités de déploiement. 

**Topics**
+ [

# OPS05-BP01 Utilisation du contrôle de version
](ops_dev_integ_version_control.md)
+ [

# OPS05-BP02 Test et validation des modifications
](ops_dev_integ_test_val_chg.md)
+ [

# OPS05-BP03 Utilisation de systèmes de gestion de la configuration
](ops_dev_integ_conf_mgmt_sys.md)
+ [

# OPS05-BP04 Utiliser des systèmes de gestion du développement et du déploiement
](ops_dev_integ_build_mgmt_sys.md)
+ [

# OPS05-BP05 Gestion des correctifs
](ops_dev_integ_patch_mgmt.md)
+ [

# OPS05-BP06 Partager les normes de conception
](ops_dev_integ_share_design_stds.md)
+ [

# OPS05-BP07 Mise en œuvre de pratiques visant à améliorer la qualité du code
](ops_dev_integ_code_quality.md)
+ [

# OPS05-BP08 Utilisation de plusieurs environnements
](ops_dev_integ_multi_env.md)
+ [

# OPS05-BP09 Procéder à des modifications fréquentes, mineures et réversibles
](ops_dev_integ_freq_sm_rev_chg.md)
+ [

# OPS05-BP10 Automatisation complète de l’intégration et du déploiement
](ops_dev_integ_auto_integ_deploy.md)

# OPS05-BP01 Utilisation du contrôle de version
<a name="ops_dev_integ_version_control"></a>

 Utilisez le contrôle de version pour activer le suivi des modifications et des versions. 

 De nombreux services AWS offrent des fonctionnalités de contrôle de version. Utilisez un système de révision ou de [contrôle des sources](https://aws.amazon.com/devops/source-control/) comme [Git](https://aws.amazon.com/devops/source-control/git/) pour gérer le code et d’autres artefacts, tels que les modèles [AWS CloudFormation](https://aws.amazon.com/cloudformation/) de contrôle de versions de votre infrastructure. 

 **Résultat escompté :** vos équipes collaborent sur le code. Une fois fusionné, le code est cohérent et aucune modification n’est perdue. Les erreurs sont facilement corrigées grâce à une gestion des versions appropriée. 

 **Anti-modèles courants :** 
+  Vous avez développé et stocké le code sur votre poste de travail. Un problème de stockage s’est produit sur le poste de travail et vous avez perdu le code. 
+  Après avoir remplacé le code existant par vos modifications, vous redémarrez votre application et elle n’est plus utilisable. Vous ne pouvez pas annuler la modification. 
+  Vous disposez d’un verrou d’écriture sur un fichier de rapport que quelqu’un d’autre doit modifier. Il vous contacte pour vous demander d’arrêter de travailler dessus afin qu’il puisse effectuer ses tâches. 
+  Votre équipe de recherche a travaillé sur une analyse détaillée qui façonnera vos futurs travaux. Quelqu’un a accidentellement enregistré sa liste d’achats sur le rapport final. Vous ne pouvez pas annuler la modification et vous devrez recréer le rapport. 

 **Avantages liés au respect de cette bonne pratique :** en utilisant les fonctionnalités de contrôle de version, vous pouvez revenir facilement aux bons états connus et aux versions précédentes, et limiter le risque de perte de ressources. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Maintenez les ressources dans des référentiels avec contrôle de version. Cela permet le suivi des modifications, le déploiement de nouvelles versions, la détection des modifications apportées aux versions existantes, et le retour à des versions antérieures (par exemple, la restauration à un état correct connu en cas de défaillance). Intégrez les fonctionnalités de contrôle de version de vos systèmes de gestion de la configuration dans vos procédures. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS05-BP04 Utiliser des systèmes de gestion du développement et du déploiement](ops_dev_integ_build_mgmt_sys.md) 

 **Vidéos connexes :** 
+ [AWS re:Invent 2023 - How Lockheed Martin builds software faster, powered by DevSecOps ](https://www.youtube.com/watch?v=Q1OSyxYkl5w)
+ [AWS re:Invent 2023 - How GitHub operationalizes AI for team collaboration and productivity ](https://www.youtube.com/watch?v=cOVvGaiusOI)

# OPS05-BP02 Test et validation des modifications
<a name="ops_dev_integ_test_val_chg"></a>

 Chaque changement déployé doit être testé pour éviter des erreurs de production. Cette bonne pratique est axée sur les tests des changements du contrôle des versions à la création d’artefacts. En plus des changements du code de l’application, les tests doivent inclure l’infrastructure, la configuration, les contrôles de sécurité et les procédures opérationnelles. Les tests peuvent prendre de nombreuses formes, des tests unitaires à l’analyse des composants d’un logiciel (SCA). Le fait de pousser les tests encore plus loin dans le processus d’intégration et de livraison de logiciels entraîne une plus grande certitude de la qualité des artefacts. 

 Votre organisation doit développer des normes de test pour tous les artefacts logiciels. Les tests automatisés réduisent la quantité de travail et évitent les erreurs de test manuel. Des tests manuels peuvent être nécessaires dans certains cas. Les développeurs doivent avoir accès aux résultats des tests automatisés pour créer des boucles de commentaires qui améliorent la qualité du logiciel. 

 **Résultat escompté :** les changements apportés au logiciel sont testés avant d’être livrés. Les développeurs ont accès aux résultats des tests et aux validations. Votre organisation a une norme de test qui s’applique à tous les changements apportés au logiciel. 

 **Anti-modèles courants :** 
+  Vous déployez un nouveau changement apporté au logiciel sans aucun test. Il ne s’exécute pas en production, ce qui entraîne une panne. 
+  De nouveaux groupes de sécurité sont déployés avec AWS CloudFormation sans être testés dans un environnement de préproduction. Les groupes de sécurité empêchent les clients d’atteindre votre application. 
+  Une méthode est modifiée mais il n’existe aucun test d’unité. Le logiciel échoue quand il est déployé en production. 

 **Avantages de l’établissement de cette bonne pratique :** le taux d’échec des changements dans les déploiements de logiciels est réduit. La qualité du logiciel s’améliore. Les développeurs ont une meilleure connaissance de la viabilité de leur code. Des politiques de sécurité peuvent être déployées en toute confiance pour soutenir la conformité de l’organisation. Les changements apportés à l’infrastructure, tels que les mises à jour de la politique de mise à l’échelle automatique, sont testés à l’avance pour répondre aux besoins du trafic. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Des tests sont réalisés sur tous les changements, du code de l’application à l’infrastructure, dans le cadre de votre pratique d’intégration continue. Les résultats des tests sont publiés afin que les développeurs disposent d’une rétroaction rapide. Votre organisation a une norme de test que tous les changements doivent respecter. 

 Utilisez la puissance de l’IA générative avec Amazon Q Developer pour améliorer la productivité des développeurs et la qualité du code. Amazon Q Developer comprend la génération de suggestions de code (basées sur de grands modèles de langage), la production de tests unitaires (y compris les conditions limites) et l’amélioration de la sécurité du code par la détection et la correction des vulnérabilités de sécurité. 

 **Exemple client** 

 Dans le cadre de leur pipeline d’intégration continue, AnyCompany Retail réalise plusieurs types de test sur tous les artefacts logiciels. L’entreprise pratique le développement axé sur les tests afin que tous les logiciels bénéficient de tests d’unités. Une fois l’artefact créé, elle exécute des tests de bout en bout. Une fois cette première série de tests terminée, elle exécute une analyse de la sécurité des applications statiques qui cherchent des vulnérabilités connues. Les développeurs reçoivent des messages indiquant que chaque palier de test est validé. Une fois tous les tests terminés, l’artefact logiciel est stocké dans un référentiel d’artefacts. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Collaborez avec les parties prenantes dans votre organisation pour développer une norme de test pour les artefacts logiciels. Quels tests standards tous les artefacts doivent-ils valider ? Des exigences en termes de conformité ou de réglementation doivent-elles être incluses dans la couverture des tests ? Faut-il réaliser des tests de qualité du code ? Qui doit être informé de la fin des tests ? 

   1.  [L’architecture de référence du pipeline de déploiement AWS](https://pipelines.devops.aws.dev/) contient une liste officielle des types de tests qui peuvent être réalisés sur des artefacts logiciels dans le cadre d’un pipeline d’intégration. 

1.  Instrumentalisez votre application avec les tests nécessaires en fonction de la norme de test de votre logiciel. Chaque ensemble de tests doit être réalisé en moins de dix minutes. Les tests doivent être exécutés dans le cadre d’un pipeline d’intégration. 

   1.  Utilisez [Amazon Q Developer](https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/what-is.html), un outil d’IA générative qui peut vous aider à créer des cas de tests unitaires (y compris des conditions limites), à générer des fonctions à l’aide de code et de commentaires, et à implémenter des algorithmes connus. 

   1.  Utilisez [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) pour tester le code de votre application afin de détecter d’éventuels défauts. 

   1.  [AWS CodeBuild](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) vous permet de réaliser des tests sur les artefacts logiciels. 

   1.  [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/welcome.html) peut orchestrer vos tests logiciels dans un pipeline. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS05-BP01 Utilisation du contrôle de version](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_version_control.html) 
+  [OPS05-BP06 Partage des normes de conception](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 
+  [OPS05-BP07 Mise en œuvre de pratiques visant à améliorer la qualité du code](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_code_quality.html) 
+  [OPS05-BP10 Automatisation complète de l’intégration et du déploiement](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_auto_integ_deploy.html) 

 **Documents connexes :** 
+  [Adopter une approche de développement piloté par les tests](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [Accélération du cycle de développement de vos logiciels avec Amazon Q](https://aws.amazon.com/blogs/devops/accelerate-your-software-development-lifecycle-with-amazon-q/) 
+  [Amazon Q Developer, désormais disponible pour le grand public, inclut des aperçus de nouvelles fonctionnalités destinées à réinventer l’expérience des développeurs](https://aws.amazon.com/blogs/aws/amazon-q-developer-now-generally-available-includes-new-capabilities-to-reimagine-developer-experience/) 
+  [L’aide-mémoire ultime pour utiliser Amazon Q Developer dans votre environnement de développement intégré](https://community.aws/content/2eYoqeFRqaVnk900emsknDfzhfW/the-ultimate-cheat-sheet-for-using-amazon-q-developer-in-your-ide) 
+  [Shift-Left Workload, tirant parti de l’IA pour la création de tests](https://community.aws/content/2gBZtC94gPzaCQRnt4P0rIYWuBx/shift-left-workload-leveraging-ai-for-test-creation) 
+  [Centre de développement Amazon Q](https://aws.amazon.com/developer/generative-ai/amazon-q/) 
+  [10 façons de créer des applications plus rapidement avec Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/10-ways-to-build-applications-faster-with-amazon-codewhisperer/) 
+  [Au-delà de la couverture du code avec Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/looking-beyond-code-coverage-with-amazon-codewhisperer/) 
+  [Bonnes pratiques pour une ingénierie de requête avec Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/best-practices-for-prompt-engineering-with-amazon-codewhisperer/) 
+  [Pipeline de test AWS CloudFormation automatisé avec TaskCat et CodePipeline](https://aws.amazon.com/blogs/devops/automated-cloudformation-testing-pipeline-with-taskcat-and-codepipeline/) 
+  [Création d’un pipeline CI/CD AWS DevSecOps de bout en bout avec les outils open source SCA, SAST et DAST](https://aws.amazon.com/blogs/devops/building-end-to-end-aws-devsecops-ci-cd-pipeline-with-open-source-sca-sast-and-dast-tools/) 
+  [Démarrer avec les applications de test sans serveur](https://aws.amazon.com/blogs/compute/getting-started-with-testing-serverless-applications/) 
+  [Mon pipeline CI/CD est mon capitaine de versions](https://aws.amazon.com/builders-library/cicd-pipeline/) 
+  [Livre blanc Mise en pratique de l’intégration continue/livraison continue sur le livre blanc AWS](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/welcome.html) 

 **Vidéos connexes :** 
+  [Implement an API with Amazon Q Developer Agent for Software Development](https://www.youtube.com/watch?v=U4XEvJUvff4) 
+  [Installing, Configuring, & Using Amazon Q Developer with JetBrains IDEs (How-to)](https://www.youtube.com/watch?v=-iQfIhTA4J0) 
+  [Mastering the art of Amazon CodeWhisperer - YouTube playlist](https://www.youtube.com/playlist?list=PLDqi6CuDzubxzL-yIqgQb9UbbceYdKhpK) 
+  [AWS re:Invent 2020: Testable infrastructure: Integration testing on AWS](https://www.youtube.com/watch?v=KJC380Juo2w) 
+  [AWS Summit ANZ 2021 - Driving a test-first strategy with CDK and test driven development](https://www.youtube.com/watch?v=1R7G_wcyd3s) 
+  [Testing Your Infrastructure as Code with AWS CDK](https://www.youtube.com/watch?v=fWtuwGSoSOU) 

 **Ressources connexes :** 
+  [Architecture de référence du pipeline de déploiement AWS – Application](https://pipelines.devops.aws.dev/application-pipeline/index.html) 
+  [Pipeline AWS Kubernetes DevSecOps](https://github.com/aws-samples/devsecops-cicd-containers) 
+  [Exécution de tests d’unités pour une application Node.js de GitHub à l’aide d’AWS CodeBuild](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/run-unit-tests-for-a-node-js-application-from-github-by-using-aws-codebuild.html) 
+  [Utilisation de Serverspec pour le développement axé sur les tests du code d’infrastructure](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/use-serverspec-for-test-driven-development-of-infrastructure-code.html) 

 **Services connexes :** 
+  [Amazon Q Developer](https://aws.amazon.com/q/developer/) 
+  [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) 
+  [AWS CodeBuild](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/welcome.html) 

# OPS05-BP03 Utilisation de systèmes de gestion de la configuration
<a name="ops_dev_integ_conf_mgmt_sys"></a>

 Utilisez des systèmes de gestion de la configuration pour effectuer et suivre les modifications de la configuration. Ces systèmes réduisent les erreurs causées par les processus manuels et diminuent le niveau d’effort nécessaire au déploiement des modifications. 

La gestion de la configuration statique définit des valeurs lors de l’initialisation d’une ressource. Elles doivent rester cohérentes tout au long de la durée de vie de cette ressource. La gestion dynamique de la configuration définit des valeurs à l’initialisation qui peuvent ou sont censées changer pendant la durée de vie d’une ressource. Par exemple, vous pouvez définir une touche à bascule de fonctionnalité pour activer les fonctionnalités de votre code par le biais d’une modification de configuration, ou modifier le niveau de détail du journal lors d’un incident.

Les configurations doivent être déployées dans un état connu et cohérent. Vous devez utiliser l’inspection automatisée pour surveiller en permanence les configurations des ressources dans les environnements et les régions. Ces contrôles doivent être définis sous forme de code et de gestion automatisés afin de garantir que les règles sont appliquées de manière cohérente dans tous les environnements. Les modifications apportées aux configurations doivent être mises à jour par le biais de procédures de contrôle des modifications convenues et appliquées de manière cohérente, dans le respect du contrôle des versions. La configuration des applications doit être gérée indépendamment du code de l’application et de l’infrastructure. Cela permet un déploiement cohérent dans plusieurs environnements. Les modifications de configuration n’entraînent pas la reconstruction ou le redéploiement de l’application. 

 **Résultat escompté :** vous effectuez la configuration, la validation et le déploiement dans le cadre de votre pipeline d’intégration et de livraison continues (CI/CD). Vous assurez la surveillance pour vérifier que les configurations sont correctes. Cela permet de minimiser l’impact sur les utilisateurs finaux et les clients. 

 **Anti-modèles courants :** 
+  Vous mettez manuellement à jour la configuration des serveurs Web de votre flotte, et un certain nombre de serveurs ne répondent plus en raison d’erreurs de mise à jour. 
+  Vous mettez à jour manuellement votre flotte de serveurs d’applications pendant plusieurs heures. L’incohérence de la configuration pendant la modification entraîne des comportements inattendus. 
+  Quelqu’un a mis à jour vos groupes de sécurité et vos serveurs Web ne sont plus accessibles. Sans savoir ce qui a changé, vous passez beaucoup de temps à enquêter sur la question, ce qui prolonge votre temps de reprise. 
+  Vous mettez en production une configuration de préproduction via le pipeline CI/CD sans validation. Vous exposez les utilisateurs et les clients à des données et à des services incorrects. 

 **Avantages liés au respect de cette bonne pratique :** l’adoption de systèmes de gestion de la configuration réduit le niveau d’effort nécessaire pour effectuer et suivre les changements, ainsi que la fréquence des erreurs causées par les procédures manuelles. Les systèmes de gestion de la configuration fournissent des garanties en matière de gouvernance, de conformité et d’exigences réglementaires. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Les systèmes de gestion de la configuration sont utilisés pour suivre et mettre en œuvre les modifications apportées aux configurations des applications et de l’environnement. Ils sont également utilisés pour réduire les erreurs causées par les processus manuels, pour rendre les modifications de configuration reproductibles et vérifiables, et pour réduire le niveau d’effort. 

 Sur AWS, vous pouvez utiliser [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) pour surveiller continuellement vos configurations de ressources AWS [à travers les comptes et les régions](https://docs.aws.amazon.com/config/latest/developerguide/aggregate-data.html). Il vous permet de suivre leur historique de configuration, de comprendre comment une modification de la configuration affecterait d’autres ressources et de les auditer par rapport aux configurations attendues ou souhaitées avec [AWS Config Rules](https://docs.aws.amazon.com/config/latest/developerguide/evaluate-config.html) et [AWS Config Conformance Packs](https://docs.aws.amazon.com/config/latest/developerguide/conformance-packs.html). 

 Pour les configurations dynamiques de vos applications exécutées sur des instances Amazon EC2, AWS Lambda, des conteneurs , des applications mobiles ou des appareils IoT, vous pouvez les utiliser [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) pour les configurer, les valider, les déployer et les surveiller dans vos environnements. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Identifiez les responsables de la configuration. 

   1.  Informez les responsables de la configuration de tout besoin en matière de conformité, de gouvernance ou de réglementation. 

1.  Identifiez les éléments de configuration et les livrables. 

   1.  Les éléments de configuration sont toutes les configurations d’application et d’environnement concernées par un déploiement au sein de votre pipeline CI/CD. 

   1.  Les livrables incluent les critères de réussite, la validation et ce qui doit être surveillé. 

1.  Sélectionnez les outils de gestion de la configuration en fonction des besoins de votre entreprise et de votre pipeline de livraison. 

1.  Envisagez des déploiements pondérés tels que les déploiements canary pour les modifications de configuration importantes, afin de minimiser l’impact des configurations incorrectes. 

1.  Intégrez la gestion de votre configuration dans votre pipeline CI/CD. 

1.  Validez toutes les modifications apportées. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS06-BP01 Planifier les modifications infructueuses](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) 
+  [OPS06-BP02 Déploiements de tests](ops_mit_deploy_risks_test_val_chg.md) 
+  [OPS06-BP03 Adoption de stratégies de déploiement sûres](ops_mit_deploy_risks_deploy_mgmt_sys.md) 
+  [OPS06-BP04 Automatiser les tests et les annulations](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documents connexes :** 
+ [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html)
+ [Accélérateur de zone de destination AWS](https://aws.amazon.com/solutions/implementations/landing-zone-accelerator-on-aws/)
+ [AWS Config](https://aws.amazon.com/config/)
+ [ Présentation de AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html)
+  [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) 
+ [ Présentation de AWS CloudFormation](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html)
+  [Outils pour développeurs AWS](https://aws.amazon.com/products/developer-tools/) 
+ [AWS CodeBuild](https://aws.amazon.com/codebuild/)
+ [AWS CodePipeline](https://aws.amazon.com/codepipeline/)
+ [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)

 **Vidéos connexes :** 
+ [AWS re:Invent 2022 - Proactive governance and compliance for AWS workloads](https://youtu.be/PpUnH9Y52X0?si=82wff87KHXcc6nbT)
+ [AWS re:Invent 2020: Achieve compliance as code using AWS Config](https://youtu.be/m8vTwvbzOfw?si=my4DP0FLq1zwKjho)
+ [Manage and Deploy Application Configurations with AWS AppConfig](https://youtu.be/ztIxMY3IIu0?si=ovYGsxWOBysyQrg0)

# OPS05-BP04 Utiliser des systèmes de gestion du développement et du déploiement
<a name="ops_dev_integ_build_mgmt_sys"></a>

 Utilisez des systèmes de gestion du développement et du déploiement. Ces systèmes réduisent les erreurs causées par les processus manuels et diminuent le niveau d’effort nécessaire au déploiement des modifications. 

 Dans AWS, vous pouvez créer des pipelines d’intégration continue/de déploiement continu (CI/CD) à l’aide de services tels que les [outils pour développeurs AWS](https://aws.amazon.com/products/developer-tools/) (par exemple, [AWS CodeBuild](https://aws.amazon.com/codebuild/), [AWS CodePipeline](https://aws.amazon.com/codepipeline/) et [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)). 

 **Résultat escompté :** vos systèmes de gestion du développement et du déploiement prennent en charge le système d’intégration et de livraison continues (CI/CD) de votre entreprise, qui fournit des fonctionnalités permettant d’automatiser des déploiements sécurisés avec les configurations appropriées. 

 **Anti-modèles courants :** 
+  Après avoir compilé votre code sur votre système de développement, vous copiez l’exécutable sur vos systèmes de production et il ne démarre pas. Les fichiers journaux locaux indiquent qu’il n’a pas fonctionné en raison de dépendances manquantes. 
+  Vous créez avec succès votre application avec de nouvelles fonctionnalités dans votre environnement de développement et soumettez le code à l’assurance qualité (QA). L’assurance qualité échoue, car il manque des ressources statiques. 
+  Vendredi, après de nombreux efforts, vous avez réussi à créer manuellement votre application dans votre environnement de développement, y compris vos nouvelles fonctionnalités codées. Lundi, vous ne pouvez pas répéter les étapes qui vous ont permis de créer votre application avec succès. 
+  Vous effectuez les tests que vous avez créés pour votre nouvelle version. Ensuite, vous passez la semaine suivante à configurer un environnement de test et à exécuter tous les tests d’intégration existants, suivis des tests de performances. Le nouveau code a un impact inacceptable sur les performances et doit être redéveloppé, puis retesté. 

 **Avantages liés au respect de cette bonne pratique :** en fournissant des mécanismes pour gérer les activités de construction et de déploiement, vous réduisez le niveau d’effort nécessaire pour effectuer des tâches répétitives, vous libérez les membres de votre équipe pour qu’ils puissent se concentrer sur leurs tâches créatives de grande valeur et vous limitez l’introduction d’erreurs provenant des procédures manuelles. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Les systèmes de gestion du développement et du déploiement sont utilisés pour suivre et mettre en œuvre les modifications, réduire les erreurs causées par les processus manuels et limiter le niveau d’effort requis pour des déploiements sûrs. Automatisez entièrement le pipeline d’intégration et de déploiement à partir du code d’enregistrement et par le biais du développement, des tests, du déploiement et de la validation. Cela permet de réduire les délais, de diminuer les coûts, d’augmenter la fréquence des modifications, de limiter le niveau d’effort et d’accroître la collaboration. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

![\[Schéma illustrant un pipeline CI/CD utilisant AWS CodePipeline et des services connexes\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/images/deployment-pipeline-tooling.png)


1.  Utilisez un système de contrôle de version pour stocker et gérer les ressources (tels que des documents, du code source et des fichiers binaires). 

1.  Utilisez CodeBuild pour compiler votre code source, exécute des tests unitaires et produit des artefacts prêts à être déployés. 

1.  Utilisez CodeDeploy comme un service de déploiement qui automatise les déploiements d’applications vers des instances [Amazon EC2](https://aws.amazon.com/ec2/), des instances sur site, des [fonctions AWS Lambda sans serveur](https://docs.aws.amazon.com/lambda/latest/dg/welcome.html) ou [Amazon ECS](https://aws.amazon.com/ecs/). 

1.  Surveillez vos déploiements. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS06-BP04 Automatiser les tests et les annulations](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documents connexes :** 
+  [Outils pour développeurs AWS](https://aws.amazon.com/products/developer-tools/) 
+  [Présentation de AWS CodeBuild](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+ [AWS CodeBuild](https://aws.amazon.com/codebuild/)
+  [Présentation de AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Vidéos connexes :** 
+ [AWS re:Invent 2022 - AWS Well-Architected best practices for DevOps on AWS](https://youtu.be/hfXokRAyorA)

# OPS05-BP05 Gestion des correctifs
<a name="ops_dev_integ_patch_mgmt"></a>

 Procédez à la gestion des correctifs afin de profiter des fonctionnalités, de résoudre les problèmes et de rester conforme à la gouvernance. Automatisez la gestion des correctifs pour réduire les erreurs causées par les processus manuels, pour permettre la mise à l’échelle et pour réduire le niveau d’efforts nécessaire aux correctifs. 

 La gestion des correctifs et des vulnérabilités fait partie de vos activités de gestion des bénéfices et des risques. Il est préférable d’avoir des infrastructures immuables et de déployer des charges de travail dans des états de bon fonctionnement connus et vérifiés. Lorsque cela n’est pas viable, l’application de correctifs est la seule solution. 

 [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/) est la source d’informations faisant autorité sur les événements de cycle de vie planifiés et les autres événements nécessitant des actions qui affectent l’intégrité de vos ressources AWS Cloud. Vous devez être au courant des modifications à venir et des mises à jour à effectuer. Les principaux événements de cycle de vie planifiés sont envoyés au moins six mois à l’avance. 

 [Amazon EC2 Image Builder](https://aws.amazon.com/image-builder/) fournit des pipelines pour mettre à jour les images des machines. Dans le cadre de la gestion des correctifs, envisagez que des images [Amazon Machine Image](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/AMIs.html       ) (AMI) utilisent un [pipeline d’images AMI](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-image-pipeline.html) ou des images de conteneur avec un [pipeline d’images Docker](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-container-pipeline.html), pendant que AWS Lambda fournit des modèles pour des environnements d’[exécution personnalisés et des bibliothèques supplémentaires](https://docs.aws.amazon.com/lambda/latest/dg/runtimes-custom.html) pour supprimer les vulnérabilités. 

 Vous devez gérer les mises à jour des images [Amazon Machine Image](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/AMIs.html) pour les images Linux ou Windows Server à l’aide d’[Amazon EC2 Image Builder](https://aws.amazon.com/image-builder/). Vous pouvez utiliser [Amazon Elastic Container Registry (Amazon ECR)](https://docs.aws.amazon.com/AmazonECR/latest/userguide/what-is-ecr.html) avec votre pipeline existant pour gérer les images Amazon ECS et les images Amazon EKS. Lambda comprend les [fonctionnalités de gestion des versions](https://docs.aws.amazon.com/lambda/latest/dg/configuration-versions.html). 

 L’application de correctifs ne doit pas être effectuée sur les systèmes de production sans avoir effectué un test préalable dans un environnement sûr. Les correctifs ne doivent être appliqués que s’ils favorisent la réalisation d’un résultat opérationnel ou métier. Sur AWS, vous pouvez utiliser [AWS Systems Manager Patch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) pour automatiser le processus d’application des correctifs aux systèmes gérés et planifier l’activité à l’aide de [Systems Manager Maintenance Windows](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-maintenance.html). 

 **Résultat escompté :** vos images AMI et images de conteneur sont corrigées, mises à jour et prêtes à être lancées. Vous pouvez suivre l’état de toutes les images déployées et déterminer la conformité des correctifs. Vous êtes en mesure de rendre compte de l’état actuel et de disposer d’un processus pour répondre à vos besoins en matière de conformité. 

 **Anti-modèles courants :** 
+  On vous demande d’appliquer tous les nouveaux correctifs de sécurité dans un délai de deux heures, ce qui entraîne de multiples pannes dues à l’incompatibilité de l’application avec les correctifs. 
+  Une bibliothèque non corrigée entraîne des conséquences imprévues, car des parties inconnues y utilisent des failles pour accéder à votre charge de travail. 
+  Vous corrigez automatiquement les environnements de développement sans en informer les développeurs. Vous recevez plusieurs réclamations des développeurs indiquant que leur environnement ne fonctionne plus correctement. 
+  Vous n’avez pas corrigé le logiciel sur une instance persistante. Lorsque vous rencontrez un problème avec le logiciel et que vous contactez le fournisseur, celui-ci vous informe que la version n’est pas prise en charge et que vous devez effectuer appliquer un correctif à un niveau spécifique pour recevoir de l’aide. 
+  Un correctif récemment publié pour le logiciel de chiffrement que vous avez utilisé présente des améliorations significatives de performances. Votre système non corrigé présente des problèmes de performances qui persistent suite à l’absence de correctifs. 
+  Vous êtes averti d’une vulnérabilité de type « jour zéro » nécessitant une correction d’urgence et vous devez corriger manuellement tous vos environnements. 
+  Vous n’êtes pas au courant des actions critiques nécessaires pour maintenir vos ressources, telles que les mises à jour de version obligatoires, car vous ne passez pas en revue les événements de cycle de vie planifiés à venir ni les autres informations. Vous perdez un temps critique pour la planification et l’exécution, ce qui entraîne des changements d’urgence pour vos équipes et un impact potentiel ou une durée d’indisponibilité imprévue. 

 **Avantages liés au respect de cette bonne pratique :** en établissant un processus de gestion des correctifs, y compris vos critères d’application des correctifs et la méthodologie de distribution dans vos environnements, vous pouvez mettre à l’échelle les niveaux de correctifs et créer des rapports sur ces niveaux. Cela fournit des garanties concernant les correctifs de sécurité et assure une visibilité claire sur l’état des correctifs connus en cours de mise en place. Cela encourage aussi l’adoption des fonctions et fonctionnalités désirées, l’élimination rapide des problèmes et le respect durable de la gouvernance. Mettez en œuvre des systèmes de gestion des correctifs et d’automatisation pour réduire le niveau d’effort nécessaire au déploiement des correctifs et limiter les erreurs causées par les processus manuels. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Appliquez des correctifs aux systèmes pour corriger les problèmes, obtenir des fonctionnalités souhaitées et rester conforme à la politique de gouvernance et aux exigences d’assistance du fournisseur. Dans les systèmes immuables, déployez avec l’ensemble de correctifs approprié pour obtenir le résultat souhaité. Automatisez le mécanisme de gestion des correctifs afin de réduire le temps écoulé avant l’application des correctifs, d’éviter les erreurs causées par les processus manuels et de limiter le niveau d’efforts nécessaire pour appliquer les correctifs. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Pour Amazon EC2 Image Builder 

1.  Avec Amazon EC2 Image Builder, spécifiez les détails du pipeline : 

   1.  Créez un pipeline d’images et nommez-le. 

   1.  Définissez le calendrier et le fuseau horaire du pipeline. 

   1.  Configurez toutes les dépendances. 

1.  Choisissez une recette : 

   1.  Sélectionnez une recette existante ou créez-en une. 

   1.  Sélectionnez le type d’image. 

   1.  Donnez un nom et une version à votre recette. 

   1.  Sélectionnez votre image de base. 

   1.  Ajoutez des composants de build et incluez-les dans le registre cible. 

1.  Facultatif : définissez la configuration de votre infrastructure. 

1.  Facultatif : définissez les paramètres de configuration. 

1.  Révisez les paramètres. 

1.  Gérez régulièrement l’hygiène des recettes. 

 Pour le gestionnaire de correctifs de Systems Manager : 

1.  Créez un référentiel de correctifs. 

1.  Sélectionnez une méthode d’opérations d’application de correctifs. 

1.  Activez le reporting et l’analyse de conformité. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS06-BP04 Automatiser les tests et les annulations](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documents connexes :** 
+ [Présentation d’Amazon EC2 Image Builder](https://docs.aws.amazon.com/imagebuilder/latest/userguide/what-is-image-builder.html)
+ [Création d’un pipeline d’images à l’aide d’Amazon EC2 Image Builder](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-image-pipeline.html)
+ [Création d’un pipeline d’images de conteneurs](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-container-pipeline.html)
+  [Gestionnaire de correctifs d’AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) 
+ [Utilisation du gestionnaire de correctifs](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-console.html)
+ [Utilisation des rapports de conformité des correctifs](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-compliance-reports.html)
+ [Outils pour développeurs AWS](https://aws.amazon.com/products/developer-tools)

 **Vidéos connexes :** 
+  [CI/CD for Serverless Applications on AWS](https://www.youtube.com/watch?v=tEpx5VaW4WE) 
+  [Design with Ops in Mind](https://youtu.be/uh19jfW7hw4) 

   **Exemples connexes :** 
+ [Tutoriels du gestionnaire de correctifs AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-tutorials.html)

# OPS05-BP06 Partager les normes de conception
<a name="ops_dev_integ_share_design_stds"></a>

 Partagez les bonnes pratiques entre les équipes pour sensibiliser et maximiser les bénéfices des efforts de développement. Documentez-les et mettez-les à jour au fur et à mesure de l’évolution de votre architecture. Si votre organisation applique des normes partagées, il est essentiel de prévoir des mécanismes permettant de demander des ajouts, des modifications et des exceptions aux normes. Sans cette possibilité, les normes deviennent une contrainte à l’innovation. 

 **Résultat escompté :** les normes de conception sont partagées par toutes les équipes de vos organisations. Ils sont documentés et conservés au up-to-date fur et à mesure de l'évolution des meilleures pratiques. 

 **Anti-modèles courants :** 
+ Deux équipes de développement ont chacune créé un service d’authentification des utilisateurs. Vos utilisateurs doivent conserver un ensemble distinct d’informations d’identification pour chaque partie du système à laquelle ils veulent accéder. 
+ Chaque équipe gère sa propre infrastructure. Une nouvelle exigence de conformité impose une modification de votre infrastructure et chaque équipe la met en œuvre de manière différente.

 **Avantages liés au respect de cette bonne pratique :** l’utilisation de normes communes favorise l’adoption de bonnes pratiques et maximise les avantages des efforts de développement. La documentation et la mise à jour des normes de conception permettent à votre organisation de up-to-date respecter les meilleures pratiques et les exigences de sécurité et de conformité. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Partagez les bonnes pratiques existantes, les normes de conception, les listes de contrôle, les procédures d’exploitation, les conseils et les exigences de gouvernance entre les équipes. Prévoyez des procédures pour demander des modifications, des ajouts et des exceptions aux normes de conception afin de favoriser l’amélioration et l’innovation. Assurez-vous que les équipes sont au courant du contenu publié. Disposer d'un mécanisme permettant de maintenir les normes de conception au up-to-date fur et à mesure que de nouvelles pratiques exemplaires apparaissent. 

 **Exemple client** 

 AnyCompany Retail dispose d'une équipe d'architecture interfonctionnelle qui crée des modèles d'architecture logicielle. Cette équipe construit l’architecture en y intégrant les aspects de conformité et de gouvernance. Les équipes qui adoptent ces normes communes bénéficient des avantages de la conformité et de la gouvernance intégrées. Elles peuvent rapidement s’appuyer sur la norme de conception. L’équipe d’architecture se réunit tous les trimestres pour évaluer les modèles d’architecture et les mettre à jour si nécessaire. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Identifiez une équipe interfonctionnelle qui sera chargée de développer et de mettre à jour les normes de conception. Cette équipe travaillera avec les parties prenantes de votre organisation pour élaborer des normes de conception, des procédures d’exploitation, des listes de contrôle, des conseils et des exigences de gouvernance. Documentez les normes de conception et partagez-les au sein de votre organisation. 

   1.  [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/adminguide/introduction.html) permet de créer des portefeuilles représentant les normes de conception en utilisant l’infrastructure en tant que code. Vous pouvez partager des portefeuilles entre plusieurs comptes. 

1.  Mettre en place un mécanisme pour maintenir les normes de conception au up-to-date fur et à mesure que de nouvelles pratiques exemplaires sont identifiées. 

1.  Si les normes de conception sont appliquées de manière centralisée, il faut prévoir un processus pour demander des modifications, des mises à jour et des exemptions. 

 **Niveau d’effort du plan d’implémentation :** moyen. L’élaboration d’un processus de création et de partage des normes de conception peut nécessiter une coordination et une coopération avec les parties prenantes de votre organisation. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS01-BP03 Évaluer les exigences de gouvernance](ops_priorities_governance_reqs.md) – Les exigences de gouvernance influencent les normes de conception. 
+  [OPS01-BP04 Évaluation des exigences de conformité](ops_priorities_compliance_reqs.md) – La conformité est un élément essentiel de la création de normes de conception. 
+  [OPS07-BP02 Assurer un examen cohérent de l’état de préparation opérationnelle](ops_ready_to_support_const_orr.md) – Les listes de contrôle de la disponibilité opérationnelle constituent un mécanisme de mise en œuvre des normes de conception lors de la conception de votre charge de travail. 
+  [OPS11-BP01 Définir un processus d’amélioration continue](ops_evolve_ops_process_cont_imp.md) – La mise à jour des normes de conception fait partie de l’amélioration continue. 
+  [OPS11-BP04 Effectuer la gestion des connaissances](ops_evolve_ops_knowledge_management.md) – Dans le cadre de votre pratique de gestion des connaissances, documentez et partagez les normes de conception. 

 **Documents connexes :** 
+ [Automatisez AWS Backup nous avec AWS Service Catalog](https://aws.amazon.com/blogs/mt/automate-aws-backups-with-aws-service-catalog/)
+ [AWS Service Catalog Compte amélioré en usine](https://aws.amazon.com/blogs/mt/aws-service-catalog-account-factory-enhanced/)
+ [Comment Expedia Group a créé une offre de base de données en tant que service (DBaaS) en utilisant AWS Service Catalog](https://aws.amazon.com/blogs/mt/how-expedia-group-built-database-as-a-service-dbaas-offering-using-aws-service-catalog/)
+ [Assurer la visibilité sur l’utilisation des modèles d’architecture cloud](https://aws.amazon.com/blogs/architecture/maintain-visibility-over-the-use-of-cloud-architecture-patterns/)
+ [Simplifiez le partage de vos AWS Service Catalog portefeuilles dans une AWS Organizations configuration](https://aws.amazon.com/blogs/mt/simplify-sharing-your-aws-service-catalog-portfolios-in-an-aws-organizations-setup/)

 **Vidéos connexes :** 
+ [AWS Service Catalog — Mise en route](https://www.youtube.com/watch?v=A9kKy6WhqVA)
+ [AWS re:Invent 2020 : Gérez vos AWS Service Catalog portefeuilles comme un expert](https://www.youtube.com/watch?v=lVfXkWHAtR8)

 **Exemples connexes :** 
+ [AWS Service Catalog Architecture de référence](https://github.com/aws-samples/aws-service-catalog-reference-architectures)
+ [AWS Service Catalog Atelier](https://catalog.us-east-1.prod.workshops.aws/workshops/d40750d7-a330-49be-9945-cde864610de9/en-US)

 **Services connexes :** 
+  [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/adminguide/introduction.html) 

# OPS05-BP07 Mise en œuvre de pratiques visant à améliorer la qualité du code
<a name="ops_dev_integ_code_quality"></a>

 Mettez en place des pratiques pour améliorer la qualité du code et limiter les failles. Parmi les exemples, citons le développement piloté par les tests, les révisions de code, l’adoption de normes et la programmation en binôme. Incorporez ces pratiques dans votre processus d’intégration et de livraison continues. 

 **Résultat escompté :** votre organisation utilise des bonnes pratiques comme les révisions de code ou la programmation en binôme pour améliorer la qualité du code. Les développeurs et les opérateurs adoptent les bonnes pratiques en matière de qualité du code dans le cadre du cycle de vie du développement logiciel. 

 **Anti-modèles courants :** 
+  Vous livrez du code à la branche principale de votre application sans effectuer de révision du code. La modification est automatiquement déployée en production et provoque une panne. 
+  Une nouvelle application est développée sans aucun test d’unité, de bout en bout ou d’intégration. Il n’y a aucun moyen de tester l’application avant son déploiement. 
+  Vos équipes procèdent à des modifications manuelles en production pour corriger les défauts. Les modifications ne sont pas soumises à des tests ou à des révisions de code et ne sont pas saisies ou enregistrées dans le cadre des processus d’intégration et de livraison continues. 

 **Avantages liés au respect de cette bonne pratique :** en adoptant des pratiques visant à améliorer la qualité du code, vous contribuez à minimiser les problèmes introduits dans la production. Les bonnes pratiques en matière de qualité du code incluent la programmation en binôme, les révisions de code et la mise en œuvre d’outils de productivité basés sur l’IA. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Mettez en œuvre des pratiques visant à améliorer la qualité du code afin de minimiser les défauts avant leur déploiement. Utilisez des pratiques telles que le développement piloté par les tests, les révisions de code et la programmation en binôme pour améliorer la qualité de votre développement. 

 Utilisez la puissance de l’IA générative avec Amazon Q Developer pour améliorer la productivité des développeurs et la qualité du code. Amazon Q Developer comprend la génération de suggestions de code (basées sur de grands modèles de langage), la production de tests unitaires (y compris les conditions limites) et l’amélioration de la sécurité du code par la détection et la correction des vulnérabilités de sécurité. 

 **Exemple client** 

 AnyCompany Retail adopte plusieurs pratiques pour améliorer la qualité du code. La société a adopté le développement piloté par les tests comme norme d’écriture des applications. Pour certaines nouvelles fonctionnalités, elle demande aux développeurs de programmer en binôme pendant un sprint. Chaque demande d’extraction est soumise à une révision du code par un développeur principal avant d’être intégrée et déployée. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Adoptez des pratiques de qualité du code telles que le développement piloté par les tests, les révisions de code et la programmation en binôme dans votre processus d’intégration et de livraison continues. Utilisez ces techniques pour améliorer la qualité des logiciels. 

   1.  Utilisez [Amazon Q Developer](https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/what-is.html), un outil d’IA générative qui peut vous aider à créer des cas de tests unitaires (y compris des conditions limites), à générer des fonctions à l’aide de code et de commentaires, à implémenter des algorithmes connus, à détecter les violations des politiques de sécurité et les vulnérabilités dans votre code, à détecter les secrets, à scanner l’infrastructure en tant que code (IaC), à documenter le code et à apprendre plus rapidement des bibliothèques de code tierces. 

   1.  [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) peut fournir des recommandations de programmation pour le code Java et Python en utilisant le machine learning. 

 **Niveau d’effort du plan d’implémentation :** moyen. Il existe de nombreuses façons de mettre en œuvre cette bonne pratique, mais il peut être difficile de la faire adopter par l’organisation. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS05-BP02 Test et validation des modifications](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_test_val_chg.html) 
+  [OPS05-BP06 Partage des normes de conception](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 

 **Documents connexes :** 
+  [Adopter une approche de développement piloté par les tests](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [Accélération du cycle de développement de vos logiciels avec Amazon Q](https://aws.amazon.com/blogs/devops/accelerate-your-software-development-lifecycle-with-amazon-q/) 
+  [Amazon Q Developer, désormais disponible pour le grand public, inclut des aperçus de nouvelles fonctionnalités destinées à réinventer l’expérience des développeurs](https://aws.amazon.com/blogs/aws/amazon-q-developer-now-generally-available-includes-new-capabilities-to-reimagine-developer-experience/) 
+  [L’aide-mémoire ultime pour utiliser Amazon Q Developer dans votre environnement de développement intégré](https://community.aws/content/2eYoqeFRqaVnk900emsknDfzhfW/the-ultimate-cheat-sheet-for-using-amazon-q-developer-in-your-ide) 
+  [Shift-Left Workload, tirant parti de l’IA pour la création de tests](https://community.aws/content/2gBZtC94gPzaCQRnt4P0rIYWuBx/shift-left-workload-leveraging-ai-for-test-creation) 
+  [Centre de développement Amazon Q](https://aws.amazon.com/developer/generative-ai/amazon-q/) 
+  [10 façons de créer des applications plus rapidement avec Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/10-ways-to-build-applications-faster-with-amazon-codewhisperer/) 
+  [Au-delà de la couverture du code avec Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/looking-beyond-code-coverage-with-amazon-codewhisperer/) 
+  [Bonnes pratiques pour une ingénierie de requête avec Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/best-practices-for-prompt-engineering-with-amazon-codewhisperer/) 
+  [Guide du logiciel Agile](https://martinfowler.com/agile.html) 
+  [Mon pipeline CI/CD est mon capitaine de versions](https://aws.amazon.com/builders-library/cicd-pipeline/) 
+  [Automatisez les révisions de code avec Amazon CodeGuru Reviewer](https://aws.amazon.com/blogs/devops/automate-code-reviews-with-amazon-codeguru-reviewer/) 
+  [Adopter une approche de développement piloté par les tests](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [Comment DevFactory crée de meilleures applications avec Amazon CodeGuru](https://aws.amazon.com/blogs/machine-learning/how-devfactory-builds-better-applications-with-amazon-codeguru/) 
+  [Programmation en binôme](https://martinfowler.com/articles/on-pair-programming.html) 
+  [RENGA Inc. automatise les révisions de code avec Amazon CodeGuru](https://aws.amazon.com/blogs/machine-learning/renga-inc-automates-code-reviews-with-amazon-codeguru/) 
+  [L’art du développement agile : le développement piloté par les tests](http://www.jamesshore.com/v2/books/aoad1/test_driven_development) 
+  [Pourquoi les révisions de code sont importantes (et font gagner du temps \$1)](https://www.atlassian.com/agile/software-development/code-reviews) 

 **Vidéos connexes :** 
+  [Implement an API with Amazon Q Developer Agent for Software Development](https://www.youtube.com/watch?v=U4XEvJUvff4) 
+  [Installing, Configuring, & Using Amazon Q Developer with JetBrains IDEs (How-to)](https://www.youtube.com/watch?v=-iQfIhTA4J0) 
+  [Mastering the art of Amazon CodeWhisperer - YouTube playlist](https://www.youtube.com/playlist?list=PLDqi6CuDzubxzL-yIqgQb9UbbceYdKhpK) 
+  [AWS re:Invent 2020: Continuous improvement of code quality with Amazon CodeGuru](https://www.youtube.com/watch?v=iX1i35H1OVw) 
+  [AWS Summit ANZ 2021 - Driving a test-first strategy with CDK and test driven development](https://www.youtube.com/watch?v=1R7G_wcyd3s) 

 **Services connexes :** 
+  [Amazon Q Developer](https://aws.amazon.com/q/developer/) 
+  [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) 
+  [Amazon CodeGuru Profiler](https://docs.aws.amazon.com/codeguru/latest/profiler-ug/what-is-codeguru-profiler.html) 

# OPS05-BP08 Utilisation de plusieurs environnements
<a name="ops_dev_integ_multi_env"></a>

 Utilisez plusieurs environnements pour expérimenter, développer et tester votre charge de travail. Utilisez des niveaux de contrôle croissants lorsque les environnements approchent de la production pour vous assurer que votre charge de travail fonctionnera correctement une fois déployée. 

 **Résultat escompté :** vous disposez de plusieurs environnements qui répondent à vos besoins en matière de conformité et de gouvernance. Vous testez et promouvez le code dans les différents environnements jusqu’à la production. 

1.  Pour ce faire, votre organisation établit une zone de destination, qui assure la gouvernance, les contrôles, l’automatisation des comptes, la mise en réseau, la sécurité et l’observabilité opérationnelle. Gérez ces fonctionnalités de zone de destination en utilisant plusieurs environnements. Un exemple courant est celui d’une organisation d’environnement de test (sandbox) chargée de développer et de tester des modifications apportées à une zone de destination basée sur [AWS Control Tower](https://aws.amazon.com/controltower/), qui inclut [AWS IAM Identity Center](https://aws.amazon.com/iam/identity-center/) et des politiques telles que les [politiques de contrôle des services (SCP)](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html). Tous ces éléments peuvent avoir un impact significatif sur l’accès aux Comptes AWS et leur fonctionnement dans la zone de destination. 

1.  En plus de ces services, vos équipes étendent les capacités des zones de destination avec des solutions publiées par AWS et les partenaires AWS ou des solutions personnalisées développées au sein de votre organisation. Les exemples de solutions publiées par AWS incluent [Configurations personnalisées d’AWS Control Tower (CfCT)](https://aws.amazon.com/solutions/implementations/customizations-for-aws-control-tower/) et [AWS Control Tower Account Factory pour Terraform (AFT)](https://docs.aws.amazon.com/controltower/latest/userguide/aft-overview.html). 

1.  Votre organisation applique les mêmes principes en matière de test, de promotion du code et de modification des politiques pour la zone de destination via les environnements sur le chemin de la production. Cette stratégie offre un environnement de zone de destination stable et sécurisé à vos équipes chargées des applications et des charges de travail. 

 **Anti-modèles courants :** 
+  Vous effectuez un développement dans un environnement de développement partagé et un autre développeur remplace vos modifications de code. 
+  Les contrôles de sécurité restrictifs sur votre environnement de développement partagé vous empêchent d’expérimenter de nouveaux services et fonctionnalités. 
+  Vous effectuez des tests de charge sur vos systèmes de production et provoquez une panne pour vos utilisateurs. 
+  Une erreur critique entraînant une perte de données s’est produite en production. Dans votre environnement de production, vous essayez de recréer les conditions qui ont conduit à la perte de données afin de pouvoir identifier comment elle s’est produite et empêcher qu’elle ne se reproduise. Pour éviter toute perte de données supplémentaire pendant les tests, vous devez rendre l’application indisponible aux utilisateurs. 
+  Vous explorez un service multilocataire et n’êtes pas en mesure de répondre à la demande d’un client pour un environnement dédié. 
+  Il se peut que vous ne réalisiez pas toujours des tests, mais lorsque vous le faites, vous procédez dans votre environnement de production. 
+  Vous pensez que la simplicité d’un environnement unique l’emporte sur la portée de l’impact des modifications au sein de l’environnement. 
+  Vous améliorez une fonctionnalité clé de la zone de destination, mais cette modification réduit la capacité de votre équipe à vendre des comptes pour de nouveaux projets ou pour vos charges de travail existantes. 
+  Vous appliquez de nouveaux contrôles à vos Comptes AWS, mais la modification a un impact sur la capacité de votre équipe chargée des charges de travail à déployer des modifications dans leurs Comptes AWS. 

 **Avantages liés au respect de cette bonne pratique :** lorsque vous déployez plusieurs environnements, vous pouvez prendre en charge simultanément plusieurs environnements de développement, de test et de production sans créer de conflits entre les développeurs ou les communautés d’utilisateurs. Pour les fonctionnalités complexes telles que les zones de destination, cela réduit considérablement le risque de modifications, simplifie le processus d’amélioration et réduit le risque de mises à jour critiques de l’environnement. Les organisations qui utilisent des zones de destination tirent naturellement parti des comptes multiples dans leur environnement AWS, avec les configurations de structure de compte, de gouvernance, de réseau et de sécurité. Au fil du temps, à mesure que votre entreprise grandit, la zone de destination peut évoluer pour sécuriser et organiser vos charges de travail et vos ressources. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Utilisez plusieurs environnements et fournissez aux développeurs des environnements de test (sandbox) avec des contrôles réduits au minimum pour faciliter l’expérimentation. Fournissez des environnements de développement individuels pour permettre le travail en parallèle, ce qui augmente l’agilité du développement. Mettez en œuvre davantage de contrôles rigoureux dans les environnements proches de la production pour offrir aux développeurs la liberté d’innover. Utilisez l’infrastructure en tant que code et les systèmes de gestion de la configuration pour déployer des environnements configurés de manière cohérente par rapport aux contrôles de production pour veiller au bon fonctionnement des systèmes lorsqu’ils sont déployés. Lorsque les environnements ne sont pas en cours d’utilisation, désactivez-les pour éviter les coûts associés à des ressources inutilisées (par exemple, les systèmes de développement en soirée et les week-ends). Déployez des environnements équivalents à la production lors des tests de charge pour accroître les résultats valides. 

 Les équipes chargées de l’ingénierie des plateformes, de la mise en réseau et des opérations de sécurité gèrent souvent les capacités au niveau de l’organisation avec des exigences distinctes. La séparation des comptes ne suffit pas à fournir et à maintenir des environnements distincts pour l’expérimentation, le développement et les tests. Dans ce type de cas, créez des instances distinctes d’AWS Organizations. 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+ [Instance Scheduler sur AWS](https://aws.amazon.com/solutions/implementations/instance-scheduler-on-aws/)
+  [Présentation de AWS CloudFormation](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html) 
+ [ Organisation de votre environnement AWS à l’aide de plusieurs comptes - Organisations multiples - Test des modifications apportées à votre environnement AWS global ](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/multiple-organizations.html#test-changes-to-your-overall-aws-environment)
+ [Guide AWS Control Tower](https://catalog.workshops.aws/control-tower)

# OPS05-BP09 Procéder à des modifications fréquentes, mineures et réversibles
<a name="ops_dev_integ_freq_sm_rev_chg"></a>

 Les modifications fréquentes, légères et réversibles limitent la portée et l’impact d’une modification. Lorsqu’elles sont utilisées conjointement avec des systèmes de gestion des modifications, des systèmes de gestion de configuration et des systèmes de construction et de livraison, les modifications fréquentes, mineures et réversibles limitent la portée et l’impact d’une modification. Cela se traduit par une résolution plus efficace des problèmes et par des corrections plus rapides avec la possibilité d’annuler les modifications effectuées. 

 **Anti-modèles courants :** 
+  Vous déployez une nouvelle version de votre application tous les trimestres avec une fenêtre de modification qui signifie qu’un service principal est désactivé. 
+  Vous modifiez fréquemment le schéma de votre base de données sans suivre les modifications apportées à vos systèmes de gestion. 
+  Vous effectuez des mises à jour manuelles sur place, en remplaçant les installations et les configurations existantes, sans aucun plan de restauration clair. 

 **Avantages de l’établissement de cette bonne pratique :** les efforts de développement sont plus rapides en déployant fréquemment de petites modifications. Lorsque les changements sont minimes, il est beaucoup plus facile d’identifier s’ils ont des conséquences inattendues et ils sont plus faciles à annuler. Lorsque les changements sont réversibles, les risques de mise en œuvre d’une modification sont minimes, car la récupération est simplifiée. Le processus de modification présente un risque réduit et l’impact de l’échec d’une modification est réduit. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** faible 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Ayez recours à des modifications fréquentes, légères et réversibles pour limiter leur portée et leur impact. Cela facilite la résolution des problèmes, contribue à accélérer les corrections et offre la possibilité d’annuler une modification. Cela augmente également la vitesse à laquelle vous pouvez apporter de la valeur à votre entreprise. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS05-BP03 Utilisation de systèmes de gestion de la configuration](ops_dev_integ_conf_mgmt_sys.md) 
+  [OPS05-BP04 Utiliser des systèmes de gestion du développement et du déploiement](ops_dev_integ_build_mgmt_sys.md) 
+  [OPS06-BP04 Automatiser les tests et les annulations](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documents connexes :** 
+ [Implémentation de microservices sur AWS](https://docs.aws.amazon.com/whitepapers/latest/microservices-on-aws/microservices-on-aws.html)
+ [Microservices – Observabilité](https://docs.aws.amazon.com/whitepapers/latest/microservices-on-aws/observability.html)

# OPS05-BP10 Automatisation complète de l’intégration et du déploiement
<a name="ops_dev_integ_auto_integ_deploy"></a>

 Automatisez la création, le déploiement et le test de la charge de travail. Cela permet de réduire les erreurs découlant des processus manuels, ainsi que les efforts nécessaires au déploiement des modifications. 

 Appliquez des métadonnées à l’aide des [balises de ressource](https://docs.aws.amazon.com/general/latest/gr/aws_tagging.html) et de [Groupes de ressources AWS](https://docs.aws.amazon.com/ARG/latest/APIReference/Welcome.html) en suivant une [stratégie de balisage](https://aws.amazon.com/answers/account-management/aws-tagging-strategies/) cohérente pour permettre l’identification de vos ressources. Balisez vos ressources pour l’organisation, la comptabilité analytique, les contrôles d’accès et le ciblage de l’exécution des activités d’opérations automatisées. 

 **Résultat escompté :** les développeurs utilisent des outils pour fournir du code et le promouvoir jusqu’à la production. Les développeurs n’ont pas besoin de se connecter à la AWS Management Console pour fournir des mises à jour. Il existe une piste d’audit complète des modifications et de la configuration, répondant aux besoins de gouvernance et de conformité. Les processus sont reproductibles et standardisés entre les équipes. Les développeurs sont libres de se concentrer sur le développement et les envois de code, ce qui augmente la productivité. 

 **Anti-modèles courants :** 
+  Vendredi, vous avez fini de créer le code de votre branche de fonctionnalité. Lundi, après avoir exécuté vos scripts de test de la qualité du code et chacun de vos scripts de tests unitaires, vous vérifiez votre code pour la prochaine version prévue. 
+  Vous êtes chargé de coder un correctif pour un problème critique affectant un grand nombre de clients en production. Après avoir testé le correctif, vous validez votre code et envoyez un e-mail à l’équipe de gestion des modifications pour demander l’autorisation de le déployer en production. 
+  En tant que développeur, vous vous connectez à la AWS Management Console pour créer un environnement de développement à l’aide de méthodes et de systèmes non standard. 

 **Avantages liés au respect de cette bonne pratique :** en mettant en œuvre des systèmes automatisés de gestion de la création et du déploiement, vous réduisez les erreurs causées par les processus manuels et diminuez l’effort de déploiement des changements, ce qui permet aux membres de votre équipe de se concentrer sur la création de valeur ajoutée. Vous accélérez la vitesse de livraison au fur et à mesure que vous progressez jusqu’à la production. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** bas 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Utilisez des systèmes de gestion du développement et du déploiement afin de suivre et de mettre en œuvre des modifications, de réduire les erreurs causées par les processus manuels et de réduire le niveau d’efforts. Automatisez entièrement le pipeline d’intégration et de déploiement à partir du code d’enregistrement et par le biais du développement, des tests, du déploiement et de la validation. Cela permet de raccourcir les délais, d’augmenter la fréquence des modifications, de réduire le niveau d’effort, d’accélérer la mise sur le marché, d’augmenter la productivité et de renforcer la sécurité de votre code jusqu’à la production. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS05-BP03 Utilisation de systèmes de gestion de la configuration](ops_dev_integ_conf_mgmt_sys.md) 
+  [OPS05-BP04 Utiliser des systèmes de gestion du développement et du déploiement](ops_dev_integ_build_mgmt_sys.md) 

 **Documents connexes :** 
+  [Présentation de AWS CodeBuild](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [Présentation de AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Vidéos connexes :** 
+ [AWS re:Invent 2022 - AWS Well-Architected best practices for DevOps on AWS](https://youtu.be/hfXokRAyorA)

# OPS 6. Comment réduire les risques liés au déploiement ?
<a name="ops-06"></a>

 Adoptez des approches qui fournissent un retour d’information rapide sur la qualité et permettent une reprise rapide à la suite de changements qui n’offrent pas les résultats escomptés. L’utilisation de ces pratiques diminue l’impact des problèmes découlant du déploiement des modifications. 

**Topics**
+ [

# OPS06-BP01 Planifier les modifications infructueuses
](ops_mit_deploy_risks_plan_for_unsucessful_changes.md)
+ [

# OPS06-BP02 Déploiements de tests
](ops_mit_deploy_risks_test_val_chg.md)
+ [

# OPS06-BP03 Adoption de stratégies de déploiement sûres
](ops_mit_deploy_risks_deploy_mgmt_sys.md)
+ [

# OPS06-BP04 Automatiser les tests et les annulations
](ops_mit_deploy_risks_auto_testing_and_rollback.md)

# OPS06-BP01 Planifier les modifications infructueuses
<a name="ops_mit_deploy_risks_plan_for_unsucessful_changes"></a>

Prévoyez de revenir à un état correct connu ou de remédier à la situation dans l’environnement de production si le déploiement entraîne un résultat indésirable. L’existence d’une politique visant à établir un tel plan aide toutes les équipes à développer des stratégies de récupération en cas d’échec des modifications. Parmi les exemples de stratégies, citons les étapes de déploiement et de restauration, les stratégies de changement, les indicateurs de fonctionnalité, l’isolation du trafic et le déplacement du trafic. Une seule version peut inclure plusieurs modifications de composants connexes. La stratégie doit permettre de résister ou de se remettre d’une défaillance de tout changement de composant.

 **Résultat escompté :** vous avez préparé un plan de reprise détaillé pour votre modification en cas d’échec. En outre, vous avez réduit la taille de votre version afin de minimiser l’impact potentiel sur d’autres composants de la charge de travail. Vous avez ainsi réduit l’impact sur l’entreprise en diminuant le temps d’arrêt potentiel causé par une modification ratée et en augmentant la flexibilité et l’efficacité des temps de récupération. 

 **Anti-modèles courants :** 
+  Vous avez effectué un déploiement et votre application est devenue instable, mais il semble qu’il y ait des utilisateurs actifs sur le système. Vous devez décider entre annuler la modification et avoir un impact sur les utilisateurs actifs et attendre pour annuler la modification en sachant que les utilisateurs peuvent être impactés de toute façon. 
+  Après avoir modifié la routine, vos nouveaux environnements sont accessibles, mais l’un de vos sous-réseaux est devenu inaccessible. Vous devez décider de tout annuler ou d’essayer de réparer le sous-réseau inaccessible. Pendant cette période de détermination, le sous-réseau reste inaccessible. 
+  Vos systèmes ne sont pas conçus de manière à pouvoir être mis à jour avec de plus petites versions. Par conséquent, il est difficile d’annuler ces modifications en bloc en cas d’échec du déploiement. 
+  Vous n’utilisez pas l’infrastructure en tant que code (IaC) et vous avez effectué des mises à jour manuelles de votre infrastructure, ce qui a entraîné une configuration indésirable. Vous n’êtes pas en mesure de suivre et d’annuler efficacement les modifications manuelles. 
+  Parce que vous n’avez pas mesuré l’augmentation de la fréquence de vos déploiements, votre équipe n’est pas incitée à réduire la taille de ses changements et à améliorer ses plans de restauration pour chaque modification, ce qui entraîne une augmentation des risques et des taux d’échec. 
+  Vous ne mesurez pas la durée totale d’une panne causée par des modifications infructueuses. Votre équipe n’est pas en mesure d’établir des priorités et d’améliorer l’efficacité de son processus de déploiement et de son plan de reprise. 

 **Avantages de la mise en place de cette meilleure pratique :** le fait de disposer d'un plan de reprise après des modifications infructueuses permet de minimiser le temps moyen de restauration (MTTR) et de réduire l'impact sur votre entreprise. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Une stratégie et une pratique cohérentes et documentées, adoptées par les équipes de publication des versions, permettent à une organisation de planifier ce qui doit se passer en cas d’échec des modifications. La politique devrait permettre la correction à l’avance dans des circonstances spécifiques. Dans les deux cas, un plan de correction à l’avance ou de restauration doit être bien documenté et testé avant d’être déployé dans la production réelle, afin de réduire au minimum la durée nécessaire pour restaurer une modification. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Documentez les stratégies qui exigent des équipes qu’elles disposent de plans efficaces pour restaurer les modifications dans un délai donné. 

   1.  Les stratégies doivent préciser les cas où une situation de correction à l’avance est autorisée. 

   1.  Exigez qu’un plan de restauration documenté soit accessible à toutes les personnes concernées. 

   1.  Précisez les conditions de restauration (par exemple, lorsqu’il s’avère que des modifications non autorisées ont été déployées). 

1.  Analysez le niveau d’impact de toutes les modifications liées à chaque composante d’une charge de travail. 

   1.  Autorisez les modifications répétitives à être normalisées, modélisées et préautorisées si elles suivent un flux de travail cohérent qui applique les politiques de modification. 

   1.  Réduisez l’impact potentiel de toute modification en en réduisant la taille, de sorte que la reprise prenne moins de temps et ait moins d’impact sur l’entreprise. 

   1.  Veillez à ce que les procédures de restauration ramènent le code à l’état correct connu afin d’éviter les incidents dans la mesure du possible. 

1.  Intégrez des outils et des flux de travail pour appliquer vos politiques de manière programmée. 

1.  Faites en sorte que les données relatives aux modifications soient visibles pour les autres propriétaires de charges de travail afin d’améliorer la rapidité du diagnostic en cas de modification défaillante impossible à annuler. 

   1.  Mesurez le degré de réussite de cette pratique à l’aide de données sur les modifications visibles et identifiez les améliorations itératives. 

1.  Utilisez des outils de surveillance pour vérifier le succès ou l’échec d’un déploiement afin d’accélérer la prise de décision concernant la restauration. 

1.  Mesurez la durée de l’interruption lors d’un changement infructueux afin d’améliorer continuellement vos plans de reprise. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS06-BP04 Automatiser les tests et les annulations](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documents connexes :** 
+ [AWS Builders Library \$1 Garantir la sécurité des annulations lors des déploiements](https://aws.amazon.com/builders-library/ensuring-rollback-safety-during-deployments/)
+ [AWS Livre blanc \$1 Gestion du changement dans le cloud](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html)

 **Vidéos connexes :** 
+ [re:Invent 2019 \$1 Amazon’s Approach to high-availability deployment](https://aws.amazon.com/builders-library/amazon-approach-to-high-availability-deployment/)

# OPS06-BP02 Déploiements de tests
<a name="ops_mit_deploy_risks_test_val_chg"></a>

 Testez les procédures de mise à disposition en préproduction en utilisant la même configuration de déploiement, les mêmes contrôles de sécurité, les mêmes étapes et les mêmes procédures qu’en production. Confirmez que toutes les étapes du déploiement se sont déroulées comme prévu, par exemple en inspectant les fichiers, les configurations et les services. Testez ensuite toutes les modifications à l’aide de tests fonctionnels, d’intégration et de charge, ainsi que de contrôles tels que les surveillances de l’état. En effectuant ces tests, vous pouvez identifier rapidement les problèmes de déploiement et avoir la possibilité de les planifier et de les atténuer avant la mise en production. 

 Vous pouvez créer des environnements parallèles temporaires pour tester chaque modification. Automatisez le déploiement des environnements de test à l’aide de l’infrastructure en tant que code (IaC) afin de réduire la quantité de travail nécessaire et d’assurer la stabilité, la cohérence et une livraison plus rapide des fonctionnalités. 

 **Résultat escompté :** votre organisation adopte une culture de développement piloté par les tests qui inclut des déploiements de tests. Cela permet de veiller à ce que les équipes se concentrent sur la création de valeur pour l’entreprise plutôt que sur la gestion des versions. Les équipes sont impliquées dès l’identification des risques de déploiement afin de déterminer les mesures d’atténuation appropriées. 

 **Anti-modèles courants :** 
+  Pendant les mises en production, les déploiements non testés entraînent des problèmes fréquents qui nécessitent un dépannage et une remontée. 
+  Votre version contient une infrastructure en tant que code (IaC) qui met à jour les ressources existantes. Vous n’êtes pas certain que l’IaC s’exécute correctement ou qu’elle a un impact sur les ressources. 
+  Vous déployez une nouvelle fonctionnalité dans votre application. Elle ne fonctionne pas comme prévu et il n’y a aucune visibilité jusqu’à ce qu’elle soit signalée par les utilisateurs concernés. 
+  Vous mettez à jour vos certificats. Vous installez accidentellement les certificats sur les mauvais composants, ce qui passe inaperçu et a un impact sur les visiteurs du site Web parce qu’il est impossible d’établir une connexion sécurisée avec le site Web. 

 **Avantages liés au respect de cette bonne pratique :** des tests approfondis en préproduction des procédures de déploiement et des modifications qu’elles introduisent minimisent l’impact potentiel sur la production causé par les étapes de déploiement. Cela permet d’accroître la confiance lors de la mise en production et de minimiser l’assistance opérationnelle sans ralentir la vitesse des changements apportés. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Il est tout aussi important de tester votre processus de déploiement que les modifications qui en découlent. Pour ce faire, vous pouvez tester vos étapes de déploiement dans un environnement de préproduction qui reflète le plus fidèlement possible l’environnement de production. Les problèmes courants, tels que les étapes de déploiement incomplètes ou incorrectes, ou les mauvaises configurations, peuvent être détectés avant la mise en production. De plus, vous pouvez tester vos étapes de reprise. 

 **Exemple client** 

 Dans le cadre de son pipeline d'intégration continue et de livraison continue (CI/CD), AnyCompany Retail exécute les étapes définies nécessaires pour publier des mises à jour d'infrastructure et de logiciels pour ses clients dans un environnement de type production. Le pipeline comprend des contrôles préalables pour détecter les altérations (détection des changements apportés aux ressources en dehors de votre IaC) dans les ressources avant le déploiement, ainsi que pour valider les actions que l’IaC entreprend lors de son lancement. Il valide les étapes du déploiement, en vérifiant par exemple que certains fichiers et configurations sont en place, que les services sont en cours d’exécution et qu’ils répondent correctement aux surveillances de l’état sur l’hôte local avant de s’enregistrer à nouveau auprès de l’équilibreur de charge. En outre, toutes les modifications font l’objet d’un certain nombre de tests automatisés, tels que des tests fonctionnels, de sécurité, de régression, d’intégration et de charge. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Effectuez des contrôles avant l’installation pour reproduire l’environnement de préproduction en production. 

   1.  Utilisez [la détection de dérive](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/using-cfn-stack-drift.html) pour détecter lorsque les ressources ont été modifiées en dehors de CloudFormation. 

   1.  Utilisez [des ensembles de modifications](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/using-cfn-updating-stacks-changesets.html) pour vérifier que l'intention d'une mise à jour de la pile correspond aux actions entreprises lorsque l'ensemble de modifications est initié. CloudFormation 

1.  Cela déclenche une étape d’approbation manuelle dans [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/approvals.html) pour autoriser le déploiement dans l’environnement de préproduction. 

1.  Utilisez des configurations de déploiement telles que [AWS CodeDeploy AppSpec](https://docs.aws.amazon.com/codedeploy/latest/userguide/application-specification-files.html)des fichiers pour définir les étapes de déploiement et de validation. 

1.  Le cas échéant, [AWS CodeDeploy intégrez-le à d'autres AWS services](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-aws.html) ou [AWS CodeDeploy intégrez-le aux produits et services partenaires](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-partners.html). 

1.  [Surveillez les déploiements](https://docs.aws.amazon.com/codedeploy/latest/userguide/monitoring.html) à l'aide CloudWatch d' AWS CloudTrail Amazon et des notifications d'SNSévénements Amazon. 

1.  Réalisez des tests automatisés après déploiement, y compris des tests fonctionnels, de sécurité, de régression, d’intégration et de charge. 

1.  [Résolution](https://docs.aws.amazon.com/codedeploy/latest/userguide/troubleshooting.html) des problèmes de déploiement 

1.  La validation réussie des étapes précédentes devrait lancer un mécanisme d’autorisation manuel pour autoriser le déploiement en production. 

 **Niveau d’effort du plan d’implémentation :** élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS05-BP02 Test et validation des modifications](ops_dev_integ_test_val_chg.md) 

 **Documents connexes :** 
+ [AWS Bibliothèque pour les constructeurs \$1 Automatisation des déploiements sûrs et sans intervention directe \$1 Déploiements de test](https://aws.amazon.com/builders-library/automating-safe-hands-off-deployments/#Test_deployments_in_pre-production_environments)
+ [AWS Livre blanc \$1 Pratiquer l'intégration et la livraison continues sur AWS](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/testing-stages-in-continuous-integration-and-continuous-delivery.html)
+ [L’histoire d’Apollo, le moteur de déploiement d’Amazon](https://www.allthingsdistributed.com/2014/11/apollo-amazon-deployment-engine.html)
+  [Comment tester et déboguer AWS CodeDeploy localement avant d'expédier votre code](https://aws.amazon.com/blogs/devops/how-to-test-and-debug-aws-codedeploy-locally-before-you-ship-your-code/) 
+ [Intégrer les tests de connectivité réseau au déploiement de l’infrastructure](https://aws.amazon.com/blogs/networking-and-content-delivery/integrating-network-connectivity-testing-with-infrastructure-deployment/)

 **Vidéos connexes :** 
+ [ re:Invent 2020 \$1 Testing software and systems at Amazon ](https://www.youtube.com/watch?v=o1sc3cK9bMU)

 **Exemples connexes :** 
+ [Tutoriel \$1 Déploiement et ECS service Amazon avec un test de validation](https://docs.aws.amazon.com/codedeploy/latest/userguide/tutorial-ecs-deployment-with-hooks.html)

# OPS06-BP03 Adoption de stratégies de déploiement sûres
<a name="ops_mit_deploy_risks_deploy_mgmt_sys"></a>

 Les déploiements de production sécurisés contrôlent le flux des modifications bénéfiques dans le but de minimiser l’impact perçu de ces modifications sur les clients. Les contrôles de sécurité fournissent des mécanismes d’inspection permettant de valider les résultats souhaités et de limiter l’étendue de l’impact des défaillances introduites par les modifications ou des échecs de déploiement. Les déploiements sûrs peuvent inclure des stratégies telles que les indicateurs de fonctions, les déploiements sur un seul hôte, les déploiements continus (versions canary), les déploiements immuables, la division du trafic et les déploiements bleus/verts. 

 **Résultat escompté :** votre organisation utilise un système d’intégration continue et de livraison continue (CI/CD) qui permet d’automatiser des déploiements sûrs. Les équipes sont tenues d’utiliser des stratégies de déploiement sûres et appropriées. 

 **Anti-modèles courants :** 
+  Vous déployez une modification infructueuse dans l’ensemble de l’environnement de production en une seule fois. Par conséquent, tous les clients sont touchés simultanément. 
+  Une défaillance introduite lors d’un déploiement simultané dans tous les systèmes nécessite un lancement d’urgence. La correction pour tous les clients prend plusieurs jours. 
+  La gestion des versions de production nécessite la planification et la participation de plusieurs équipes. Cela limite votre capacité à mettre fréquemment à jour les fonctionnalités pour vos clients. 
+  Vous effectuez un déploiement mutable en modifiant vos systèmes existants. Après avoir découvert que la modification n’a pas abouti, vous devez modifier à nouveau les systèmes pour restaurer l’ancienne version, ce qui prolonge votre délai de récupération. 

 **Avantages liés au respect de cette bonne pratique :** les déploiements automatisés permettent de concilier la rapidité des déploiements et la cohérence des modifications apportées aux clients. Limiter l’impact permet d’éviter des échecs de déploiement coûteux et de maximiser la capacité des équipes à répondre efficacement aux défaillances. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Les défaillances de la livraison en continu peuvent entraîner une réduction de la disponibilité des services et de mauvaises expériences pour les clients. Pour maximiser le taux de réussite des déploiements, mettez en œuvre des contrôles de sécurité dans le processus de lancement de bout en bout afin de minimiser les erreurs de déploiement ; l’objectif étant de parvenir à zéro échec de déploiement. 

 **Exemple client** 

 AnyCompany Retail a pour mission de réaliser des déploiements avec un temps d’arrêt minimal ou nul, ce qui signifie qu’il n’y a pas d’impact perceptible pour ses utilisateurs pendant les déploiements. Pour ce faire, l’entreprise a établi des modèles de déploiement (voir le diagramme de flux de travail suivant), tels que les déploiements continus et les déploiements bleus/verts. Toutes les équipes adoptent un ou plusieurs de ces modèles dans leur pipeline CI/CD. 


| Flux de travail CodeDeploy pour Amazon EC2 | Flux de travail CodeDeploy pour Amazon ECS | Flux de travail CodeDeploy pour Lambda | 
| --- | --- | --- | 
|  ![\[Flux du processus de déploiement pour Amazon EC2\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/images/deployment-process-ec2.png)  |  ![\[Flux du processus de déploiement pour Amazon ECS\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/images/deployment-process-ecs.png)  |  ![\[Flux du processus de déploiement pour Lambda\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/images/deployment-process-lambda.png)  | 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Utilisez un flux de travail d’approbation pour lancer la séquence des étapes de déploiement de la production lors de la promotion en production. 

1.  Utilisez un système de déploiement automatisé tel que [AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html). Les [options de déploiement de AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-steps.html) comprennent les déploiements sur place pour EC2/sur site et les déploiements bleus/verts pour EC2/sur site, AWS Lambda et Amazon ECS (voir le diagramme de flux de travail précédent). 

   1.  Le cas échéant, [intégrez AWS CodeDeploy à d’autres services AWS](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-aws.html) ou [intégrez aux produits et services partenairesAWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-partners.html). 

1.  Utilisez des déploiements bleus/verts pour les bases de données telles qu’[Amazon Aurora](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/blue-green-deployments.html) et [Amazon RDS](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/blue-green-deployments.html). 

1.  [Surveillez les déploiements](https://docs.aws.amazon.com/codedeploy/latest/userguide/monitoring.html) à l’aide d’Amazon CloudWatch, AWS CloudTrail et des notifications d’événements Amazon Simple Notiﬁcation Service (Amazon SNS). 

1.  Effectuez des tests automatisés post-déploiement, y compris des tests fonctionnels, de sécurité, de régression, d’intégration et tout test de charge. 

1.  [Résolvez](https://docs.aws.amazon.com/codedeploy/latest/userguide/troubleshooting.html) les problèmes de déploiement. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS05-BP02 Test et validation des modifications](ops_dev_integ_test_val_chg.md) 
+  [OPS05-BP09 Procéder à des modifications fréquentes, mineures et réversibles](ops_dev_integ_freq_sm_rev_chg.md) 
+  [OPS05-BP10 Automatisation complète de l’intégration et du déploiement](ops_dev_integ_auto_integ_deploy.md) 

 **Documents connexes :** 
+ [AWS Builders’ Library  \$1 Automatisation de déploiements sécurisés sans intervention \$1 Déploiements en production](https://aws.amazon.com/builders-library/automating-safe-hands-off-deployments/?did=ba_card&trk=ba_card#Production_deployments)
+ [AWS Builders Library \$1 Mon pipeline CI/CD est mon capitaine de versions \$1 Versions de production automatiques et sécurisées](https://aws.amazon.com//builders-library/cicd-pipeline/#Safe.2C_automatic_production_releases)
+ [AWSLivre blanc \$1 Mise en pratique de l’intégration continue et de la livraison continue sur AWS \$1 Méthodes de déploiement](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/deployment-methods.html)
+ [AWS CodeDeploy Guide de l’utilisateur](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html)
+ [Utilisation des configurations de déploiement dans AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-configurations.html)
+ [Configuration d’un déploiement de la version canary API Gateway](https://docs.aws.amazon.com/apigateway/latest/developerguide/canary-release.html)
+ [Types de déploiement Amazon ECS](https://docs.aws.amazon.com/)
+ [Déploiements bleus/verts entièrement gérés dans Amazon Aurora et Amazon RDS](https://aws.amazon.com/blogs/aws/new-fully-managed-blue-green-deployments-in-amazon-aurora-and-amazon-rds/)
+ [Déploiements bleus/verts avec AWS Elastic Beanstalk](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/using-features.CNAMESwap.html)

 **Vidéos connexes :** 
+ [re:Invent 2020 \$1 Hands-off: Automating continuous delivery pipelines at Amazon](https://www.youtube.com/watch?v=ngnMj1zbMPY)
+ [re:Invent 2019 \$1 Amazon’s Approach to high-availability deployment](https://www.youtube.com/watch?v=bCgD2bX1LI4)

 **Exemples connexes :** 
+ [Essai d’un exemple de déploiement bleu/vert dans AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/applications-create-blue-green.html)
+ [Atelier \$1 Création de pipelines CI/CD pour les déploiements canary Lambda à l’aide d’AWS CDK](https://catalog.workshops.aws/cdk-cicd-for-lambda-canary-deployment/en-US) 
+ [Atelier \$1 Création de votre premier pipeline DevOps bleu/vert avec Amazon ECS](https://catalog.us-east-1.prod.workshops.aws/workshops/4b59b9fb-48b6-461c-9377-907b2e33c9df/en-US)
+ [Atelier \$1 Création de votre premier pipeline DevOps bleu/vert avec Amazon EKS](https://catalog.us-east-1.prod.workshops.aws/workshops/4eab6682-09b2-43e5-93d4-1f58fd6cff6e/en-US)
+ [Atelier \$1 EKS GitOps avec ArgoCD](https://catalog.workshops.aws/eksgitops-argocd-githubactions)
+ [Atelier \$1 Atelier CI/CD sur AWS](https://catalog.workshops.aws/cicdonaws/en-US)
+ [Implémentation de pipelines CI/CD entre comptes avec AWS SAM pour les fonctions Lambda basées sur des conteneurs](https://aws.amazon.com/blogs/compute/implementing-cross-account-cicd-with-aws-sam-for-container-based-lambda/)

# OPS06-BP04 Automatiser les tests et les annulations
<a name="ops_mit_deploy_risks_auto_testing_and_rollback"></a>

 Pour accroître la rapidité, la fiabilité et la confiance de votre processus de déploiement, mettez en place une stratégie de tests automatisés et de restauration dans les environnements de préproduction et de production. Automatisez les tests lors du déploiement en production afin de simuler les interactions entre l’homme et le système et de vérifier les modifications déployées. Automatisez la restauration pour revenir rapidement à un état antérieur sain connu. La restauration doit être déclenchée automatiquement dans des conditions prédéfinies, par exemple lorsque le résultat souhaité de la modification n’est pas atteint ou lorsque le test automatisé échoue. L’automatisation de ces deux activités améliore le taux de réussite de vos déploiements, minimise le temps de reprise et réduit l’impact potentiel sur l’entreprise. 

 **Résultat escompté :** vos tests automatisés et vos stratégies de restauration sont intégrés dans votre pipeline d’intégration continue et de livraison continue (CI/CD). Votre surveillance est en mesure de valider vos critères de réussite et de déclencher une restauration automatique en cas d’échec. Cela permet de minimiser l’impact sur les utilisateurs finaux et les clients. Par exemple, lorsque tous les résultats des tests ont été satisfaits, vous transférez votre code dans l’environnement de production où des tests de régression automatisés sont lancés, en utilisant les mêmes cas de test. Si les résultats des tests de régression ne correspondent pas aux attentes, une restauration automatisée est lancée dans le flux de travail du pipeline. 

 **Anti-modèles courants :** 
+  Vos systèmes ne sont pas conçus de manière à pouvoir être mis à jour avec de plus petites versions. Par conséquent, il est difficile d’annuler ces modifications en bloc en cas d’échec du déploiement. 
+  Votre processus de déploiement consiste en une série d’étapes manuelles. Après avoir apporté des modifications à votre charge de travail, vous commencez les tests de post-déploiement. Après les tests, vous vous rendez compte que votre charge de travail est inopérante et que les clients sont déconnectés. Vous commencez les opérations pour restaurer la version précédente. Toutes ces étapes manuelles retardent la reprise globale du système et ont un impact prolongé sur vos clients. 
+  Vous avez passé du temps à développer des cas de tests automatisés pour des fonctionnalités qui ne sont pas fréquemment utilisées dans votre application, minimisant ainsi le retour sur investissement de votre capacité de tests automatisés. 
+  Votre version est composée de mises à jour d’applications, d’infrastructures, de correctifs et de configurations qui sont indépendantes les unes des autres. Cependant, vous disposez d’un seul pipeline CI/CD qui fournit toutes les modifications en une seule fois. La défaillance d’un composant vous oblige à annuler toutes les modifications, ce qui rend votre restauration complexe et inefficace. 
+  Votre équipe termine le travail de codage au cours du premier sprint et commence le travail du deuxième sprint, mais votre plan ne prévoyait pas de tests avant le troisième sprint. En conséquence, les tests automatisés ont révélé des défauts du premier sprint qui ont dû être résolus avant que les tests des produits livrables du deuxième sprint puissent commencer et la version entière est retardée, ce qui dévalorise vos tests automatisés. 
+  Vos tests de régression automatisés pour la version de production sont terminés, mais vous ne surveillez pas l’état de la charge de travail. Comme vous ne savez pas si le service a redémarré ou non, vous ne savez pas si la restauration est nécessaire ou si elle a déjà eu lieu. 

 **Avantages liés au respect de cette bonne pratique :** l’automatisation des tests accroît la transparence de votre processus de test et votre capacité à couvrir davantage de fonctionnalités dans un laps de temps plus court. En testant et en validant les modifications en production, vous êtes en mesure d’identifier immédiatement les problèmes. L’amélioration de la cohérence avec les outils de test automatisés permet une meilleure détection des défauts. En restaurant automatiquement la version précédente, vous réduisez l’impact sur vos clients. La restauration automatisée inspire finalement plus de confiance dans vos capacités de déploiement en réduisant l’impact sur l’entreprise. Dans l'ensemble, ces capacités réduisent time-to-delivery tout en garantissant la qualité. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Automatisez le test des environnements déployés pour confirmer les résultats souhaités plus rapidement. Automatisez la restauration du dernier état connu de bonne qualité lorsque les résultats prédéfinis ne sont pas atteints, afin de minimiser les temps de récupération et de réduire les erreurs causées par les processus manuels. Intégrez des outils de test au flux de travail de votre pipeline afin de tester de manière cohérente et de minimiser les saisies manuelles. Privilégiez l’automatisation des cas de test, tels que ceux qui atténuent les risques les plus importants et qui doivent être testés fréquemment à chaque modification. En outre, vous pouvez automatiser la restauration en fonction de conditions spécifiques prédéfinies dans votre plan de test. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Établissez un cycle de test pour votre cycle de développement qui définit chaque étape du processus de test, de la planification des exigences au développement des cas de test, en passant par la configuration des outils, les tests automatisés et la clôture des cas de test. 

   1.  Créez une approche de test spécifique à la charge de travail à partir de votre stratégie de test globale. 

   1.  Envisagez, le cas échéant, une stratégie de tests continus tout au long du cycle de développement. 

1.  Choisissez des outils automatisés pour les tests et la restauration en fonction des besoins de votre entreprise et des investissements dans le pipeline. 

1.  Décidez des cas de test que vous souhaitez automatiser et de ceux qui doivent être exécutés manuellement. Ceux-ci peuvent être définis en fonction de la priorité de la valeur commerciale de la fonctionnalité testée. Alignez tous les membres de l’équipe sur ce plan et vérifiez leur responsabilité en ce qui concerne l’exécution des tests manuels. 

   1.  Appliquez les capacités de test automatisé à des cas de test spécifiques qui se prêtent à l’automatisation, tels que les cas répétables ou fréquemment exécutés, ceux qui nécessitent des tâches répétitives ou ceux qui sont requis dans plusieurs configurations. 

   1.  Définissez les scripts d’automatisation des tests ainsi que les critères de réussite dans l’outil d’automatisation afin que l’automatisation continue du flux de travail puisse être lancée lorsque des cas spécifiques échouent. 

   1.  Définissez des critères d’échec spécifiques pour la restauration automatisée. 

1.  Donnez la priorité à l’automatisation des tests afin d’obtenir des résultats cohérents grâce à un développement approfondi des cas de test où la complexité et l’interaction humaine présentent un risque d’échec plus élevé. 

1.  Intégrez vos outils de tests automatisés et de restauration dans votre pipeline CI/CD. 

   1.  Définissez des critères de réussite clairs pour vos modifications. 

   1.  Surveillez et observez pour détecter ces critères et annuler automatiquement les modifications lorsque des critères de restauration spécifiques sont remplis. 

1.  Procédez à différents types de tests de production automatisés, tels que : 

   1.  des tests A/B pour afficher les résultats par rapport à la version actuelle entre deux groupes d’utilisateurs ; 

   1.  des tests Canary qui vous permettent de déployer votre modification auprès d’un sous-ensemble d’utilisateurs avant de la diffuser à tous ; 

   1.  des tests d’indicateur de fonctions qui permettent d’activer et de désactiver une seule fonctionnalité de la nouvelle version depuis l’extérieur de l’application, de sorte que chaque nouvelle fonctionnalité puisse être validée une à la fois ; 

   1.  des tests de régression pour vérifier les nouvelles fonctionnalités avec les composants interdépendants existants. 

1.  Contrôlez les aspects opérationnels de l’application, les transactions et les interactions avec d’autres applications et composants. Élaborez des rapports pour illustrer le degré de réussite des modifications en fonction de la charge de travail, afin de pouvoir identifier les parties de l’automatisation et du flux de travail qui peuvent être encore optimisées. 

   1.  Élaborez des rapports sur les résultats des tests qui vous aideront à prendre des décisions rapides sur le fait d’invoquer ou non les procédures de restauration. 

   1.  Mettez en œuvre une stratégie permettant une restauration automatisée sur la base de conditions d’échec prédéfinies résultant d’une ou de plusieurs de vos méthodes de test. 

1.  Développez vos cas de test automatisés pour permettre leur réutilisation dans le cadre de futures modifications répétées. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS06-BP01 Planifier les modifications infructueuses](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) 
+  [OPS06-BP02 Déploiements de tests](ops_mit_deploy_risks_test_val_chg.md) 

 **Documents connexes :** 
+ [AWS Builders Library \$1 Garantir la sécurité des annulations lors des déploiements](https://aws.amazon.com/builders-library/ensuring-rollback-safety-during-deployments/)
+  [Redéployez et annulez un déploiement avec AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployments-rollback-and-redeploy.html) 
+ [8 bonnes pratiques pour automatiser vos déploiements avec AWS CloudFormation](https://aws.amazon.com/blogs/infrastructure-and-automation/best-practices-automating-deployments-with-aws-cloudformation/)

 **Exemples connexes :** 
+ [Test de l'interface utilisateur sans serveur à l'aide de Selenium, AWS LambdaAWS Fargate, et AWS des outils de développement](https://aws.amazon.com/blogs/devops/using-aws-codepipeline-aws-codebuild-and-aws-lambda-for-serverless-automated-ui-testing/)

 **Vidéos connexes :** 
+ [re:Invent 2020 \$1 Hands-off: Automating continuous delivery pipelines at Amazon](https://www.youtube.com/watch?v=ngnMj1zbMPY)
+ [re:Invent 2019 \$1 Amazon’s Approach to high-availability deployment](https://www.youtube.com/watch?v=bCgD2bX1LI4)

# OPS 7. Comment savoir si vous êtes prêt à assurer une charge de travail ?
<a name="ops-07"></a>

 Évaluez la disponibilité opérationnelle de votre charge de travail, des processus et des procédures, ainsi que le personnel pour comprendre les risques opérationnels liés à votre charge de travail. 

**Topics**
+ [

# OPS07-BP01 Garantie des compétences du personnel
](ops_ready_to_support_personnel_capability.md)
+ [

# OPS07-BP02 Assurer un examen cohérent de l’état de préparation opérationnelle
](ops_ready_to_support_const_orr.md)
+ [

# OPS07-BP03 Utilisation de runbooks pour effectuer des procédures
](ops_ready_to_support_use_runbooks.md)
+ [

# OPS07-BP04 Utilisation de playbooks pour analyser les problèmes
](ops_ready_to_support_use_playbooks.md)
+ [

# OPS07-BP05 Prise de décisions avisées pour déployer des systèmes et des modifications
](ops_ready_to_support_informed_deploy_decisions.md)
+ [

# OPS07-BP06 Création de plans de support pour les charges de travail de production
](ops_ready_to_support_enable_support_plans.md)

# OPS07-BP01 Garantie des compétences du personnel
<a name="ops_ready_to_support_personnel_capability"></a>

Prévoyez un mécanisme pour confirmer que vous disposez du nombre approprié de membres du personnel formés pour supporter la charge de travail. Ils doivent être formés à la plateforme et aux services qui constituent votre charge de travail. Donnez-leur les connaissances nécessaires pour exploiter la charge de travail. Vous devez former un nombre suffisant de membres du personnel pour assurer le fonctionnement normal de la charge de travail et résoudre les incidents qui surviennent. Prévoyez suffisamment de personnel pour pouvoir effectuer une rotation pendant les astreintes et les vacances afin d’éviter l’épuisement professionnel. 

 **Résultat escompté :** 
+  Le personnel formé est en nombre suffisant pour faire face à la charge de travail lorsque celle-ci est disponible. 
+  Vous assurez la formation de votre personnel sur les logiciels et services qui constituent votre charge de travail. 

 **Anti-modèles courants :** 
+ Déploiement d’une charge de travail sans que les membres de l’équipe soient qualifiés pour gérer la plateforme et les services utilisés. 
+  Ne pas disposer d’un personnel suffisant pour assurer les rotations d’astreinte ou les congés du personnel. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Le fait de disposer de membres d’équipe compétents vous permet de prendre efficacement en charge votre charge de travail. 
+  Avec un nombre suffisant de membres de l’équipe, vous pouvez prendre en charge la charge de travail et les rotations d’astreinte tout en diminuant le risque d’épuisement professionnel. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Confirmez qu’il y a suffisamment de personnel formé pour soutenir la charge de travail. Vérifiez que vous avez suffisamment de membres de l’équipe pour couvrir les activités opérationnelles normales, y compris les rotations d’astreinte. 

 **Exemple client** 

 AnyCompany Retail veille à ce que les équipes qui prennent en charge la charge de travail soient correctement dotées en personnel et formées. Elles disposent de suffisamment d’ingénieurs pour assurer une rotation d’astreinte. Le personnel reçoit une formation sur le logiciel et la plateforme sur lesquels repose la charge de travail et est encouragé à obtenir des certifications. Il y a suffisamment de membres du personnel pour que les gens puissent prendre des congés tout en prenant en charge la charge de travail et la rotation des astreintes. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Affectez un nombre suffisant d’employés à l’exploitation et au soutien de votre charge de travail, y compris aux tâches d’astreinte, aux problèmes de sécurité et aux événements du cycle de vie, tels que les tâches de fin de prise en charge et de rotation des certificats. 

1.  Formez votre personnel aux logiciels et aux plateformes qui composent votre charge de travail. 

   1.  [AWS Training and Certification](https://aws.amazon.com/training/) dispose d’une bibliothèque de cours sur AWS. Le service propose des cours gratuits et payants, en ligne et en personne. 

   1.  [AWS organise des événements et des webinaires au cours](https://aws.amazon.com/events/) desquels vous pouvez apprendre auprès d’experts AWS. 

1. Effectuez régulièrement les tâches suivantes : 
   +  Évaluez la taille et les compétences de l’équipe en fonction de l’évolution des conditions d’exploitation et de la charge de travail. 
   +  Adaptez la taille et les compétences de l’équipe aux besoins opérationnels. 
   +  Vérifiez l’aptitude et la capacité à [traiter les événements de cycle de vie planifiés](https://docs.aws.amazon.com/health/latest/ug/aws-health-planned-lifecycle-events.html), la sécurité non planifiée et les notifications opérationnelles via AWS Health. 

 **Niveau d’effort du plan d’implémentation :** élevé L’embauche et la formation d’une équipe pour soutenir une charge de travail peuvent demander des efforts considérables, mais présentent des avantages importants à long terme. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS11-BP04 Effectuer la gestion des connaissances](ops_evolve_ops_knowledge_management.md) – Les membres de l’équipe doivent disposer des informations nécessaires au fonctionnement et au soutien de la charge de travail. La gestion des connaissances est la clé pour y parvenir. 

 **Documents connexes :** 
+  [Événements et webinaires AWS](https://aws.amazon.com/events/) 
+  [Formation et certification AWS](https://aws.amazon.com/training/) 

# OPS07-BP02 Assurer un examen cohérent de l’état de préparation opérationnelle
<a name="ops_ready_to_support_const_orr"></a>

Utilisez les examens de disponibilité opérationnelle (ORR) afin de vous assurer que vous pouvez gérer votre charge de travail. L’ORR est un mécanisme élaboré par Amazon afin de s’assurer que les équipes peuvent exécuter leurs charges de travail en toute sécurité. Un ORR est un processus d’examen et d’inspection qui utilise une liste de contrôle des exigences. Un ORR est une expérience en libre-service que les équipes utilisent pour certifier leurs charges de travail. Les ORR comprennent les bonnes pratiques tirées des enseignements liés aux années que nous avons consacrées à la création de logiciels. 

 La liste de contrôle d’un ORR est composée de recommandations architecturales, de processus opérationnels, de gestion d’événements et de qualité de version. Notre processus de correction des erreurs (CoE) est l’un des principaux moteurs de ces éléments. Votre propre analyse post-incident doit orienter l’évolution de votre propre ORR. Un ORR consiste non seulement à suivre les bonnes pratiques, mais permet également d’éviter la répétition d’événements que vous avez déjà vus. Enfin, les exigences en matière de sécurité, de gouvernance et de conformité peuvent également être incluses dans un ORR. 

 Exécutez les ORR avant qu’une charge de travail ne soit généralement disponible, puis tout au long du cycle de développement du logiciel. L’exécution d’un ORR avant le lancement augmente votre capacité de gestion de la charge de travail en toute sécurité. Réexécutez régulièrement votre ORR sur la charge de travail afin de détecter toute dérive par rapport aux bonnes pratiques. Vous pouvez avoir des listes de contrôle des ORR pour les lancements de nouveaux services et des ORR pour les examens périodiques. Cela vous permet de vous tenir au courant des nouvelles bonnes pratiques et d’intégrer les leçons tirées de l’analyse après incident. Au fur et à mesure que votre utilisation du cloud évolue, vous pouvez intégrer les exigences des ORR dans votre architecture par défaut. 

 **Résultat escompté :** vous avez une liste de contrôle de l’ORR avec les bonnes pratiques pour votre organisation. Les ORR sont effectuées avant le lancement des charges de travail. Les ORR sont exécutés périodiquement tout au long du cycle de vie de la charge de travail. 

 **Anti-modèles courants :** 
+ Vous lancez une charge de travail sans savoir si vous pouvez l’utiliser. 
+ Les exigences en matière de gouvernance et de sécurité ne sont pas incluses dans la certification d’une charge de travail pour le lancement. 
+ Les charges de travail ne sont pas réévaluées périodiquement. 
+ Les charges de travail sont lancées sans procédures requises en place. 
+ Vous voyez la répétition de la même cause première de défaillances dans plusieurs charges de travail. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Vos charges de travail comprennent les bonnes pratiques en matière d’architecture, de processus et de gestion. 
+  Les enseignements tirés sont intégrés à votre processus d’ORR. 
+  Les procédures requises sont en place lors du lancement des charges de travail. 
+  Les ORR sont exécutés tout au long du cycle de vie logiciel de vos charges de travail. 

 **Niveau de risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Un ORR est composé de deux éléments : un processus et une liste de contrôle. Votre processus d’ORR doit être adopté par votre organisation et soutenu par un responsable exécutif. Au minimum, les ORR doivent être effectués avant qu’une charge de travail ne soit généralement disponible. Exécutez l’ORR tout au long du cycle de développement du logiciel afin de l’actualiser avec les bonnes pratiques ou les nouvelles exigences. La liste de contrôle d’un ORR doit comprendre les éléments de configuration, les exigences en matière de sécurité et de gouvernance et les bonnes pratiques de votre organisation. Au fil du temps, vous pouvez utiliser des services tels que [AWS Config[AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html)](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html), et des [AWS Control Tower Guardrails](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html), pour intégrer les meilleures pratiques issues de l’ORR à des barrières de protection afin de détecter automatiquement les meilleures pratiques. 

 **Exemple client** 

 Après plusieurs incidents de production, AnyCompany Retail a décidé de mettre en place un processus d’ORR. L’entreprise a élaboré une liste de contrôle composée de bonnes pratiques, d’exigences en matière de gouvernance et de conformité et d’enseignements tirés des pannes. De nouvelles charges de travail effectuent des ORR avant leur lancement. Chaque charge de travail effectue un ORR annuel avec un sous-ensemble de bonnes pratiques pour intégrer de nouvelles bonnes pratiques et des exigences qui sont ajoutées à la liste de contrôle de l’ORR. Au fil du temps, AnyCompany Retail a utilisé [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) pour détecter certaines bonnes pratiques, accélérant ainsi le processus ORR. 

 **Étapes d’implémentation** 

 Pour en savoir plus sur les ORR, lisez le [livre blanc intitulé Operational Readiness Reviews (ORR)](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html). Il fournit des informations détaillées sur l’historique du processus d’ORR, sur la façon d’établir votre propre pratique d’ORR et sur la façon d’élaborer votre liste de contrôle pour les ORR. Les étapes suivantes sont une version abrégée de ce document. Pour une compréhension approfondie des ORR et de la façon dont vous pouvez créer les vôtres, nous vous recommandons de lire ce livre blanc. 

1. Réunissez les parties prenantes clés, notamment les représentants de la sécurité, des opérations et du développement. 

1. Demandez à chaque partie prenante de fournir au moins une exigence. Pour la première itération, essayez de limiter le nombre d’éléments à trente ou moins. 
   +  L’[Annexe B : exemples de questions ORR](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/appendix-b-example-orr-questions.html) du livre blanc Operational Readiness Reviews (ORR) contient des exemples de questions que vous pouvez utiliser pour démarrer. 

1. Regroupez vos exigences dans une feuille de calcul. 
   + Vous pouvez utiliser des [objectifs personnalisés](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) dans [AWS Well-Architected Tool](https://console.aws.amazon.com/wellarchiected/) pour développer vos ORR et les partager entre vos comptes et votre organisation AWS. 

1. Identifiez une charge de travail pour effectuer l’ORR. Il est recommandé d’utiliser une charge de travail avant le lancement ou une charge de travail interne. 

1. Parcourez la liste de contrôle de l’ORR et notez toutes vos découvertes. Les découvertes peuvent être acceptables si une mesure d’atténuation est en place. Pour toute découverte qui ne comporte pas de mesures d’atténuation, ajoutez ces dernières à votre liste de tâches en attente et implémentez-les avant le lancement. 

1. Continuez d’ajouter des bonnes pratiques et des exigences à votre liste de contrôle de l’ORR au fil du temps. 

 Les clients Support bénéficiant du Support aux entreprises peuvent demander l’[atelier de révision du niveau de préparation opérationnelle](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) auprès de leur responsable de compte technique. L’atelier est une session interactive de *travail à rebours* visant à développer votre propre liste de contrôle ORR. 

 **Niveau d’effort du plan d’implémentation :** élevé L’adoption d’une pratique d’ORR dans votre organisation nécessite un parrainage de la haute direction et l’adhésion des parties prenantes. Créez et mettez à jour la liste de contrôle à l’aide des commentaires de l’ensemble de votre organisation. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+ [OPS01-BP03 Évaluer les exigences de gouvernance](ops_priorities_governance_reqs.md) – Les exigences en matière de gouvernance conviennent naturellement à la liste de contrôle d’un ORR. 
+ [OPS01-BP04 Évaluation des exigences de conformité](ops_priorities_compliance_reqs.md) – Les exigences de conformité sont parfois incluses dans la liste de contrôle d’un ORR. Parfois, il s’agit d’un processus distinct. 
+ [OPS03-BP07 Ressources appropriées pour les équipes](ops_org_culture_team_res_appro.md) – La capacité de l’équipe peut faire partie des exigences d’un ORR. 
+ [OPS06-BP01 Planifier les modifications infructueuses](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) – Un plan de restauration ou de retour en arrière doit être établi avant le lancement de votre charge de travail. 
+ [OPS07-BP01 Garantie des compétences du personnel](ops_ready_to_support_personnel_capability.md) – Pour gérer une charge de travail, vous devez disposer du personnel requis. 
+ [SEC01-BP03 Identifier et valider les objectifs de contrôle](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_control_objectives.html) – Les objectifs de contrôle de sécurité constituent d’excellentes exigences d’ORR. 
+ [REL13-BP01 Définissez les objectifs de restauration en cas d’indisponibilité et de perte de données](https://docs.aws.amazon.com/wellarchitected/latest/framework/rel_planning_for_recovery_objective_defined_recovery.html) – Les plans de reprise après sinistre constituent une bonne exigence ORR. 
+ [COST02-BP01 Élaborez des politiques basées sur les exigences de votre organisation](https://docs.aws.amazon.com/wellarchitected/latest/framework/cost_govern_usage_policies.html) – Les politiques de gestion des coûts sont bonnes à inclure dans votre liste de contrôle ORR. 

 **Documents connexes :** 
+  [AWS Control Tower – Guardrails in AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html) 
+  [AWS Well-Architected Tool – Approches personnalisées](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [Operational Readiness Review Template par Adrian Hornsby](https://medium.com/the-cloud-architect/operational-readiness-review-template-e23a4bfd8d79) 
+  [Livre blanc Operational Readiness Reviews (ORR)](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html) 

 **Vidéos connexes :** 
+  [AWS Supports You \$1 Building an Effective Operational Readiness Review (ORR)](https://www.youtube.com/watch?v=Keo6zWMQqS8) 

 **Exemples connexes :** 
+  [Sample Operational Readiness Review (ORR) Lens](https://github.com/aws-samples/custom-lens-wa-sample/tree/main/ORR-Lens) 

 **Services connexes :** 
+  [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) 
+  [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) 
+  [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html) 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS07-BP03 Utilisation de runbooks pour effectuer des procédures
<a name="ops_ready_to_support_use_runbooks"></a>

 Un *runbook* est un processus documenté pour atteindre un résultat spécifique. Les runbooks consistent en une série d’étapes permettant à la personne qui les suit d’obtenir des résultats concrets. L’utilisation des runbooks dans les opérations remonte aux débuts de l’aviation. Dans les opérations de cloud, nous utilisons des runbooks pour réduire les risques et obtenir les résultats souhaités. Dans sa forme la plus simple, un runbook est une liste de contrôle pour exécuter une tâche. 

 Les runbooks représentent une part essentielle du fonctionnement de votre charge de travail. De l’intégration d’un nouveau membre de l’équipe au déploiement d’une version majeure, les runbooks sont des processus codifiés qui fournissent des résultats cohérents quelle que soit la personne qui les utilise. Les runbooks doivent être publiés dans un emplacement central et mis à jour à mesure que le processus évolue, car la mise à jour des runbooks est un composant essentiel du processus de gestion des changements. Ils doivent également inclure des conseils sur la gestion des erreurs, les outils, les autorisations, les exceptions et les remontées en cas de problème. 

 À mesure que votre entreprise évolue, commencez à automatiser les runbooks. Prenez tout d’abord les runbooks courts et fréquemment utilisés. Utilisez des langages de scripts pour automatiser les étapes ou les rendre plus faciles. À mesure que vous automatiserez les premiers runbooks, vous consacrerez du temps à l’automatisation de runbooks plus complexes. Au fil du temps, la plupart de vos runbooks seront automatisés d’une certaine façon. 

 **Résultat escompté :** votre équipe dispose de plusieurs guides détaillés pour exécuter des tâches de charge de travail. Les runbooks contiennent le résultat souhaité, les outils et autorisations nécessaires, ainsi que les instructions pour gérer les erreurs. Ils sont stockés dans un emplacement central (système de contrôle des versions) et mis à jour fréquemment. Par exemple, vos runbooks permettent à vos équipes de surveiller, de communiquer et de répondre aux événements AWS Health concernant les comptes critiques lors d’alarmes d’applications, de problèmes opérationnels et d’événements planifiés du cycle de vie. 

 **Anti-modèles courants :** 
+  Utilisation de la mémoire pour exécuter chaque étape d’un processus. 
+  Déploiement manuel des changements sans liste de contrôle. 
+  Différents membres de l’équipe exécutant le même processus, mais avec des étapes ou résultats différents. 
+  Désynchronisation des runbooks avec les changements du système et l’automatisation. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réduction du taux d’erreur pour les tâches manuelles. 
+  Exécution cohérente des opérations. 
+  Exécution plus précoce des tâches par les nouveaux membres de l’équipe. 
+  Automatisation des runbooks pour diminuer la quantité de travail. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Les runbooks peuvent prendre plusieurs formes selon le niveau de maturité de votre entreprise. Au minimum, ils doivent consister en un document texte détaillé. Le résultat souhaité doit être clairement indiqué. Documentez explicitement les autorisations spéciales ou outils nécessaires. Fournissez des conseils sur la gestion des erreurs et les remontées en cas de problème. Recherchez le propriétaire du runbook et publiez-le dans un emplacement central. Une fois votre runbook documenté, validez-le en demandant à un membre de votre équipe de l’exécuter. À mesure que les procédures évoluent, mettez à jour vos runbooks conformément à votre processus de gestion des changements. 

 Vos runbooks texte doivent être automatisés à mesure que votre entreprise évolue. En utilisant des services tels que les [automatisations d’AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html), vous pouvez transformer un fichier texte en automatisations pouvant être exécutées sur votre charge de travail. Ces automatisations peuvent être exécutées en réponse aux événements, tout en réduisant la charge opérationnelle pour maintenir votre charge de travail. AWS Systems Manager Automation fournit également une [expérience de conception visuelle](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-visual-designer.html) à faible code pour créer plus facilement des runbooks d’automatisation. 

 **Exemple client** 

 AnyCompany Retail doit mettre à jour des schémas de bases de données lors de déploiements logiciels. L’équipe en charge des opérations de cloud en collaboration avec l’équipe responsable de l’administration des bases de données a créé un runbook, pour déployer manuellement ces changements. Le runbook répertoriait chacune des étapes du processus sous forme de liste de contrôle. Il comprenait une section sur la gestion des erreurs en cas de problème. Les équipes ont publié le runbook sur leur wiki interne contenant leurs autres runbooks. L’équipe en charge des opérations de cloud envisage d’automatiser le runbook dans un prochain sprint. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Si vous ne disposez pas d’un référentiel de documents, un référentiel de contrôle de version est un emplacement idéal pour commencer à créer votre bibliothèque de runbooks. Vous pouvez créer vos runbooks en utilisant le format Markdown. Voici un exemple de modèle de runbook que vous pouvez utiliser pour commencer à créer vos runbooks. 

```
# Runbook Title
## Runbook Info
| Runbook ID | Description | Tools Used | Special Permissions | Runbook Author | Last Updated | Escalation POC | 
|-------|-------|-------|-------|-------|-------|-------|
| RUN001 | What is this runbook for? What is the desired outcome? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name |
## Steps
1. Step one
2. Step two
```

1.  Si vous ne possédez pas de référentiel de documentation ou de wiki existant, créez un référentiel de contrôle de version dans votre système de contrôle de version. 

1.  Identifiez un processus ne possédant pas de runbook. Le processus idéal doit être réalisé de manière semi-régulière, contenir peu d’étapes et avoir des échecs à faible impact. 

1.  Dans votre référentiel de documents, créer un brouillon au format Markdown en utilisant le modèle. Renseignez le titre du runbook et les champs obligatoires sous Runbook Info (Informations sur le runbook). 

1.  En commençant par la première étape, remplissez la section Steps (Étapes) du runbook. 

1.  Donnez le runbook à un membre de l’équipe. Demandez-lui d’utiliser le runbook pour valider les étapes. En cas d’élément manquant ou de besoin de clarification, mettez à jour le runbook. 

1.  Publiez le runbook sur votre référentiel de documentation interne. Une fois le runbook publié, partagez l’information avec votre équipe et les autres parties prenantes. 

1.  Au fil du temps, vous créerez une bibliothèque de runbooks. À mesure que cette bibliothèque s’étoffe, commencez à travailler sur l’automatisation des runbooks. 

 **Niveau d’effort du plan d’implémentation :** faible La norme minimum pour un runbook est un guide texte détaillé. L’automatisation des runbooks peut augmenter l’effort d’implémentation. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP02 Les processus et procédures ont des propriétaires identifiés](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS07-BP04 Utilisation de playbooks pour analyser les problèmes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_playbooks.html) 
+  [OPS10-BP01 Utilisation d’un processus pour la gestion des événements, des incidents et des problèmes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP02 Disposer d’un processus par alerte](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_process_per_alert.html) 
+  [OPS11-BP04 Gestion des connaissances](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documents connexes :** 
+  [Achieving Operational Excellence using automated playbook and runbook](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/) 
+  [AWS Systems Manager : utilisation des runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+  [Playbook d’atténuation des risques pour les importantes migrations AWS – Tâche 4 : amélioration de vos runbooks de migration](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-migration-playbook/task-four-migration-runbooks.html) 
+  [Utiliser les runbooks AWS Automation pour résoudre des tâches opérationnelles](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/) 

 **Vidéos connexes:** 
+  [AWS re:Invent 2019: DIY guide to runbooks, incident reports, and incident response](https://www.youtube.com/watch?v=E1NaYN_fJUo) 
+  [How to automate IT Operations on AWS \$1 Amazon Web Services](https://www.youtube.com/watch?v=GuWj_mlyTug) 
+  [Intégrate Scripts into AWS Systems Manager](https://www.youtube.com/watch?v=Seh1RbnF-uE) 

 **Exemples connexes:** 
+  [Ateliers Well-Architected : automatisation des opérations avec les playbooks et les runbooks](https://wellarchitectedlabs.com/operational-excellence/200_labs/200_automating_operations_with_playbooks_and_runbooks/) 
+  [AWS Article du blog  : Build a Cloud Automation Practice for Operational Excellence: Best Practices from AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [AWS Systems Manager : procédures détaillées sur l’automatisation](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html) 
+  [AWS Systems Manager : restaurer un volume racine à partir du dernier runbook d’instantanés](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-document-sample-restore.html) 
+  [Création d’un runbook de réponse à un incident AWS à l’aide des blocs-notes Jupyter et de CloudTrail Lake](https://catalog.us-east-1.prod.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US) 
+  [Gitlab – Runbooks](https://gitlab.com/gitlab-com/runbooks) 
+  [Rubix – Une bibliothèque Python pour créer des runbooks dans les blocs-notes Jupyter](https://github.com/Nurtch/rubix) 
+  [Utilisation de Document Builder pour créer un runbook personnalisé](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html) 

 **Services connexes:** 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 

# OPS07-BP04 Utilisation de playbooks pour analyser les problèmes
<a name="ops_ready_to_support_use_playbooks"></a>

 Les *playbooks* sont des guides étape par étape utilisés pour analyser un incident. Lorsque des incidents se produisent, les playbooks sont utilisés pour analyser, évaluer l’impact et identifier une cause racine. Les playbooks sont utilisés dans le cadre de différents scénarios allant des échecs de déploiement aux incidents de sécurité. Dans la plupart des cas, les playbooks identifient la cause racine qui est atténuée par l’utilisation d’un runbook. Les playbooks sont une composante essentielle des plans de réponse de votre organisation en cas d’incident. 

 Un playbook efficace comporte plusieurs fonctionnalités clés. Il guide l’utilisateur, étape par étape, dans le processus de découverte. Si vous optez pour un point de vue extérieur, quelles étapes devez-vous suivre pour diagnostiquer un incident ? Définissez clairement dans le playbook si des outils spéciaux ou des autorisations élevées sont nécessaires. Il est essentiel d’élaborer un plan de communication pour informer les parties prenantes du statut de l’analyse. Lorsqu’il est impossible de déterminer la cause racine, le playbook doit comporter un plan de remontée des informations vers la hiérarchie. Si la cause racine est identifiée, le playbook doit faire référence à un runbook décrivant une solution pour la résoudre. Les playbooks doivent être stockés dans un emplacement central et mis à jour régulièrement. Si des playbooks sont utilisés pour des alertes précises, donnez aux membres de votre équipe des indications relatives au playbook dans le cadre de l’alerte. 

 Au fur et à mesure que votre organisation évolue, automatisez vos playbooks. Commencez par des playbooks qui couvrent les incidents à faible risque. Utilisez des scripts pour automatiser les étapes de découverte. Veillez à créer des runbooks complémentaires destinés à atténuer les causes racines courantes. 

 **Résultat escompté :** votre organisation dispose de playbooks pour les incidents courants. Les playbooks sont stockés dans un emplacement central et mis à la disposition des membres de votre équipe. Les playbooks sont souvent mis à jour. Pour toute cause racine connue, des runbooks complémentaires sont créés. 

 **Anti-modèles courants :** 
+  Il n’existe pas de façon standard d’analyser un incident. 
+  Les membres de l’équipe comptent sur la mémoire musculaire ou les connaissances institutionnelles pour résoudre un échec de déploiement. 
+  Les nouveaux membres de l’équipe apprennent à analyser les problèmes par un procédé de tâtonnement. 
+  Les bonnes pratiques d’analyse des problèmes ne sont pas partagées entre les équipes. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Les playbooks dynamisent les efforts nécessaires pour atténuer les incidents. 
+  Différents membres de l’équipe peuvent utiliser le même playbook pour identifier une cause racine de façon cohérente. 
+  Les causes racines connues peuvent être associées à des runbooks développés spécialement pour leur résolution, ce qui permet d’accélérer le délai de récupération. 
+  Les playbooks permettent aux membres de l’équipe de commencer à apporter leur contribution plus tôt. 
+  Les équipes peuvent adapter leurs processus à l’aide de playbooks reproductibles. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 La façon dont vous créez et utilisez les playbooks dépend de la maturité de votre organisation. Si vous débutez dans le cloud, créez des playbooks sous forme de texte dans un référentiel de documents centralisé. Au fur et à mesure que votre organisation évolue, les playbooks peuvent devenir semi-automatisés avec des langages de script comme Python. Ces scripts peuvent être exécutés dans un bloc-notes Jupyter afin d’accélérer la découverte. Les organisations avancées ont des playbooks entièrement automatisés pour les problèmes courants qui sont corrigés automatiquement avec des runbooks. 

 Pour commencer à créer vos playbooks, répertoriez les incidents qui affectent couramment votre charge de travail. Pour commencer, choisissez des playbooks pour les incidents à faible risque dont la cause racine a été réduite à quelques problèmes. Une fois que vous disposez de playbooks pour des scénarios plus simples, passez aux scénarios à risque élevé ou à ceux dont la cause racine est peu connue. 

 Vos playbooks sous forme de texte doivent être automatisés à mesure que votre entreprise évolue. Grâce à des services comme [AWS Systems Manager Automations](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html), les textes plats peuvent être transformés en automatismes. Ces automatisations peuvent être exécutées en fonction de votre charge de travail pour accélérer les analyses. Ces automatisations peuvent être activées en réponse à des événements, ce qui réduit le temps nécessaire pour découvrir et résoudre les incidents. 

 Les clients peuvent utiliser [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) pour intervenir en cas d’incidents. Ce service offre une interface unique pour trier les incidents, informer les parties prenantes pendant la découverte et l’atténuation, et collaborer tout au long de l’incident. Il utilise AWS Systems Manager Automations afin d’accélérer la détection et la récupération. 

 **Exemple client** 

 AnyCompany Retail a dû faire face à un incident de production. L’ingénieur d’astreinte a utilisé un playbook pour analyser le problème. À mesure qu’il effectuait les différentes étapes, il a informé les parties prenantes identifiées dans le playbook de l’évolution de la situation. L’ingénieur a identifié que la cause racine était une condition de concurrence dans un service dorsal. À l’aide d’un runbook, il a relancé le service et a permis à AnyCompany Retail d’être à nouveau en ligne. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Si vous n’avez pas de référentiel de documents existant, nous vous suggérons de créer un référentiel de contrôle de version pour votre bibliothèque de playbooks. Vous pouvez créer vos playbooks en utilisant Markdown, qui est compatible avec la plupart des systèmes d’automatisation de playbook. Si vous démarrez de zéro, utilisez l’exemple de modèle de playbook suivant. 

```
# Playbook Title
## Playbook Info
| Playbook ID | Description | Tools Used | Special Permissions | Playbook Author | Last Updated | Escalation POC | Stakeholders | Communication Plan |
|-------|-------|-------|-------|-------|-------|-------|-------|-------|
| RUN001 | What is this playbook for? What incident is it used for? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name | Stakeholder Name | How will updates be communicated during the investigation? |
## Steps
1. Step one
2. Step two
```

1.  Si vous ne possédez pas de référentiel de documents ni de wiki existant, créez un référentiel de contrôle de version pour vos playbooks dans votre système de contrôle de version. 

1.  Identifiez un problème courant qui doit être analysé. Il doit s’agir d’un scénario où la cause racine se limite à quelques problèmes et où la résolution présente peu de risques. 

1.  À l’aide du modèle Markdown, remplissez la section Playbook Name (Nom du playbook) et les champs sous Playbook Info (Informations sur le playbook). 

1.  Remplissez les étapes de résolution du problème. Soyez aussi clair que possible sur les actions à effectuer ou les domaines à analyser. 

1.  Remettez le playbook à un membre de l’équipe et demandez-lui de le passer en revue afin de le valider. S’il manque quelque chose ou si un point n’est pas clair, mettez à jour le playbook. 

1.  Publiez le playbook dans votre référentiel de documents et informez votre équipe et les parties prenantes. 

1.  Cette bibliothèque de playbooks s’enrichira à mesure que vous ajouterez d’autres playbooks. Une fois que vous avez plusieurs playbooks, commencez à les automatiser en utilisant des outils comme AWS Systems Manager Automations afin de garantir la synchronisation entre l’automatisation et les playbooks. 

 **Niveau d’effort du plan d’implémentation :** faible Vos playbooks doivent être des documents texte stockés dans un emplacement central. Les organisations plus avancées évolueront vers l’automatisation des playbooks. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP02 Les processus et procédures ont des propriétaires identifiés](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS07-BP03 Utilisation de runbooks pour effectuer des procédures](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_runbooks.html) 
+  [OPS10-BP01 Utilisation d’un processus pour la gestion des événements, des incidents et des problèmes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP02 Disposer d’un processus par alerte](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_process_per_alert.html) 
+  [OPS11-BP04 Gestion des connaissances](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documents connexes :** 
+  [Achieving Operational Excellence using automated playbook and runbook](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/) 
+  [AWS Systems Manager : utilisation des runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+  [Utiliser les runbooks AWS Automation pour résoudre des tâches opérationnelles](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/) 

 **Vidéos connexes:** 
+  [AWS re:Invent 2019: DIY guide to runbooks, incident reports, and incident response (SEC318-R1)](https://www.youtube.com/watch?v=E1NaYN_fJUo) 
+  [AWSSystems Manager Incident Manager : ateliers AWS virtuels](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [Intégrate Scripts into AWS Systems Manager](https://www.youtube.com/watch?v=Seh1RbnF-uE) 

 **Exemples connexes:** 
+  [AWS Customer Playbook Framework](https://github.com/aws-samples/aws-customer-playbook-framework) 
+  [AWS Systems Manager : procédures détaillées sur l’automatisation](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html) 
+  [Création d’un runbook de réponse à un incident AWS à l’aide des blocs-notes Jupyter et de CloudTrail Lake](https://catalog.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US) 
+  [Rubix : une bibliothèque Python pour créer des runbooks dans les blocs-notes Jupyter](https://github.com/Nurtch/rubix) 
+  [Utilisation de Document Builder pour créer un runbook personnalisé](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html) 

 **Services connexes:** 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 
+  [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 

# OPS07-BP05 Prise de décisions avisées pour déployer des systèmes et des modifications
<a name="ops_ready_to_support_informed_deploy_decisions"></a>

Mettez en place des processus pour les modifications réussies et ratées de votre charge de travail. Un pré-mortem est un exercice où une équipe simule un échec pour développer des stratégies d’atténuation. Utilisez des pré-mortems pour anticiper les échecs et créer des procédures le cas échéant. Évaluez les avantages et les risques liés au déploiement de modifications dans votre charge de travail. Vérifiez que toutes les modifications sont conformes à la gouvernance. 

 **Résultat escompté :** 
+  Vous prenez des décisions éclairées lorsque vous déployez des modifications dans votre charge de travail. 
+  Les modifications sont conformes à la gouvernance. 

 **Anti-modèles courants :** 
+ Déploiement d’une modification dans notre charge de travail sans disposer de processus pour gérer un déploiement raté.
+ Modifications apportées à votre environnement de production qui ne sont pas conformes aux exigences de gouvernance.
+ Déploiement une nouvelle version de votre charge de travail sans établir une base de référence pour l’utilisation des ressources.

 **Avantages liés au respect de cette bonne pratique :** 
+  Vous êtes préparé à des modifications ratées de votre charge de travail. 
+  Les modifications apportées à votre charge de travail sont conformes aux politiques de gouvernance. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** bas 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Utilisez des pré-mortems pour développer des processus pour les modifications ratées. Documentez vos processus pour les modifications ratées. Veillez à ce que toutes les modifications soient conformes à la gouvernance. Évaluez les avantages et les risques liés au déploiement de modifications dans votre charge de travail. 

 **Exemple client** 

 AnyCompany Retail effectue régulièrement des pré-mortems pour valider ses processus en cas de modification ratée. La société documente ses processus dans un wiki partagé et le met à jour fréquemment. Toutes les modifications sont conformes aux exigences de gouvernance. 

 **Étapes d’implémentation** 

1.  Prenez des décisions éclairées lorsque vous déployez des modifications dans votre charge de travail. Définissez et révisez les critères d’un déploiement réussi. Développez des scénarios ou des critères qui déclencheraient la restauration d’une modification. Comparez les avantages du déploiement des modifications avec les risques associés à l’échec d’une modification. 

1.  Vérifiez que toutes les modifications sont conformes aux politiques de gouvernance. 

1.  Utilisez les pré-mortems pour planifier les modifications ratées et documenter les stratégies d’atténuation. Réalisez un exercice théorique pour modéliser une modification qui n’a pas abouti et valider les procédures de restauration. 

 **Niveau d’effort du plan d’implémentation :** modéré La mise en œuvre d’une pratique de pré-mortems nécessite une coordination et des efforts de la part des parties prenantes de votre organisation. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS01-BP03 Évaluer les exigences de gouvernance](ops_priorities_governance_reqs.md) – Les exigences de gouvernance sont un facteur clé pour déterminer s’il faut déployer une modification. 
+  [OPS06-BP01 Planifier les modifications infructueuses](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) – Établissez des plans pour atténuer les effets d’un déploiement raté et utilisez des pré-mortems pour les valider. 
+  [OPS06-BP02 Déploiements de tests](ops_mit_deploy_risks_test_val_chg.md) – Chaque modification apportée à un logiciel doit être correctement testée avant le déploiement afin de réduire les défauts en production. 
+  [OPS07-BP01 Garantie des compétences du personnel](ops_ready_to_support_personnel_capability.md) – Il est essentiel de disposer de suffisamment de membres du personnel formés pour gérer la charge de travail afin de prendre une décision éclairée quant au déploiement d’une modification du système. 

 **Documents connexes :** 
+ [Amazon Web Services : risques et conformité](https://docs.aws.amazon.com/whitepapers/latest/aws-risk-and-compliance/welcome.html)
+ [Modèle de responsabilité partagée AWS](https://aws.amazon.com/compliance/shared-responsibility-model/)
+ [ Governance in the AWS Cloud: The Right Balance Between Agility and Safety ](https://aws.amazon.com/blogs/apn/governance-in-the-aws-cloud-the-right-balance-between-agility-and-safety/)

# OPS07-BP06 Création de plans de support pour les charges de travail de production
<a name="ops_ready_to_support_enable_support_plans"></a>

 Activez la prise en charge de tous les logiciels et services sur lesquels repose votre charge de travail de production. Sélectionnez un niveau de support approprié pour répondre à vos besoins en matière de niveau de service de production. Il convient de prévoir des plans de support pour ces dépendances en cas d’interruption de service ou de problème logiciel. Documentez les plans de support et les procédures de demande de support pour tous les fournisseurs de services et de logiciels. Mettez en œuvre des mécanismes permettant de vérifier que les points de contact du support sont tenus à jour. 

 **Résultat escompté :** 
+  Mettez en œuvre des plans de support pour les logiciels et les services sur lesquels reposent les charges de travail de production. 
+  Choisissez une formule de support appropriée en fonction des besoins du niveau de service. 
+  Documentez les formules de support, les niveaux de support et les procédures de demande de support. 

 **Anti-modèles courants :** 
+  Vous n’avez pas de plan de support pour un fournisseur de logiciels critiques. Votre charge de travail en est affectée et vous ne pouvez rien faire pour accélérer la mise en place d’une solution ou obtenir des mises à jour en temps voulu de la part du fournisseur. 
+  Un développeur qui était le principal point de contact d’un fournisseur de logiciels a quitté l’entreprise. Vous n’arrivez pas à joindre directement le support du fournisseur. Vous devez passer du temps à rechercher et à naviguer dans des systèmes de contact génériques, ce qui augmente le temps nécessaire pour répondre en cas de besoin. 
+  Un fournisseur de logiciels connaît un arrêt de production. Il n’existe pas de documentation sur la manière de déposer un dossier de support. 

 **Avantages liés au respect de cette bonne pratique :** 
+  En adoptant le niveau de support approprié, vous êtes en mesure d’obtenir une réponse dans le délai nécessaire pour répondre aux besoins du niveau de service. 
+  En tant que client bénéficiant du support, vous pouvez faire remonter les problèmes de production. 
+  Les fournisseurs de logiciels et de services peuvent contribuer au dépannage pendant un incident. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** bas 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Activez les plans de support pour tous les fournisseurs de logiciels et de services sur lesquels repose votre charge de travail de production. Mettez en place des plans de support appropriés pour répondre aux besoins du niveau de service. Pour les clients AWS, cela signifie qu’il faut activer l’offre AWS Business Support ou supérieure sur tous les comptes où vous avez des charges de travail de production. Rencontrez régulièrement les fournisseurs de services de support afin d’obtenir des informations actualisées sur les offres de support, les processus et les contacts. Documentez les procédures de demande de support auprès des fournisseurs de logiciels et de services, y compris la manière de faire remonter les informations en cas de panne. Mettez en œuvre des mécanismes permettant de tenir à jour les contacts du support. 

 **Exemple client** 

 Chez AnyCompany Retail, toutes les dépendances des logiciels et services commerciaux disposent de plans de support. Par exemple, l’offre AWS Enterprise Support est activée sur tous les comptes comportant des charges de travail de production. Tout développeur peut créer une demande de support en cas de problème. Il existe une page wiki contenant des informations sur la manière de demander de l’aide, sur les personnes à prévenir et sur les bonnes pratiques pour accélérer le traitement d’un incident. 

 **Étapes d’implémentation** 

1.  Travaillez avec les parties prenantes de votre organisation pour identifier les fournisseurs de logiciels et de services sur lesquels repose votre charge de travail. Documentez ces dépendances. 

1.  Déterminez les besoins en matière de niveau de service pour votre charge de travail. Sélectionnez un plan de support qui leur corresponde. 

1.  Pour les logiciels et services commerciaux, mettez en place une formule de support avec les fournisseurs. 

   1.  Nous vous conseillons vivement de souscrire à AWS Business Support ou à un niveau supérieur pour tous les comptes de production, ce qui vous permettra de bénéficier de temps de réponse plus courts de la part de AWS Support. Si vous ne disposez pas d’une offre de support premium, mettez en place un plan d’action pour gérer les problèmes qui nécessitent l’aide d’AWS Support. AWS Support fournit une combinaison d’outils et de technologies, de personnes et de programmes conçus pour vous aider à optimiser les performances, à réduire les coûts et à innover plus rapidement. En outre, AWS Business Support offre des avantages supplémentaires, notamment un accès par API à AWS Trusted Advisor et à AWS Health pour une intégration programmatique avec vos systèmes, ainsi que d’autres méthodes d’accès telles que la AWS Management Console et les canaux Amazon EventBridge. 

1.  Documentez le plan de support dans votre outil de gestion des connaissances. Il s’agit notamment de savoir comment demander de l’aide, qui avertir en cas de demande de support et comment faire remonter l’information pendant un incident. Un wiki constitue un bon mécanisme pour permettre à quiconque d’apporter les mises à jour nécessaires à la documentation lorsqu’il prend connaissance de changements dans les processus ou les contacts de support. 

 **Niveau d’effort du plan d’implémentation :** faible La plupart des fournisseurs de logiciels et de services proposent des plans de support à l’inscription. La documentation et le partage des bonnes pratiques en matière de support sur votre système de gestion des connaissances permettent de vérifier que votre équipe sait ce qu’il faut faire en cas d’incident de production. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP02 Les processus et procédures ont des propriétaires identifiés](ops_ops_model_def_proc_owners.md) 

 **Documents connexes :** 
+ [AWS Support Plans](https://docs.aws.amazon.com/awssupport/latest/user/aws-support-plans.html)

 **Services connexes :** 
+ [AWS Business Support ](https://aws.amazon.com/premiumsupport/plans/business/)
+ [AWS Enterprise Support](https://aws.amazon.com/premiumsupport/plans/enterprise/)

# Gestion
<a name="a-operate"></a>

**Topics**
+ [

# OPS 8. Comment exploiter l’observabilité de la charge de travail dans l’organisation ?
](ops-08.md)
+ [

# OPS 9. Comment comprendre l’état de vos opérations ?
](ops-09.md)
+ [

# OPS 10. Comment gérer les événements relatifs à la charge de travail et aux opérations ?
](ops-10.md)

# OPS 8. Comment exploiter l’observabilité de la charge de travail dans l’organisation ?
<a name="ops-08"></a>

Garantissez un état optimal de la charge de travail en tirant parti de l’observabilité. Utilisez des métriques, des journaux et des données de suivi pertinents pour obtenir une vue complète des performances de votre charge de travail et résoudre les problèmes de manière efficace.

**Topics**
+ [

# OPS08-BP01 Analyser les métriques de charge de travail
](ops_workload_observability_analyze_workload_metrics.md)
+ [

# OPS08-BP02 Analyser les journaux de charge de travail
](ops_workload_observability_analyze_workload_logs.md)
+ [

# OPS08-BP03 Analyser les traces de charge de travail
](ops_workload_observability_analyze_workload_traces.md)
+ [

# OPS08-BP04 Création d’alertes exploitables
](ops_workload_observability_create_alerts.md)
+ [

# OPS08-BP05 Création de tableaux de bord
](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Analyser les métriques de charge de travail
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 Après avoir implémenté la télémétrie des applications, analysez régulièrement les métriques collectées. Bien que la latence, les requêtes, les erreurs et la capacité (ou les quotas) fournissent des informations sur les performances du système, il est essentiel de donner la priorité à l’examen des métriques liées aux résultats commerciaux. Vous vous assurez ainsi de prendre des décisions basées sur des données conformes aux objectifs de votre entreprise. 

 **Résultat escompté :** informations précises sur les performances des charges de travail afin de prendre des décisions éclairées par les données, garantissant ainsi l’alignement avec les objectifs de votre entreprise. 

 **Anti-modèles courants :** 
+  Analyse des métriques de manière isolée sans tenir compte de leur impact sur les résultats commerciaux. 
+  Se fier de manière excessive aux métriques techniques tout en mettant de côté les métriques commerciales. 
+  Examen rare des métriques, ce qui vous fait passer à côté de possibilités de prise de décision en temps réel. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Meilleure compréhension de la corrélation entre les performances techniques et les résultats commerciaux. 
+  Processus décisionnel amélioré grâce à des données en temps réel. 
+  Identification et atténuation proactives des problèmes avant qu’ils n’affectent les résultats commerciaux. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Tirez parti d'outils tels CloudWatch qu'Amazon pour effectuer des analyses métriques. AWS des services tels que la détection des CloudWatch anomalies et Amazon DevOps Guru peuvent être utilisés pour détecter des anomalies, en particulier lorsque les seuils statiques sont inconnus ou lorsque les modèles de comportement sont plus adaptés à la détection d'anomalies. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Analyser et revoir :** examinez et interprétez régulièrement les données relatives à votre charge de travail. 

   1.  Donnez la priorité aux métriques liées aux résultats commerciaux par rapport aux métriques purement techniques. 

   1.  Comprenez l’importance des pics, des baisses ou des tendances dans vos données. 

1.  **Utilisez Amazon CloudWatch :** utilisez Amazon CloudWatch pour une vue centralisée et une analyse approfondie. 

   1.  Configurez CloudWatch des tableaux de bord pour visualiser vos indicateurs et les comparer au fil du temps. 

   1.  Utilisez les [percentiles CloudWatch](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) pour avoir une vision claire de la distribution métrique, ce qui peut aider à définir SLAs et à comprendre les valeurs aberrantes. 

   1.  Configurez la [détection des CloudWatch anomalies](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pour identifier les modèles inhabituels sans vous fier à des seuils statiques. 

   1.  Mettez en [CloudWatch œuvre l'observabilité entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) pour surveiller et dépanner les applications qui couvrent plusieurs comptes au sein d'une même région. 

   1.  Utilisez [CloudWatch Metric Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) pour interroger et analyser les données métriques de différents comptes et régions, afin d'identifier les tendances et les anomalies. 

   1.  Appliquez [les mathématiques CloudWatch métriques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) pour transformer, agréger ou effectuer des calculs sur vos indicateurs afin d'obtenir des informations plus approfondies. 

1.  **Utilisez Amazon DevOps Guru :** intégrez [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) pour sa détection des anomalies améliorée par le machine learning afin d'identifier les premiers signes de problèmes opérationnels pour vos applications sans serveur et de les corriger avant qu'ils n'affectent vos clients. 

1.  **Optimisation sur la base des informations recueillies :** prenez des décisions éclairées grâce à l’analyse de vos métriques afin d’ajuster et d’améliorer vos charges de travail. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 

 **Documents connexes :** 
+ [The Wheel Blog : souligner l’importance de revoir continuellement les métriques](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [Importance des centiles](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [En utilisant AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ CloudWatch observabilité entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [Interrogez vos indicateurs avec CloudWatch Metrics Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Vidéos connexes :** 
+ [Activer l'observabilité entre comptes sur Amazon CloudWatch](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [Présentation d'Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [Analysez continuellement les métriques à l'aide de AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Exemples connexes :** 
+ [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro)
+ [Obtenir des informations sur les opérations AIOps grâce à Amazon DevOps Guru](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Analyser les journaux de charge de travail
<a name="ops_workload_observability_analyze_workload_logs"></a>

 L’analyse régulière des journaux de charge de travail est essentielle pour mieux comprendre les aspects opérationnels de votre application. En analysant, en visualisant et en interprétant efficacement les données des journaux, vous pouvez optimiser en permanence les performances et la sécurité des applications. 

 **Résultat escompté :** informations détaillées sur le comportement et le fonctionnement des applications grâce à une analyse approfondie des journaux, garantissant une détection et une atténuation proactives des problèmes. 

 **Anti-modèles courants :** 
+  Négliger l’analyse des journaux jusqu’à ce qu’un problème critique survienne. 
+  Ne pas utiliser la suite complète d’outils disponibles pour l’analyse des journaux, ce qui fait passer à côté d’informations critiques. 
+  Se fier uniquement à l’examen manuel des journaux sans tirer parti des fonctionnalités d’automatisation et de requête. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Identification proactive des goulots d’étranglement opérationnels, des menaces de sécurité et d’autres problèmes potentiels. 
+  Utilisation efficace des données de journal pour une optimisation continue des applications. 
+  Meilleure compréhension du comportement des applications, ce qui aide au débogage et au dépannage. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) est un puissant outil d'analyse des journaux. Des fonctionnalités intégrées telles que CloudWatch Logs Insights et Contributor Insights rendent le processus d'obtention d'informations pertinentes à partir des journaux intuitif et efficace. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Configuration ** CloudWatch des journaux** : configurez les applications et les services pour envoyer les journaux aux CloudWatch journaux. 

1.  **Utilisez la détection des anomalies dans les journaux : utilisez la détection** des [anomalies d'Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) pour identifier automatiquement les modèles de journalisation inhabituels et vous avertir en cas d'anomalie. Cet outil vous permet de gérer de manière proactive les anomalies dans vos journaux et de détecter rapidement les problèmes potentiels. 

1.  **Configurer CloudWatch Logs Insights** : utilisez [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) pour rechercher et analyser de manière interactive les données de vos journaux. 

   1.  Créez des requêtes pour extraire des modèles, visualiser les données des journaux et obtenir des informations exploitables. 

   1.  Utilisez l'[analyse des modèles de CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html) pour analyser et visualiser les modèles de journaux fréquents. Cette fonctionnalité vous permet de comprendre les tendances opérationnelles courantes et les valeurs aberrantes potentielles dans les données de vos journaux. 

   1.  Utilisez [CloudWatch Logs compare (diff)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html) pour effectuer une analyse différentielle entre différentes périodes ou entre différents groupes de journaux. Utilisez cette fonctionnalité pour identifier les changements et évaluer leur impact sur les performances ou le comportement de votre système. 

1.  **Surveillez les journaux en temps réel avec Live Tail :** utilisez [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) pour consulter les données des journaux en temps réel. Vous pouvez surveiller activement les activités opérationnelles de votre application au fur et à mesure qu’elles se produisent, ce qui fournit une visibilité immédiate sur les performances du système et les problèmes potentiels. 

1.  **Tirez parti des informations sur** les [CloudWatchcontributeurs : utilisez les informations sur](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) les contributeurs pour identifier les meilleurs intervenants dans des domaines à forte cardinalité, tels que les adresses IP ou les agents utilisateurs. 

1.  ** CloudWatch Implémenter les filtres métriques CloudWatch ** [des journaux : configurez les filtres métriques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) des journaux pour convertir les données des journaux en indicateurs exploitables. Cela vous permettra de définir des alarmes ou d’analyser davantage les modèles. 

1.  **Mettez en œuvre l'[observabilité CloudWatch entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) :** surveillez et dépannez les applications qui couvrent plusieurs comptes au sein d'une région. 

1.  **Révision et perfectionnement réguliers :** passez régulièrement en revue vos stratégies d’analyse des journaux afin de recueillir toutes les informations pertinentes et d’optimiser en permanence les performances des applications. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 

 **Documents connexes :** 
+  [Analyse des données de journal avec CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Utilisation de CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [Création et gestion de filtres CloudWatch Log Metric](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Vidéos connexes :** 
+  [Analysez les données des CloudWatch journaux avec Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Utilisez CloudWatch Contributor Insights pour analyser les données à haute cardinalité](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Exemples connexes :** 
+  [CloudWatch Enregistre les exemples de requêtes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Analyser les traces de charge de travail
<a name="ops_workload_observability_analyze_workload_traces"></a>

 L’analyse des données de suivi est essentielle pour obtenir une vue complète du parcours opérationnel d’une application. En visualisant et en comprenant les interactions entre les différents composants, il est possible d’affiner les performances, d’identifier les goulots d’étranglement et d’améliorer l’expérience utilisateur. 

 **Résultat escompté :** vous bénéficiez d’une visibilité claire sur les opérations distribuées de votre application, ce qui permet de résoudre les problèmes plus rapidement et d’améliorer l’expérience utilisateur. 

 **Anti-modèles courants :** 
+  Négliger les données de suivi, en s’appuyant uniquement sur les journaux et les métriques. 
+  Aucune corrélation entre les données de suivi et les journaux associés. 
+  Ignorer les métriques dérivées des données de suivi, telles que la latence et les taux de défaillance. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Améliorez le dépannage et réduisez le délai moyen de résolution (MTTR). 
+  Obtenez des informations exploitables sur les dépendances et leur impact. 
+  Accélérez l’identification et la résolution des problèmes de performance. 
+  Tirez parti des métriques dérivées des données de suivi pour une prise de décision éclairée. 
+  Améliorez les expériences utilisateur grâce à des interactions optimisées entre les composants. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) propose une suite complète pour l’analyse des données de suivi. Il fournit une vue globale des interactions entre les services, surveille les activités des utilisateurs et détecte les problèmes de performance. Des fonctionnalités telles que ServiceLens X-Ray Insights, X-Ray Analytics et Amazon DevOps Guru améliorent la profondeur des informations exploitables dérivées des données de trace. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Les étapes suivantes proposent une approche structurée pour mettre en œuvre efficacement l'analyse des données de trace à l'aide de AWS services : 

1.  **Intégrer AWS X-Ray** : assurez-vous que X-Ray est intégré à vos applications pour capturer les données de suivi. 

1.  **Analyse des métriques X-Ray** : explorez les métriques dérivées des traces X-Ray, telles que la latence, les taux de demandes, les taux d’erreur et la distribution des temps de réponse, en utilisant la [carte des services](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view) pour surveiller l’état de santé des applications. 

1.  **Utilisation ServiceLens** : Tirez parti de la [ServiceLenscarte](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html) pour améliorer l'observabilité de vos services et applications. Cela permet une visualisation intégrée des données de suivi, des métriques, des journaux, des alarmes et d’autres informations liées à l’état. 

1.  **Activation de X-Ray Insights** : 

   1.  Activez [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) pour détecter automatiquement les anomalies dans les traces. 

   1.  Examinez les informations pour identifier les tendances et en déterminer les causes racines, telles que l’augmentation des taux de défaillance ou des latences. 

   1.  Consultez la chronologie des informations pour une analyse temporelle des problèmes détectés. 

1.  **Utilisation de X-Ray Analytics** : [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) vous permet d’explorer en profondeur les données de trace, d’identifier des modèles et d’en extraire des informations. 

1.  **Utilisation de groupes dans X-Ray** : créez des groupes dans X-Ray pour filtrer les données de suivi en fonction de critères tels qu’une latence élevée, afin de permettre une analyse plus ciblée. 

1.  **Intégrez Amazon DevOps Guru** : faites appel à [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) pour tirer parti des modèles d'apprentissage automatique qui détectent les anomalies opérationnelles dans les traces. 

1.  **Utilisez CloudWatch des synthetics : utilisez des** synthetics pour créer des [CloudWatchcanaris afin de surveiller en permanence](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) vos points de terminaison et vos flux de travail. Ces scripts canary peuvent s’intégrer à X-Ray pour fournir des données de suivi permettant une analyse approfondie des applications testées. 

1.  **Utilisez Real User Monitoring (RUM)** : avec [AWS X-Ray et CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html), vous pouvez analyser et déboguer le chemin de la demande en commençant par les utilisateurs finaux de votre application via les services AWS gérés en aval. Cela vous permet d’identifier les tendances de latence et les erreurs qui ont un impact sur les utilisateurs finaux. 

1.  **Corrélation avec les journaux** : corrélez les [données de suivi avec les journaux associés](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) dans la vue de suivi de X-Ray pour obtenir une perspective détaillée du comportement des applications. Cela vous permet de visualiser les événements de journal directement associés aux transactions suivies. 

1.  **Mettez en œuvre l'[observabilité CloudWatch entre comptes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) :** surveillez et dépannez les applications qui couvrent plusieurs comptes au sein d'une même région. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analyser les journaux de charge de travail](ops_workload_observability_analyze_workload_logs.md) 

 **Documents connexes :** 
+  [Utilisation ServiceLens pour surveiller l'état de santé des applications](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Exploration des données de suivi grâce à X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Détection des anomalies dans les données de suivi grâce à X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Surveillance continue avec CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **Vidéos connexes :** 
+  [Analysez et déboguez des applications à l'aide d'Amazon CloudWatch Synthetics & AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Use AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Exemples connexes :** 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Implémentation de X-Ray avec AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [CloudWatchModèles Synthetics Canary](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Création d’alertes exploitables
<a name="ops_workload_observability_create_alerts"></a>

 Il est crucial de détecter rapidement les écarts de comportement de votre application et d’y réagir rapidement. Il est particulièrement important de savoir quand les résultats basés sur les indicateurs de rendement clés (KPI) sont menacés ou lorsque des anomalies inattendues surviennent. Le fait de baser les alertes sur les KPI garantit que les signaux que vous recevez sont directement liés à l’impact commercial ou opérationnel. Cette approche des alertes exploitables favorise les réponses proactives et contribue à maintenir les performances et la fiabilité du système. 

 **Résultat escompté :** vous recevez des alertes opportunes, pertinentes et exploitables qui permettent d’identifier et d’atténuer rapidement les problèmes potentiels, en particulier lorsque les résultats basés sur les KPI sont menacés. 

 **Anti-modèles courants :** 
+  Configurer un trop grand nombre d’alertes non critiques, ce qui entraîne de la lassitude. 
+  Ne pas hiérarchiser les alertes en fonction des KPI, ce qui complique la compréhension de l’impact commercial des problèmes. 
+  Négliger de traiter les causes profondes, ce qui entraîne des alertes répétitives pour le même problème. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réduction de la lassitude liée aux alertes grâce à des alertes pertinentes et exploitables. 
+  Disponibilité et fiabilité du système améliorées grâce à la détection et à l’atténuation proactives des problèmes. 
+  Collaboration d’équipe améliorée et résolution plus rapide des problèmes grâce à l’intégration à des outils connus d’alerte et de communication. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour créer un mécanisme d’alerte efficace, il est essentiel d’utiliser des métriques, des journaux et des données de suivi qui signalent les risques liés aux résultats basés sur les KPI ou les anomalies détectées. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Détermination des indicateurs de rendement clés (KPI)** : identifiez les KPI de votre application. Les alertes doivent être liées à ces KPI afin de refléter avec précision l’impact commercial. 

1.  **Mise en œuvre de la détection des anomalies :** 
   +  **Utilisation de la détection des anomalies Amazon CloudWatch :** configurez la [détection des anomalies Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pour détecter automatiquement les modèles inhabituels, ce qui vous permet de générer des alertes uniquement pour les anomalies réelles. 
   +  **Utilisation de AWS X-Ray Insights :** 

     1.  Configurez [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) pour détecter les anomalies dans les données de trace. 

     1.  Configurez [les notifications pour que X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) soit alerté des problèmes détectés. 
   +  **Intégration à Amazon DevOps Guru** : 

     1.  Tirez parti d’[Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) pour ses fonctionnalités de machine learning permettant de détecter les anomalies opérationnelles avec des données existantes. 

     1.  Accédez aux [paramètres de notification](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) dans DevOps Guru pour configurer des alertes d’anomalie. 

1.  **Mise en place d’alertes exploitables :** concevez des alertes qui fournissent des informations adéquates pour une action immédiate. 

   1.  Surveillez [les événements AWS Health à l’aide des règles Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou intégrez-les par programmation à l’API AWS Health pour automatiser les actions lorsque vous recevez des événements AWS Health. Il peut s’agir d’actions générales, telles que l’envoi de tous les messages relatifs aux événements du cycle de vie planifiés vers une interface de discussion, ou d’actions spécifiques, telles que le lancement d’un flux de travail dans un outil de gestion des services informatiques. 

1.  **Réduction de la fatigue liée aux alertes** : minimisez les alertes non critiques. Lorsque les équipes sont submergées par de nombreuses alertes insignifiantes, elles peuvent finir par ignorer des problèmes critiques, ce qui diminue l’efficacité globale du mécanisme d’alerte. 

1.  **Configuration d’alarmes composites** : utilisez les [alarmes composites Amazon CloudWatch](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) pour consolider plusieurs alarmes. 

1.  **Intégration aux outils d’alerte** : intégrez des outils tels qu’[Ops Genie et [PagerDuty](https://www.pagerduty.com/)](https://www.atlassian.com/software/opsgenie). 

1.  **Engagement de Amazon Q Developer dans les applications de chat** : intégrez [Amazon Q Developer dans les applications de chat](https://aws.amazon.com/chatbot/) pour relayer les alertes vers Amazon Chime, Microsoft Teams et Slack. 

1.  **Alerte basée sur les journaux** : utilisez les [filtres métriques des journaux](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) dans CloudWatch pour créer des alarmes basées sur des événements de journal spécifiques. 

1.  **Révision et itération :** révisez et affinez régulièrement les configurations des alertes. 

 **Niveau d’effort du plan d’implémentation :** moyen 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implémenter la télémétrie de l'expérience utilisateur](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Mise en œuvre de la télémétrie des dépendances](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Mettre en œuvre le traçage distribué](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analyser les journaux de charge de travail](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analyser les traces de charge de travail](ops_workload_observability_analyze_workload_traces.md) 

 **Documents connexes :** 
+  [Utilisation d’alarmes Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Création d’une alerte composite](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Création d’une alerte CloudWatch basée sur une détection d’anomalie](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [Notifications de DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [Notifications relatives aux rayons X](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Surveiller, gérer et dépanner vos ressources AWS grâce au ChatOps interactif](https://aws.amazon.com/chatbot/) 
+  [Guide d’intégration d’Amazon CloudWatch \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Intégration d’Opsgenie à l’aide d’Amazon CloudWatch Logs](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Vidéos connexes :** 
+  [Create Composite Alarms in Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Amazon Q Developer in chat applications Overview](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Mutative Commands in Amazon Q Developer in chat applications](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Exemples connexes :** 
+  [Alarmes, gestion des incidents et remédiation dans le nuage avec Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutoriel : création d’une règle Amazon EventBridge qui envoie des notifications à Amazon Q Developer dans les applications de chat](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Création de tableaux de bord
<a name="ops_workload_observability_create_dashboards"></a>

 Les tableaux de bord offrent une vue centrée sur l’humain des données télémétriques de vos charges de travail. Bien qu’ils fournissent une interface visuelle essentielle, ils ne doivent pas remplacer les mécanismes d’alerte, mais les compléter. Lorsqu’ils sont conçus avec soin, ils peuvent non seulement fournir des informations rapides sur l’état et les performances du système, mais ils peuvent également présenter aux parties prenantes des informations en temps réel sur les résultats commerciaux et l’impact des problèmes. 

 **Résultat escompté :** 

 Informations claires et exploitables sur l’état du système et de l’entreprise à l’aide de représentations visuelles. 

 **Anti-modèles courants :** 
+  Tableaux de bord trop compliqués avec trop de métriques. 
+  Utilisation de tableaux de bord sans alertes pour détecter les anomalies. 
+  Pas de mise à jour des tableaux de bord à mesure que les charges de travail évoluent. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Visibilité immédiate sur les métriques critiques du système et les KPI. 
+  Amélioration de la communication et de la compréhension avec les parties prenantes. 
+  Aperçu rapide de l’impact des problèmes opérationnels. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 **Tableaux de bord centrés sur l’entreprise** 

 Les tableaux de bord adaptés aux indicateurs de rendement clés de l’entreprise mobilisent un plus large éventail de parties prenantes. Bien que ces personnes ne soient pas intéressées par les métriques du système, elles souhaitent comprendre les implications commerciales de ces chiffres. Un tableau de bord centré sur l’entreprise garantit que toutes les métriques techniques et opérationnelles surveillées et analysées sont synchronisées avec les objectifs globaux de l’entreprise. Cet alignement apporte de la clarté et garantit que tout le monde est d’accord sur ce qui est essentiel et sur ce qui ne l’est pas. En outre, les tableaux de bord qui mettent en évidence les KPI commerciaux ont tendance à être plus exploitables. Les parties prenantes peuvent rapidement comprendre l’état des opérations, les domaines nécessitant une attention particulière et l’impact potentiel sur les résultats commerciaux. 

 Dans cette optique, lors de la création de vos tableaux de bord, assurez-vous qu’il existe un juste milieu entre les métriques techniques et les KPI commerciaux. Les deux sont essentiels, mais ils s’adressent à des publics différents. Idéalement, vous devriez disposer de tableaux de bord offrant une vue globale de l’état et des performances du système tout en mettant l’accent sur les principaux résultats commerciaux et leurs implications. 

 Les tableaux de bord Amazon CloudWatch sont des pages d’accueil personnalisables de la console CloudWatch que vous pouvez utiliser pour surveiller vos ressources dans une seule vue, y compris les ressources réparties sur différentes Régions AWS. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Création d’un tableau de bord de base :** [créez un nouveau tableau de bord dans CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html) en lui attribuant un nom descriptif. 

1.  **Utilisez les widgets Markdown :** avant de vous plonger dans les métriques, [utilisez les widgets Markdown](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html) pour ajouter du contexte textuel en haut de votre tableau de bord. Ce texte doit expliquer ce que couvre le tableau de bord et l’importance des métriques représentées. Il peut également contenir des liens vers d’autres tableaux de bord et outils de résolution des problèmes. 

1.  **Création de variables de tableau de bord :** [incorporez des variables de tableau de bord](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html) le cas échéant pour permettre des vues de tableau de bord dynamiques et flexibles. 

1.  **Création de widgets de mesure :** [ajoutez des widgets de mesure](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html) pour visualiser les différentes métriques émises par votre application, en personnalisant ces widgets pour représenter efficacement l’état du système et les résultats commerciaux. 

1.  **Requêtes Log Insights :** utilisez [CloudWatch Log Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) pour obtenir des indicateurs exploitables à partir de vos journaux et afficher ces informations sur votre tableau de bord. 

1.  **Configuration d’alarmes :** intégrez les [alarmes CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) à votre tableau de bord pour obtenir un aperçu rapide des indicateurs dépassant leurs seuils. 

1.  **Utilisation d’informations sur les contributeurs :** intégrez [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) pour analyser les champs à haute cardinalité et mieux comprendre les principaux contributeurs de votre ressource. 

1.  **Conception de widgets personnalisés :** pour des besoins spécifiques qui ne sont pas satisfaits par les widgets standard, pensez à créer des [widgets personnalisés](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html). Ils peuvent être extraits de différentes sources de données ou représenter les données de manière unique. 

1.  **Utilisez AWS Health :** AWS Health est la source d’informations faisant autorité sur l’intégrité de vos ressources AWS Cloud. Utilisez [Tableau de bord AWS Health](https://health.aws.amazon.com/health/status) immédiatement ou utilisez les données AWS Health de vos propres tableaux de bord et outils afin de disposer des bonnes informations pour prendre des décisions éclairées. 

1.  **Répéter et affiner :** au fur et à mesure que votre application évolue, revoyez régulièrement votre tableau de bord pour vous assurer de sa pertinence. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analyser les journaux de charge de travail](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analyser les traces de charge de travail](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 

 **Documents connexes :** 
+  [Création de tableaux de bord pour une visibilité opérationnelle](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Utilisation des tableaux de bord Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **Vidéos connexes :** 
+  [Create Cross Account & Cross Region CloudWatch Dashboards](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 - Gain enterprise visibility with AWS Cloud operation dashboards](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Exemples connexes :** 
+  [Un atelier sur l’observabilité](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Surveillance des applications avec Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [Tableaux de bord et informations sur les événements AWS Health](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualisation des événements AWS Health à l’aide d’Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 

# OPS 9. Comment comprendre l’état de vos opérations ?
<a name="ops-09"></a>

 Définissez, capturez et analysez les métriques des opérations pour obtenir une visibilité sur les événements opérationnels afin de pouvoir prendre des mesures appropriées. 

**Topics**
+ [

# OPS09-BP01 Mesure des objectifs opérationnels et des KPI à l’aide de métriques
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Communication de l’état et des tendances pour garantir la visibilité des opérations
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Vérification des métriques des opérations et définition de la priorité des améliorations
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Mesure des objectifs opérationnels et des KPI à l’aide de métriques
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Obtenez des objectifs et des indicateurs de performance clés qui définissent le succès des opérations de votre organisation et déterminez les métriques qui les reflètent. Définissez des points de référence et réévaluez-les régulièrement. Développez des mécanismes permettant de recueillir ces métriques auprès des équipes à des fins d’évaluation. Les métriques [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) constituent une méthode populaire pour mesurer les progrès accomplis dans la mise en œuvre des pratiques DevOps en matière de fourniture de logiciels. 

 **Résultat escompté :** 
+ L’organisation publie et partage les objectifs et les KPI des équipes opérationnelles.
+ Vous établissez des métriques qui reflètent ces KPI. Exemples :
  +  Profondeur de la file d’attente ou âge moyen des tickets 
  +  Nombre de tickets regroupés par type de problème 
  +  Temps passé à résoudre les problèmes avec ou sans procédure opérationnelle normalisée (SOP) 
  +  Délai de récupération après un échec d’envoi de code 
  +  Volume d’appels 

 **Anti-modèles courants:** 
+  Les délais de déploiement ne sont pas respectés, car les développeurs sont contraints d’effectuer des tâches de dépannage. Les équipes de développement plaident en faveur d’une augmentation du personnel, mais ne peuvent pas quantifier le nombre de collaborateurs dont elles ont besoin, car le temps perdu ne peut pas être mesuré. 
+  Un bureau de niveau 1 a été mis en place pour traiter les appels des utilisateurs. Au fil du temps, de nouvelles charges de travail ont été ajoutées, mais aucun effectif n’a été affecté au bureau de niveau 1. La satisfaction des clients en pâtit, car les temps d’appel augmentent et la résolution des problèmes ralentit, mais la direction n’en voit aucun signe, ce qui empêche toute action. 
+  Une charge de travail problématique a été confiée à une équipe opérationnelle distincte pour entretien. Contrairement aux autres charges de travail, cette nouvelle charge de travail n’a pas été fournie avec la documentation et les runbooks appropriés. Les équipes consacrent donc plus de temps au dépannage et à la résolution des défaillances. Cependant, aucune métrique ne permet de documenter ces efforts, ce qui empêche les équipes de rendre compte de la situation. 

 **Avantages liés au respect de cette bonne pratique :** lorsque la surveillance de la charge de travail indique l’état de nos applications et services, les équipes chargées des opérations de surveillance fournissent aux propriétaires un aperçu des changements survenus chez les consommateurs de ces charges de travail, tels que l’évolution des besoins commerciaux. Mesurez l’efficacité de ces équipes et évaluez-les par rapport aux objectifs commerciaux en créant des métriques qui reflètent l’état des opérations. Ces métriques peuvent mettre en évidence les problèmes de support ou identifier les cas où des écarts se produisent par rapport à une cible de niveau de service. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

Planifiez du temps avec les responsables et les parties prenantes afin de déterminer les objectifs généraux du service. Déterminez quelles devraient être les tâches des différentes équipes opérationnelles et quels défis elles pourraient rencontrer. Sur la base de ces informations, réfléchissez à des indicateurs de rendement clés (KPI) susceptibles de refléter ces objectifs opérationnels. Il peut s’agir de la satisfaction des clients, du délai entre la conception des fonctionnalités et leur déploiement, du temps moyen de résolution des problèmes ou de la rentabilité.

 À partir de ces KPI, identifiez les métriques et les sources de données qui pourraient mieux refléter ces objectifs. La satisfaction des clients peut être une combinaison de diverses métriques telles que les temps d’attente ou de réponse aux appels, les scores de satisfaction et les types de problèmes soulevés. Les temps de déploiement peuvent être la somme du temps nécessaire aux tests et au déploiement, plus les correctifs à ajouter après le déploiement lui-même. Les statistiques indiquant le temps consacré à différents types de problèmes (ou le nombre de ces problèmes) peuvent fournir un aperçu des domaines dans lesquels des efforts ciblés sont nécessaires. 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+ [ Quick – Utilisation des KPI ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch : utilisation des métriques ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Création de tableaux de bord ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Comment suivre vos KPI en matière d’optimisation des coûts avec le tableau de bord des KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [Guide AWS DevOps ](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Exemples connexes :** 
+ [ Surveillance des performances de votre livraison de logiciels à l’aide d’outils AWS natifs de surveillance et d’observabilité ](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [ Équilibrage de la vitesse de déploiement et de la stabilité à l’aide des métriques DORA ](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [ Exemples de métriques opérationnelles MLOps dans le secteur des services financiers ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ Suivi des KPI d’optimisation des coûts avec KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Communication de l’état et des tendances pour garantir la visibilité des opérations
<a name="ops_operations_health_communicate_status_trends"></a>

 Il est nécessaire de connaître l’état de vos opérations et leurs tendances pour identifier les cas où les résultats peuvent être menacés, pour déterminer si des efforts supplémentaires sont justifiés ou non, ou pour identifier les effets des modifications sur vos équipes. Lors d’événements opérationnels, la possession de pages d’état auxquelles les utilisateurs et les équipes opérationnelles peuvent se référer pour obtenir des informations peut réduire la pression sur les canaux de communication et à diffuser les informations de manière proactive. 

 **Résultat escompté :** 
+  Les responsables des opérations ont un aperçu rapide des volumes d’appels auxquels leurs équipes sont confrontées et des initiatives en cours, telles que les déploiements. 
+  Des alertes sont diffusées aux parties prenantes et aux communautés d’utilisateurs lorsque des répercussions sur les opérations normales se produisent. 
+  La direction de l’organisation et les parties prenantes peuvent consulter une page d’état en réponse à une alerte ou à un impact, et obtenir des informations concernant un événement opérationnel, telles que les points de contact, des informations sur les tickets et les délais de reprise estimés. 
+  Des rapports sont mis à la disposition de la direction et des autres parties prenantes pour présenter des statistiques opérationnelles telles que le volume d’appels sur une période donnée, les scores de satisfaction des utilisateurs, le nombre de tickets en attente et leur ancienneté. 

 **Anti-modèles courants :** 
+  Une charge de travail tombe en panne, ce qui rend un service indisponible. Les volumes d’appels atteignent un pic lorsque les utilisateurs demandent à savoir ce qui se passe. Les responsables ajoutent au volume en demandant à savoir qui est à l’origine du problème. Les différentes équipes opérationnelles redoublent leurs efforts pour tenter d’identifier la cause première. 
+  Pour répondre à un nouveau besoin, plusieurs membres du personnel sont réaffectés à un effort d’ingénierie. Les postes vacants ne sont pas pourvus, et les délais de résolution des problèmes augmentent. Ces informations ne sont pas capturées, et ce n’est qu’après plusieurs semaines et après avoir reçu des commentaires insatisfaits des utilisateurs que les dirigeants prennent conscience du problème. 

 **Avantages liés au respect de cette bonne pratique :** lors d’événements opérationnels affectant l’entreprise, beaucoup de temps et d’énergie peuvent être gaspillés à demander des informations aux différentes équipes qui tentent de comprendre la situation. En mettant en place des pages d’état et des tableaux de bord largement diffusés, les parties prenantes peuvent rapidement se procurer les informations nécessaires et déterminer, par exemple, si un problème a été détecté ou non, qui est responsable du problème ou quand un retour à une activité normale est attendu. Cela évite aux membres de l’équipe d’avoir à passer trop de temps à communiquer la situation aux autres. Ils peuvent ainsi consacrer plus de temps à la résolution des problèmes. 

 En outre, les tableaux de bord et les rapports peuvent fournir des informations aux décideurs et aux parties prenantes pour voir comment les équipes opérationnelles sont en mesure de répondre aux besoins de l’entreprise et comment leurs ressources sont allouées. Ces informations sont cruciales pour déterminer si des ressources adéquates sont en place pour soutenir l’entreprise. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Créez des tableaux de bord qui présentent les métriques clés actuelles pour vos équipes opérationnelles et mettez-les à disposition des responsables des opérations et de la direction. 

 Créez des pages d’état qui peuvent être mises à jour rapidement pour indiquer quand un incident ou un événement se produit, qui en est le responsable et qui coordonne la réponse. Partagez sur cette page les étapes ou les solutions que les utilisateurs doivent prendre en compte et diffusez largement l’emplacement. Encouragez les utilisateurs à vérifier d’abord cet emplacement lorsqu’ils sont confrontés à un problème inconnu. 

 Collectez et fournissez des rapports qui présentent l’état des opérations au fil du temps, et distribuez-les aux dirigeants et aux décideurs pour illustrer le travail des opérations ainsi que les défis et les besoins. 

 Partagez entre les équipes les métriques et rapports qui reflètent au mieux les objectifs et les KPI, ainsi que les domaines où ils ont contribué au changement. Consacrez du temps à ces activités afin de renforcer l’importance des opérations au sein des équipes et entre elles. 

 Utilisez [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) avec vos propres tableaux de bord ou intégrez-y des événements AWS Health, afin que vos équipes puissent établir une corrélation entre les problèmes liés aux applications et l’état du service AWS. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+ [ OPS09-BP01 Mesurer les objectifs opérationnels et les KPI à l’aide de métriques ](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Documents connexes :** 
+ [ Mesurer les progrès ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [Création de tableaux de bord pour une visibilité opérationnelle](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Exemples connexes :** 
+ [Opérations de données](https://aws.amazon.com/solutions/app-development/data-operations)
+ [Comment suivre vos KPI en matière d’optimisation des coûts avec le tableau de bord des KPI](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [L’importance des indicateurs de rendement clés (KPI) pour les migrations vers le cloud à grande échelle](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Vérification des métriques des opérations et définition de la priorité des améliorations
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Le fait de consacrer du temps et des ressources à l’examen de l’état des opérations garantit que le service quotidien des activités demeure une priorité. Réunissez les responsables des opérations et les parties prenantes pour vérifier régulièrement les métriques, réaffirmer ou modifier les objectifs et prioriser les améliorations. 

 **Résultat escompté :** 
+  Les responsables des opérations et le personnel se rencontrent régulièrement pour vérifier les métriques au cours d’une période de référence donnée. Les défis sont communiqués, les victoires sont célébrées et les leçons tirées sont partagées. 
+  Les parties prenantes et les responsables sont régulièrement informés de l’état des opérations et sont invités à donner leur avis concernant les objectifs, les KPI et les initiatives futures. Les compromis entre la prestation de services, les opérations et la maintenance font l’objet de discussions et sont mis en contexte. 

 **Anti-modèles courants :** 
+  Un nouveau produit est lancé, mais les équipes opérationnelles de niveau 1 et de niveau 2 ne sont pas suffisamment formées pour fournir l’assistance nécessaire ou n’ont pas de personnel supplémentaire. Les métriques qui montrent une dégradation des délais de résolution des demandes d’assistance et l’augmentation du volume d’incidents ne sont pas pris en compte par les dirigeants. Des mesures sont prises des semaines plus tard lorsque le nombre d’abonnements commence à baisser alors que les utilisateurs mécontents quittent la plateforme. 
+  Un processus manuel pour effectuer la maintenance d’une charge de travail est en place depuis longtemps. Bien que le désir d’automatiser soit présent, il n’était pas prioritaire compte tenu de la faible importance du système. Cependant, au fil du temps, le système gagne de l’importance et ces processus manuels occupent désormais la majeure partie du temps des opérations. Aucune ressource n’est prévue pour assister les opérations, ce qui entraîne un épuisement du personnel à mesure que la charge de travail augmente. La direction n’en prend conscience que lorsqu’on lui signale que le personnel démissionne pour aller travailler pour d’autres concurrents. 

 **Avantages liés au respect de cette bonne pratique :** dans certaines organisations, il peut être difficile de consacrer le même temps et la même attention à la prestation de services et aux nouveaux produits ou offres. Le cas échéant, le secteur d’activité peut en pâtir, car le niveau de service attendu se détériore lentement. En effet, les opérations ne changent pas et n’évoluent pas avec la croissance de l’entreprise, et peuvent se retrouver à la traîne. En l’absence d’un examen régulier des informations recueillies par les opérations, le risque pour l’entreprise peut ne devenir visible que lorsqu’il sera trop tard. En allouant du temps à l’examen des métriques et des procédures à la fois au sein des équipes opérationnelles et auprès de la direction, le rôle crucial joué par les opérations reste visible, et les risques peuvent être identifiés bien avant qu’ils n’atteignent des niveaux critiques. Les équipes opérationnelles ont une meilleure idée des changements et initiatives commerciaux imminents, ce qui permet de lancer des initiatives proactives. La visibilité qu’ont les dirigeants sur les métriques opérationnelles met en évidence le rôle que jouent ces équipes dans la satisfaction des clients, à la fois en interne et en externe. Elle leur permet également de mieux évaluer les choix en fonction des priorités, ou de s’assurer que les opérations disposent du temps et des ressources nécessaires pour changer et évoluer avec de nouvelles initiatives stratégiques et de charge de travail. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Consacrez du temps à la vérification des métriques opérationnelles entre les parties prenantes et les équipes opérationnelles et à l’examen des données des rapports. Placez ces rapports dans le contexte des objectifs de l’organisation afin de déterminer s’ils sont atteints. Identifiez les sources d’ambiguïté lorsque les objectifs ne sont pas clairs ou lorsque l’offre ne correspond pas à la demande. 

 Identifiez les domaines dans lesquels de meilleurs résultats opérationnels peuvent être obtenus avec du temps, du personnel et des outils disponibles. Déterminez les KPI qui seraient impactés et les objectifs de réussite à atteindre. Révisez-les régulièrement pour vous assurer que les opérations disposent de ressources suffisantes pour soutenir le secteur d’activité. 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+ [Amazon Athena](https://aws.amazon.com/athena/)
+ [Référence des métriques et dimensions Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [ Amazon Quick ](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [Collecte de métriques et de journaux à partir d’instances Amazon EC2 et de serveurs sur site avec l’agent Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Utilisation des métriques Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)

# OPS 10. Comment gérer les événements relatifs à la charge de travail et aux opérations ?
<a name="ops-10"></a>

 Préparez et validez des procédures de réponse aux événements afin de réduire leur effet disruptif sur votre charge de travail. 

**Topics**
+ [

# OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Disposer d’un processus par alerte
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Hiérarchiser les événements opérationnels en fonction de leur impact sur l’activité
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Définir l’acheminement hiérarchique
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Définissez un plan de communication avec les clients en cas d’interruption de service
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Communiquer l’état grâce aux tableaux de bord
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Automatiser les réponses aux événements
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes
<a name="ops_event_response_event_incident_problem_process"></a>

La capacité à gérer efficacement les événements, les incidents et les problèmes est essentielle pour préserver l’intégrité et les performances de la charge de travail. Il est essentiel de reconnaître et de comprendre les différences entre ces éléments pour développer une stratégie de réponse et de résolution efficace. La mise en place et le suivi d’un processus bien défini pour chaque aspect aident votre équipe à relever rapidement et efficacement tous les défis opérationnels qui se présentent.

 **Résultat escompté :** votre organisation gère efficacement les événements opérationnels, les incidents et les problèmes grâce à des processus bien documentés et stockés de manière centralisée. Ces processus sont constamment mis à jour pour refléter les changements, rationaliser la gestion et préserver une fiabilité de service et des performances de charge de travail élevées. 

 **Anti-modèles courants :** 
+  Vous êtes réactif et non proactif face aux événements. 
+  Des approches incohérentes sont adoptées à l’égard de différents types d’événements ou d’incidents. 
+ Votre organisation n’analyse pas les incidents et n’en tire pas les leçons nécessaires pour éviter qu’ils se reproduisent à l’avenir.

 **Avantages liés au respect de cette bonne pratique :** 
+  Processus de réponse rationalisés et standardisés. 
+  Réduction de l’impact des incidents sur les services et les clients. 
+  Résolution accélérée des problèmes. 
+  Amélioration continue des processus opérationnels. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élévé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Le respect de cette bonne pratique signifie que vous suivez les événements de charge de travail. Vous disposez de processus pour gérer les incidents et les problèmes. Les processus sont documentés, partagés et mis à jour fréquemment. Les problèmes sont identifiés, hiérarchisés et résolus. 

 **Comprendre les événements, les incidents et les problèmes** 
+  **Événement :** un *événement* est une observation d’action, d’occurrence ou de modification d’un état. Les événements peuvent être planifiés ou imprévus et peuvent avoir une origine interne ou externe à la charge de travail. 
+  **Incidents :** *les incidents* sont des événements qui nécessitent une réponse. Il peut notamment s’agir d’interruptions imprévues ou de dégradations de la qualité du service. Les incidents sont des perturbations qui nécessitent une attention immédiate pour rétablir le fonctionnement normal de la charge de travail. 
+  **Problèmes :** *les problèmes* sont les causes sous-jacentes d’un ou de plusieurs incidents. L’identification et la résolution des problèmes impliquent d’étudier plus en profondeur les incidents afin d’éviter qu’ils se reproduisent. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 **Événements** 

1.  **Surveiller des événements :** 
   +  [Mettez en œuvre l’observabilité](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) et [utilisez l’observabilité de la charge de travail](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Les actions de surveillance entreprises par un utilisateur, un rôle ou un service AWS sont enregistrées sous forme d’événements dans [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Répondez aux changements opérationnels de vos applications en temps réel avec [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Évaluez, surveillez et enregistrez en permanence les modifications de configuration des ressources avec [AWS Config](https://aws.amazon.com/config/). 

1.  **Créez des processus :** 
   +  Élaborez un processus pour évaluer quels événements sont importants et nécessitent une surveillance. Pour ce faire, il faut fixer des seuils et des paramètres pour les activités normales et anormales. 
   +  Déterminez les critères permettant de transformer un événement en incident. Cette évaluation peut être basée sur la gravité, l’impact sur les utilisateurs ou un écart par rapport au comportement attendu. 
   +  Passez régulièrement en revue les processus de surveillance et de réponse aux événements. Il s’agit notamment d’analyser les incidents passés, d’ajuster les seuils et d’affiner les mécanismes d’alerte. 

 **Incidents** 

1.  **Intervenir en cas d’incident :** 
   +  Utilisez les informations issues des outils d’observabilité pour identifier rapidement les incidents et y répondre. 
   +  Mettre en place un [centre d’opérations AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) pour regrouper, organiser et hiérarchiser les éléments opérationnels et les incidents. 
   +  Utilisez des services tels qu’[Amazon CloudWatch [AWS X-Ray](https://aws.amazon.com/xray/)](https://aws.amazon.com/cloudwatch/) pour effectuer des analyses approfondies et résoudre les problèmes. 
   +  Envisagez [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) pour améliorer la gestion des incidents, en tirant parti de ses capacités proactives, préventives et de détection. AMS étend son support opérationnel avec des services tels que la surveillance, la détection et la réponse aux incidents, ainsi que la gestion de la sécurité. 
   +  Les clients du support aux entreprises peuvent utiliser la [détection et la réponse aux incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), qui fournissent une surveillance proactive continue et une gestion des incidents pour les charges de travail de production. 

1.  **Créez un processus de gestion des incidents :** 
   +  Établissez un processus structuré de gestion des incidents, comprenant des rôles clairs, des protocoles de communication et des étapes de résolution. 
   +  Intégrez la gestion des incidents à des outils comme [Amazon Q Developer dans les applications de chat](https://aws.amazon.com/chatbot/) pour une réponse et une coordination efficaces. 
   +  Classez les incidents par ordre de gravité, avec des [plans d’intervention en cas d’incidents](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) prédéfinis pour chaque catégorie. 

1.  **Apprenez et améliorez vos processus :** 
   +  Effectuez une [analyse post-incident](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) pour comprendre les causes profondes et l’efficacité de l’intervention. 
   +  Mettez à jour et améliorez en continu les plans de réponse en fonction des examens et de l’évolution des pratiques. 
   +  Documentez et partagez les leçons apprises entre les équipes afin d’améliorer la résilience opérationnelle. 
   +  Les clients du support aux entreprises peuvent demander [l’atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) auprès de leur responsable de compte technique. Le présent atelier guidé vous permet d’évaluer votre plan d’intervention en cas d’incident et d’identifier les points à améliorer. 

 **Problèmes** 

1.  **Identifiez les problèmes :** 
   +  Utilisez les données relatives aux incidents précédents pour identifier des modèles récurrents susceptibles d’indiquer des problèmes systémiques plus profonds. 
   +  Tirez parti d’outils tels [AWS CloudTrail](https://aws.amazon.com/cloudtrail/)qu’[Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) pour analyser les tendances et découvrir les problèmes sous-jacents. 
   +  Mobilisez des équipes interfonctionnelles, y compris les services des opérations et du développement, ainsi que les unités commerciales, afin d’obtenir des points de vue diversifiés sur les causes profondes. 

1.  **Créez un processus de gestion des problèmes :** 
   +  Développez un processus structuré pour la gestion des problèmes, en mettant l’accent sur des solutions à long terme plutôt que sur des correctifs rapides. 
   +  Intégrez des techniques d’analyse des causes profondes (RCA) pour étudier et comprendre les causes sous-jacentes des incidents. 
   +  Mettez à jour les politiques, les procédures et l’infrastructure opérationnelles en fonction des résultats pour éviter tout incident. 

1.  **Continuez à améliorer vos processus :** 
   +  Favorisez une culture d’apprentissage et d’amélioration continus, en incitant les équipes à identifier et à résoudre les problèmes potentiels de manière proactive. 
   +  Passez régulièrement en revue et révisez les processus et les outils de gestion des problèmes afin de les aligner sur l’évolution des environnements commerciaux et technologiques. 
   +  Partagez des informations et des bonnes pratiques au sein de l’organisation afin de créer un environnement opérationnel plus résilient et plus efficace. 

1.  **Impliquez AWS Support :** 
   +  Utilisez des ressources d’assistance AWS [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), telles que des conseils proactifs et des recommandations d’optimisation. 
   +  Les clients du support aux entreprises peuvent accéder à des programmes spécialisés tels que [AWSCountdown](https://aws.amazon.com/premiumsupport/aws-countdown/) pour obtenir une assistance lors d’événements critiques. 

 **Niveau d’effort du plan d’implémentation :** faible 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Utilisation de runbooks pour effectuer des procédures](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Utilisation de playbooks pour analyser les problèmes](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) 

 **Documents connexes :** 
+  [Guide d’intervention en cas d’incident de sécurité AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Détection et intervention en cas d’incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework : Operations Perspective – Gestion des incidents et des problèmes](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Gestion des incidents à l’âge du DevOps et de SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty : qu’est-ce que la gestion des incidents ?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vidéos connexes :** 
+ [Les meilleurs conseils de AWS en matière d’intervention en cas d’incident](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 – The Amazon Builders’ Library: 25 yrs of Amazon operational excellence](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Présentation d’Incident Manager par AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Exemples connexes :** 
+  [Services proactifs AWS : atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [Comment automatiser la réponse aux incidents avec PagerDuty et AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Impliquer les intervenants en cas d’incident grâce aux horaires d’astreinte dans AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Améliorer la visibilité et la collaboration lors de la gestion des incidents dans AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Rapports d’incidents et demandes de service dans AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Services connexes :** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Disposer d’un processus par alerte
<a name="ops_event_response_process_per_alert"></a>

 Il est essentiel d’établir un processus clair et défini pour chaque alerte de votre système afin de garantir une gestion efficace et efficiente des incidents. Cette pratique garantit que chaque alerte entraîne une réponse spécifique et exploitable, améliorant ainsi la fiabilité et la réactivité de vos opérations. 

 **Résultat escompté :** chaque alerte déclenche un plan de réponse spécifique et bien défini. Dans la mesure du possible, les réponses sont automatisées, avec une propriété clairement établie et une procédure de remontée définie. Les alertes sont liées à une base de connaissances actualisée afin que chaque opérateur puisse réagir de manière cohérente et efficace. Les réponses sont rapides et uniformes à tous les niveaux, ce qui améliore l’efficacité et la fiabilité opérationnelles. 

 **Anti-modèles courants :** 
+  Les alertes n’ont pas de processus de réponse prédéfini, ce qui entraîne des résolutions improvisées et différées. 
+  En raison de la surcharge d’alertes, celles qui sont importantes sont ignorées. 
+  Les alertes ne sont pas traitées de manière cohérente en raison de l’absence de définition claire de la propriété et des responsabilités. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réduction de la lassitude liée aux alertes en ne déclenchant que des alertes exploitables. 
+  Diminution du délai moyen de résolution (MTTR) des problèmes opérationnels. 
+  Diminution du délai moyen d’investigation (MTTI), ce qui contribue à réduire le MTTR. 
+  Capacité accrue à mettre à l’échelle les réponses opérationnelles. 
+  Amélioration de la cohérence et de la fiabilité dans la gestion des événements opérationnels. 

 Par exemple, vous disposez d’un processus défini pour les événements AWS Health pour les comptes critiques, y compris les alarmes d’application, les problèmes opérationnels et les événements planifiés du cycle de vie (comme la mise à jour des versions d’Amazon EKS avant la mise à jour automatique des clusters), et vous donnez à vos équipes la possibilité de surveiller activement ces événements, de les communiquer et d’y répondre. Ces actions vous aident à prévenir les interruptions de service causées par des modifications côté AWS ou à les atténuer plus rapidement en cas de problèmes inattendus. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Pour disposer d’un processus par alerte, il est nécessaire d’établir un plan de réponse clair pour chaque alerte, d’automatiser les réponses dans la mesure du possible et d’améliorer continuellement ces processus en fonction des commentaires opérationnels et de l’évolution des exigences. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 Le schéma suivant illustre le flux de travail de gestion des incidents dans [AWS Systems Manager Incident Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Il est conçu pour répondre rapidement aux problèmes opérationnels en créant automatiquement des incidents en réponse à des événements spécifiques provenant [d’Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) ou [d’Amazon EventBridge](https://aws.amazon.com/eventbridge/). Lorsqu’un incident est créé, automatiquement ou manuellement, Incident Manager centralise la gestion de l’incident, organise les informations pertinentes sur les ressources AWS et lance des plans de réponse prédéfinis. Il s’agit entre autres de l’exécution de dossiers d’exploitation Automation pour une action immédiate, ainsi que de la création d’un élément de travail opérationnel parent dans OpsCenter afin de suivre les tâches et les analyses associées. Ce processus rationalisé accélère et coordonne la réponse aux incidents dans l’ensemble de votre environnement AWS. 

![\[Organigramme illustrant la façon dont Incident Manager fonctionne – Amazon Q Developer dans les applications de chat, les plans et les contacts de remontée, ainsi que les dossiers d’exploitation, sont intégrés aux plans d’intervention, qui sont ajoutés aux incidents et aux analyses. Amazon CloudWatch est également pris en compte dans les plans d’intervention.\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


1.  **Utiliser des alarmes composites :** créez des [alarmes composites](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) dans CloudWatch pour regrouper les alarmes associées, réduire le bruit et permettre des réponses plus pertinentes. 

1.  **Restez informé avec [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) :** AWS Health est la source d’informations faisant autorité sur l’intégrité de vos ressources AWS Cloud. Utilisez AWS Health pour visualiser et être informé de tous les événements de service en cours et des changements à venir, tels que les événements de cycle de vie planifiés, afin de pouvoir prendre des mesures pour atténuer les impacts. 

   1.  [Créez des notifications d’événements AWS Health spécialement adaptées](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) aux e-mails et aux canaux de discussion via [Notifications des utilisateurs AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) et intégrez-les de manière programmatique à [vos outils de surveillance et d’alerte via Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou l’[API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planifiez et suivez l’évolution des événements d’intégrité qui nécessitent une action en intégrant des outils de gestion des modifications ou des outils ITSM (tels que [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) ou [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) que vous utilisez peut-être déjà via Amazon EventBridge ou l’API AWS Health. 

   1.  Si vous utilisez AWS Organizations, activez la [vue de l’organisation pour AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) afin d’agréger les événements AWS Health sur l’ensemble des comptes. 

1.  **Intégrer les alarmes Amazon CloudWatch avec Incident Manager :** configurez les alarmes CloudWatch pour créer automatiquement des incidents dans [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Intégrer Amazon EventBridge à Incident Manager :** créez des [règles EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) pour réagir aux événements et créer des incidents à l’aide de plans d’intervention définis. 

1.  **Préparez-vous aux incidents dans Incident Manager :** 
   +  Établissez des [plans d’intervention](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) détaillés dans Incident Manager pour chaque type d’alerte. 
   +  Établissez des canaux de chat par le biais de [Amazon Q Developer dans les applications de chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) connecté aux plans d’intervention dans Incident Manager, afin de faciliter la communication en temps réel lors d’incidents sur des plateformes telles que Slack, Microsoft Teams et Amazon Chime. 
   +  Intégrez les [dossiers d’exploitation d’automatisation de la gestion des systèmes](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) dans Incident Manager pour générer des interventions automatisées en cas d’incidents. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 

 **Documents connexes :** 
+ [AWS Cloud Adoption Framework : Operations Perspective – Gestion des incidents et des problèmes](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Utilisation d’alarmes Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [Configuration de AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [Préparation aux incidents dans Incident Manager :](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Vidéos connexes :** 
+ [Les meilleurs conseils de AWS en matière d’intervention en cas d’incident](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Exemples connexes :** 
+ [AWS Ateliers – AWS Systems Manager Incident Manager – Automatiser les réponses aux événements de sécurité](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Hiérarchiser les événements opérationnels en fonction de leur impact sur l’activité
<a name="ops_event_response_prioritize_events"></a>

 Il est essentiel de réagir rapidement aux événements opérationnels, mais tous les événements ne sont pas identiques. Lorsque vous établissez des priorités en fonction de l’impact sur l’entreprise, vous donnez également la priorité aux événements susceptibles d’avoir des conséquences importantes. Ces événements peuvent être liés à la sécurité, à des pertes financières, à des violations de la réglementation ou à des atteintes à la réputation. 

 **Résultat escompté :** les réponses aux événements opérationnels sont classées par ordre de priorité en fonction de leur impact potentiel sur les opérations et les objectifs de l’entreprise. Des réponses efficientes et efficaces peuvent ainsi être mises en place. 

 **Anti-modèles courants :** 
+  Chaque événement est traité avec le même niveau d’urgence, ce qui entraîne de la confusion et des retards dans la résolution des problèmes critiques. 
+  Vous ne faites pas la distinction entre les événements à fort et à faible impact, ce qui entraîne une mauvaise allocation des ressources. 
+  Votre organisation ne dispose pas d’un cadre de priorisation clair, ce qui entraîne des réponses incohérentes aux événements opérationnels. 
+  Les événements sont priorisés en fonction de leur ordre de signalement, plutôt que de leur impact sur les résultats de l’entreprise. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Garantit que les fonctions critiques de l’entreprise sont traitées en premier lieu, minimisant ainsi les dommages potentiels. 
+  Améliore l’allocation des ressources lors de plusieurs événements simultanés. 
+  Améliore la capacité de l’organisation à préserver la confiance et à répondre aux exigences réglementaires. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Lorsque plusieurs événements opérationnels ont lieu simultanément, il est essentiel d’adopter une approche structurée de la priorisation en fonction de l’impact et de l’urgence. Cette approche vous permet de prendre des décisions éclairées, d’orienter les efforts vers les domaines où ils sont le plus nécessaires et d’atténuer les risques pour la continuité des activités. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Mesurer l’impact :** élaborez un système de classification pour évaluer la gravité des événements en fonction de leur impact potentiel sur les opérations et les objectifs de l’entreprise. L’exemple suivant illustre les différentes catégories d’impact :     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Mesurer l’urgence :** définissez les niveaux d’urgence correspondant à la rapidité de réponse requise pour un événement, en tenant compte de facteurs tels que la sécurité, les implications financières et les Contrats de niveau de service (SLA). L’exemple suivant illustre les catégories d’urgence :     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Créez une matrice de priorisation :** 
   +  Utilisez une matrice pour associer l’impact et l’urgence, en attribuant des niveaux de priorité à différentes combinaisons. 
   +  Rendez la matrice accessible et compréhensible par tous les membres de l’équipe responsables des réponses aux événements opérationnels. 
   +  L’exemple de matrice suivant affiche la gravité des incidents en fonction de leur urgence et de leur impact :     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Former et communiquer :** formez les équipes de réponse à la matrice de priorisation et à l’importance de la suivre lors d’un événement. Communiquez le processus de priorisation à toutes les parties prenantes afin de définir des attentes claires. 

1.  **Intégrez la matrice à la gestion des réponses aux incidents :** 
   +  Intégrez la matrice de priorisation à vos plans et outils de réponse aux incidents. 
   +  Automatisez la classification et la hiérarchisation des événements dans la mesure du possible afin d’accélérer les temps de réponse. 
   +  Les clients du support aux entreprises peuvent utiliser la [détection et la réponse aux incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), qui fournissent une surveillance proactive continue et une gestion des incidents pour les charges de travail de production. 

1.  **Examiner et adapter :** passez régulièrement en revue l’efficacité du processus de priorisation et apportez des ajustements en fonction des commentaires et de l’évolution de l’environnement métier. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS03-BP03 L'escalade est encouragée](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Mesure des objectifs opérationnels et des KPI à l’aide de métriques](ops_operations_health_measure_ops_goals_kpis.md) 

 **Documents connexes :** 
+ [ Atlassian – Understanding incident severity levels ](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [ IT Process Map - Checklist Incident Priority ](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Définir l’acheminement hiérarchique
<a name="ops_event_response_define_escalation_paths"></a>

Définissez des procédures de remontée claires dans vos protocoles de réponse aux incidents afin de faciliter une action rapide et efficace. Il s’agit entre autres de spécifier les invites à la remontée, de détailler le processus de remontée et d’approuver au préalable les actions visant à accélérer la prise de décision et à réduire le délai moyen de résolution (MTTR).

 **Résultat escompté :** un processus structuré et efficace qui transmet les incidents au personnel approprié, minimisant ainsi les temps de réponse et l’impact. 

 **Anti-modèles courants :** 
+ Le manque de clarté des procédures de récupération entraîne des interventions improvisées lors d’incidents critiques.
+ L’absence d’autorisations et de propriétaires définis entraîne des retards lorsqu’une action urgente est nécessaire.
+  Les parties prenantes et les clients ne sont pas informés conformément aux attentes. 
+  Les décisions importantes sont reportées. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réponse rationalisée aux incidents grâce à des procédures de remontée prédéfinies. 
+  Réduction des temps d’arrêt grâce à des actions préapprouvées et à la définition claire d’un propriétaire. 
+  Meilleure allocation des ressources et ajustements du niveau d’assistance en fonction de la gravité de l’incident. 
+  Meilleure communication avec les parties prenantes et les clients. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Il est crucial de définir correctement les procédures de remontée pour répondre rapidement aux incidents. AWS Systems Manager Incident Manager prend en charge la mise en place de plans de remontée structurés et de calendriers d’astreinte, qui alertent le personnel concerné afin qu’il soit prêt à intervenir en cas d’incident. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Configurer des invites d’escalade :** configurez des [alarmes CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) pour créer un incident dans [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  **Configurez des horaires d’astreinte :** créez des [horaires d’astreinte](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) dans Incident Manager qui correspondent à vos trajectoires d’escalade. Dotez le personnel d’astreinte des autorisations et des outils nécessaires afin de lui permettre d’agir rapidement. 

1.  **Détaillez les procédures de remontée :** 
   +  Déterminez les conditions spécifiques dans lesquelles un incident doit faire l’objet d’une remontée. 
   +  Créez des [plans d’escalade](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) dans Incident Manager. 
   +  Les canaux de remontée doivent inclure un contact ou un calendrier d’astreinte. 
   +  Définissez les rôles et les responsabilités de l’équipe à chaque niveau de la remontée. 

1.  **Approuver au préalable les mesures d’atténuation :** collaborez avec les décisionnaires pour approuver au préalable les actions associées aux scénarios prévus. Utilisez les [runbooks Systems Manager Automation](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) intégrés à Incident Manager pour accélérer la résolution des incidents. 

1.  **Préciser la propriété :** identifiez clairement les propriétaires internes pour chaque étape de la procédure de remontée. 

1.  **Détaillez les remontées par des tiers :** 
   +  Documentez les Contrats de niveau de service (SLA) tiers et alignez-les sur les objectifs internes. 
   +  Définissez des protocoles clairs pour la communication avec les fournisseurs lors d’incidents. 
   +  Intégrez les contacts des fournisseurs dans les outils de gestion des incidents pour un accès direct. 
   +  Effectuez régulièrement des exercices qui incluent des scénarios de réponse par des tiers. 
   +  Documentez les informations relatives à la remontée fournisseurs et veillez à ce qu’elles soient facilement accessibles. 

1.  **Former et répéter les plans d’escalade :** formez votre équipe à la procédure de remontée et organisez régulièrement des exercices de réponse aux incidents ou des journées de jeu. Les clients du support aux entreprises peuvent demander [l’atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) auprès de leur responsable de compte technique. 

1.  **Améliorer sans cesse :** vérifiez régulièrement l’efficacité de vos procédures de remontée. Mettez à jour vos procédures en fonction des leçons tirées des analyses post-mortem des incidents et des commentaires fournis en continu. 

 **Niveau d’effort du plan d’implémentation :** modéré 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Disposer d’un processus par alerte](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) 

 **Documents connexes :** 
+ [Plans de remontée AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [Utilisation des horaires d’astreinte dans Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [Création et gestion des Runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [Gestion des accès temporaires élevés avec AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [ Atlassian - Politiques d’escalade pour une gestion efficace des incidents](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Définissez un plan de communication avec les clients en cas d’interruption de service
<a name="ops_event_response_push_notify"></a>

 Il est essentiel de mettre en place une communication efficace lors d’événements ayant un impact sur le service afin de préserver la confiance des clients et la transparence dont vous faites preuve à leur égard. Un plan de communication bien défini permet à votre organisation de partager rapidement et clairement des informations, à la fois en interne et en externe, lors d’incidents. 

 **Résultat escompté :** 
+  Un plan de communication robuste qui informe efficacement les clients et les parties prenantes lors d’événements ayant un impact sur le service. 
+  Transparence dans la communication pour renforcer la confiance et réduire l’anxiété des clients. 
+  Minimiser l’impact des événements ayant un impact sur le service du point de vue de l’expérience client et des opérations métier. 

 **Anti-modèles courants :** 
+  Une communication inadéquate ou retardée entraîne de la confusion et de l’insatisfaction chez les clients. 
+  Les messages trop techniques ou trop vagues ne reflètent pas l’impact réel sur les utilisateurs. 
+  Il n’existe pas de stratégie de communication prédéfinie, ce qui entraîne des messages incohérents et réactifs. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Confiance et satisfaction accrues des clients grâce à une communication proactive et claire. 
+  Réduction de la charge de travail des équipes d’assistance en répondant de manière préventive aux préoccupations des clients. 
+  Amélioration de la capacité à gérer les incidents et à récupérer de manière efficace. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 La création d’un plan de communication complet pour les événements ayant un impact sur les services implique plusieurs facettes, du choix des canaux appropriés à l’élaboration du message et du ton adéquats. Le plan doit être adaptable, doté d’une capacité de mise à l’échelle et pouvoir répondre à différents scénarios de panne. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Définissez les rôles et les responsabilités :** 
   +  Désignez un responsable des incidents majeurs qui sera chargé de superviser les activités de réponse aux incidents. 
   +  Désignez un responsable des communications chargé de coordonner toutes les communications externes et internes. 
   +  Incluez le responsable de l’assistance afin d’établir une communication cohérente par le biais de tickets d’assistance. 

1.  **Identifier les canaux de communication :** sélectionnez des canaux tels que le chat sur le lieu de travail, les e-mails, les SMS, les réseaux sociaux, les notifications intégrées à l’application et les pages de statut. Ces canaux doivent être résilients et capables de fonctionner de manière indépendante lors d’événements ayant un impact sur le service. 

1.  **Communiquez rapidement, clairement et régulièrement avec les clients :** 
   +  Élaborez des modèles pour divers scénarios de détérioration des services, en mettant l’accent sur la simplicité et les détails essentiels. Incluez des informations sur la perturbation du service, le délai de résolution prévu et l’impact. 
   +  Amazon Pinpoint vous permet d’alerter les clients à l’aide de notifications push, de notifications in-app, d’e-mails, de messages texte, de messages vocaux et de messages sur des canaux personnalisés. 
   +  Amazon Simple Notiﬁcation Service (Amazon SNS) vous permet d’alerter les abonnés de manière programmée ou par courrier électronique, notifications mobiles push et messages textuels. 
   +  Communiquez votre statut par le biais de tableaux de bord en partageant un tableau de bord Amazon CloudWatch publiquement. 
   +  Encouragez l’engagement sur les réseaux sociaux : 
     +  Surveillez activement les réseaux sociaux pour comprendre le sentiment des clients. 
     +  Publiez sur les plateformes de réseaux sociaux pour les mises à jour publiques et un engagement communautaire. 
     +  Préparez des modèles pour une communication cohérente et claire sur les réseaux sociaux. 

1.  **Coordonnez la communication interne :** mettez en œuvre des protocoles internes à l’aide d’outils comme Amazon Q Developer dans les applications de chat pour la coordination et la communication de l’équipe. Les tableaux de bord CloudWatch vous permettent de communiquer le statut. 

1.  **Orchestrez la communication à l’aide d’outils et de services dédiés :** 
   +  Utilisez AWS Systems Manager Incident Manager avec Amazon Q Developer dans les applications de chat afin de configurer des canaux de chat dédiés pour une communication interne en temps réel et une coordination pendant les incidents. 
   +  Utilisez les dossiers d’exploitation AWS Systems Manager Incident Manager pour automatiser les notifications transmises aux clients via Amazon Pinpoint, Amazon SNS ou des outils tiers tels que les plateformes de réseaux sociaux lors d’incidents. 
   +  Intégrez des flux de travail d’approbation dans les dossiers d’exploitation pour, si nécessaire, examiner et autoriser toutes les communications externes avant leur envoi. 

1.  **Entraînez-vous et améliorez les processus :** 
   +  Organisez une formation sur l’utilisation des outils et des stratégies de communication. Donnez aux équipes les moyens de prendre des décisions rapidement en cas d’incident. 
   +  Testez le plan de communication lors d’exercices réguliers ou de journées de jeu. Utilisez ces tests pour affiner les messages et évaluer l’efficacité des canaux. 
   +  Mettez en œuvre des mécanismes de commentaires pour évaluer l’efficacité de la communication lors d’incidents. Faites évoluer continuellement le plan de communication en fonction des commentaires et de l’évolution des besoins. 

 **Niveau d’effort du plan d’implémentation :** élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS07-BP03 Utilisation de runbooks pour effectuer des procédures](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Communiquer l’état grâce aux tableaux de bord](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) 

 **Documents connexes :** 
+ [ Atlassian – Bonnes pratiques en matière de communication sur les incidents](https://www.atlassian.com/incident-management/incident-communication)
+ [ Atlassian – Comment rédiger une bonne mise à jour de statut](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [ PagerDuty – Guide des communications en cas d’incident](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Vidéos connexes :** 
+ [Atlassian – Créez votre propre plan de communication en cas d’incident : modèles d’incidents](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Exemples connexes :** 
+  [Tableau de bord AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Communiquer l’état grâce aux tableaux de bord
<a name="ops_event_response_dashboards"></a>

 Utilisez les tableaux de bord comme outil stratégique pour communiquer l’état opérationnel en temps réel et les métriques clés à différents publics, y compris aux équipes techniques internes, à la direction et aux clients. Ces tableaux de bord offrent une représentation visuelle centralisée de l’intégrité du système et des performances de l’entreprise, améliorant ainsi la transparence et l’efficacité de la prise de décision. 

 **Résultat escompté :** 
+  Vos tableaux de bord fournissent une vue complète des métriques système et métier pour les différentes parties prenantes. 
+  Les parties prenantes peuvent accéder de manière proactive aux informations opérationnelles, ce qui réduit la nécessité d’effectuer fréquemment des demandes de statut. 
+  La prise de décision en temps réel est améliorée pendant les opérations normales et les incidents. 

 **Anti-modèles courants :** 
+ Les ingénieurs participant à un appel de gestion des incidents ont besoin de mises à jour du statut pour être opérationnels.
+ Faire confiance à des rapports manuels pour la gestion, ce qui entraîne des retards et des inexactitudes potentielles.
+  Les équipes opérationnelles sont fréquemment interrompues pour des mises à jour de statut lors d’incidents. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Donne aux parties prenantes un accès immédiat aux informations critiques, favorisant ainsi la prise de décisions réfléchies. 
+  Réduit les inefficacités opérationnelles en minimisant les rapports manuels et en limitant la fréquence des demandes de statut. 
+  Améliore la transparence et la confiance grâce à une visibilité en temps réel des performances du système et des métriques métier. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Les tableaux de bord communiquent efficacement le statut de vos métriques système et métier, et peuvent être adaptés aux besoins des différents groupes d’audience. Des outils tels que les tableaux de bord Amazon CloudWatch et Amazon Quick vous permettent de créer des tableaux de bord interactifs en temps réel pour la surveillance du système et la veille économique. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Identifier les besoins des parties prenantes :** déterminez les besoins d’informations spécifiques des différents groupes d’audience, tels que les équipes techniques, la direction et les clients. 

1.  ** Choisissez les bons outils :** sélectionnez les outils appropriés, tels que les [tableaux de bord Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) pour la surveillance du système et [Amazon Quick](https://aws.amazon.com/quicksight/) pour la veille stratégique interactive. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) fournit une expérience prête à l’emploi dans le [Tableau de bord AWS Health](https://health.aws.amazon.com/health/home), ou vous pouvez utiliser les événements d’intégrité dans Amazon EventBridge ou via l’API AWS Health pour enrichir vos propres tableaux de bord. 

1.  **Concevez des tableaux de bord efficaces:** 
   +  Concevez des tableaux de bord pour présenter clairement les métriques et les KPI pertinents, en veillant à ce qu’ils soient compréhensibles et exploitables. 
   +  Intégrez des vues au niveau du système et de l’entreprise selon les besoins. 
   +  Incluez des tableaux de bord globaux (pour les vues d’ensemble) et détaillés (pour une analyse approfondie). 
   +  Intégrez des alarmes automatisées dans les tableaux de bord pour mettre en évidence les problèmes critiques. 
   +  Annotez les tableaux de bord avec des métriques, des seuils et des objectifs importants pour une visibilité immédiate. 

1.  **Intégrez les sources de données:** 
   +  [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) vous permet d’agréger et d’afficher les métriques de différents services AWS et [d’interroger les métriques provenant d’autres sources de données](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), afin de créer une vue unifiée de l’état de santé et des indicateurs commerciaux de votre système. 
   +  Utilisez des fonctionnalités telles que [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) pour interroger et visualiser les données des journaux provenant de différents services et applications. 
   +  Utilisez les événements AWS Health pour rester informé de l’état opérationnel et des problèmes opérationnels confirmés des services AWS via l’[API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) ou les [événements AWS Health sur Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Fournissez un accès en libre-service:** 
   +  Partagez des tableaux de bord CloudWatch avec les parties prenantes concernées pour accéder aux informations en libre-service à l’aide des [fonctionnalités de partage des tableaux de bord](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Assurez-vous que les tableaux de bord sont facilement accessibles et fournissent des informations actualisées en temps réel. 

1.  **Mettez à jour et affinez régulièrement:** 
   +  Mettez à jour et affinez continuellement les tableaux de bord pour les adapter à l’évolution des besoins de l’entreprise et aux commentaires des parties prenantes. 
   +  Passez régulièrement en revue les tableaux de bord afin qu’ils restent pertinents et efficaces pour transmettre les informations nécessaires. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS08-BP05 Création de tableaux de bord](ops_workload_observability_create_dashboards.md) 

 **Documents connexes:** 
+ [ Création de tableaux de bord pour une visibilité opérationnelle ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Utilisation des tableaux de bord Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Créer des tableaux de bord flexibles avec des variables de tableau de bord ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Partage de tableaux de bord CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Interrogation de métriques d’autres sources de données ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Ajout d’un widget personnalisé à un tableau de bord CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Exemples connexes:** 
+ [ Un atelier sur l’observabilité – Tableaux de bord ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatiser les réponses aux événements
<a name="ops_event_response_auto_event_response"></a>

 L’automatisation des réponses aux événements est essentielle pour une gestion opérationnelle rapide, cohérente et sans erreur. Créez des processus rationalisés et utilisez des outils pour gérer et répondre automatiquement aux événements, en minimisant les interventions manuelles et en améliorant l’efficacité opérationnelle. 

 **Résultat escompté :** 
+  Réduction des erreurs humaines et accélération des temps de résolution grâce à l’automatisation. 
+  Gestion cohérente et fiable des événements opérationnels. 
+  Amélioration de l’efficacité opérationnelle et de la fiabilité du système. 

 **Anti-modèles courants :** 
+ La gestion manuelle des événements entraîne des retards et des erreurs.
+ L’automatisation est négligée pour les tâches critiques et répétitives.
+  Les tâches manuelles répétitives entraînent une lassitude liée aux alertes et peuvent nuire à la détection de problèmes critiques. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Réponses accélérées aux événements, réduisant ainsi les temps d’arrêt du système. 
+  Des opérations fiables avec une gestion automatisée et cohérente des événements. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Intégrez l’automatisation pour créer des flux de travail opérationnels efficaces et minimiser les interventions manuelles. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  **Identification des opportunités d’automatisation :** déterminez les tâches répétitives à automatiser, telles que la résolution des problèmes, l’enrichissement des tickets, la gestion des capacités, la mise à l’échelle, les déploiements et les tests. 

1.  **Identification des invites d’automatisation :** 
   +  Évaluez et définissez des conditions ou des métriques spécifiques qui déclenchent des réponses automatisées à l'aide des [actions CloudWatch d'alarme Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Utilisez [Amazon EventBridge](https://aws.amazon.com/eventbridge/) pour répondre aux événements liés aux AWS services, aux charges de travail personnalisées et aux applications SaaS. 
   +  Tenez compte des événements d'initiation tels que [des entrées de journal spécifiques](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [des seuils de mesures de performance](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) ou [des changements d'état](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) des AWS ressources. 

1.  **Mise en œuvre d’une automatisation pilotée par les événements :** 
   +  Utilisez les runbooks AWS Systems Manager d'automatisation pour simplifier les tâches de maintenance, de déploiement et de correction. 
   +  [La création d'incidents dans Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) permet de collecter et d'ajouter automatiquement des informations sur les AWS ressources impliquées dans l'incident. 
   +  Surveillez les quotas de manière proactive à l’aide de [Quota Monitor pour AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Ajustez automatiquement la capacité avec [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) pour maintenir la disponibilité et les performances. 
   +  Automatisez les pipelines de développement avec [Amazon CodeCatalyst](https://codecatalyst.aws/explore). 
   +  Testez la fumée ou surveillez en permanence les terminaux à APIs [l'aide d'une surveillance synthétique](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). 

1.  **Atténuation des risques grâce à l’automatisation :** 
   +  Utilisez des [réponses de sécurité automatisées](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) pour gérer rapidement les risques. 
   +  Utilisez [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) pour réduire la dérive de configuration. 
   +  [Corrigez les ressources non conformes](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) avec. AWS Config Rules

 **Niveau d’effort du plan d’implémentation :** élevé 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS08-BP04 Création d’alertes exploitables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Disposer d’un processus par alerte](ops_event_response_process_per_alert.md) 

 **Documents connexes :** 
+  [Utilisation des runbooks d’automatisation Systems Manager avec Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Création d’incidents dans Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [AWS quotas de service](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Contrôle de l’utilisation des ressources et envoi de notifications lorsque les quotas sont atteints](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [Qu'est-ce qu'Amazon CodeCatalyst ?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Utilisation des CloudWatch alarmes Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Utilisation des actions CloudWatch d'alarme Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Corriger les ressources non conformes avec AWS Config Rules](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Création de métriques à partir d’événements du journal à l’aide de filtres](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [Gestionnaire d’états AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Vidéos connexes :** 
+ [Créez des runbooks d'automatisation avec AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [Comment automatiser les opérations informatiques sur AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM règles d'automatisation](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Démarrez rapidement votre projet logiciel avec les CodeCatalyst plans Amazon](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Exemples connexes :** 
+ [ CodeCatalyst Tutoriel Amazon : Création d'un projet avec le plan d'application Web moderne à trois niveaux](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [Un atelier sur l’observabilité](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [Réaction aux incidents à l’aide d’Incident Manager](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)

# Évolution
<a name="a-evolve"></a>

**Topics**
+ [

# OPS 11. Comment faire évoluer vos opérations ?
](ops-11.md)

# OPS 11. Comment faire évoluer vos opérations ?
<a name="ops-11"></a>

 Consacrez du temps et des ressources à l’amélioration incrémentielle presque continue pour contribuer à l’évolution de l’efficacité et de l’efficience de vos opérations. 

**Topics**
+ [

# OPS11-BP01 Définir un processus d’amélioration continue
](ops_evolve_ops_process_cont_imp.md)
+ [

# OPS11-BP02 Réaliser une analyse post-incident
](ops_evolve_ops_perform_rca_process.md)
+ [

# OPS11-BP03 Implémenter des boucles de rétroaction
](ops_evolve_ops_feedback_loops.md)
+ [

# OPS11-BP04 Effectuer la gestion des connaissances
](ops_evolve_ops_knowledge_management.md)
+ [

# OPS11-BP05 Définition de facteurs d’amélioration
](ops_evolve_ops_drivers_for_imp.md)
+ [

# OPS11-BP06 Valider les informations
](ops_evolve_ops_validate_insights.md)
+ [

# OPS11-BP07 Réaliser des examens des métriques opérationnelles
](ops_evolve_ops_metrics_review.md)
+ [

# OPS11-BP08 Documenter et partager les enseignements
](ops_evolve_ops_share_lessons_learned.md)
+ [

# OPS11-BP09 Allouez du temps pour apporter des améliorations
](ops_evolve_ops_allocate_time_for_imp.md)

# OPS11-BP01 Définir un processus d’amélioration continue
<a name="ops_evolve_ops_process_cont_imp"></a>

 Évaluez votre charge de travail par rapport aux bonnes pratiques d’architecture internes et externes. Réalisez des examens fréquents et intentionnels de la charge de travail. Priorisez les opportunités d’amélioration dans la cadence de développement de votre logiciel. 

 **Résultat escompté :** 
+  Vous analysez fréquemment votre charge de travail par rapport aux bonnes pratiques d’architecture. 
+  Vous accordez aux opportunités d’amélioration une priorité égale aux fonctionnalités dans votre processus de développement logiciel. 

 **Anti-modèles courants :** 
+  Vous n’avez pas vérifié l’architecture de votre charge de travail depuis qu’elle a été déployée il y a plusieurs années. 
+  Vous accordez une moindre priorité aux opportunités d’amélioration. Par rapport aux nouvelles fonctionnalités, ces opportunités restent en suspens. 
+  Il n’existe aucune norme pour mettre en œuvre des modifications issues des bonnes pratiques pour l’organisation. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Votre charge de travail est conforme aux bonnes pratiques d’architecture. 
+  Vous faites évoluer votre charge de travail de manière intentionnelle. 
+  Vous pouvez tirer profit des bonnes pratiques de l’organisation pour améliorer toutes les charges de travail. 
+  Vous réalisez des gains marginaux qui ont un impact cumulatif, ce qui permet de gagner en efficacité. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Réalisez fréquemment un examen architectural de votre charge de travail. Utilisez les bonnes pratiques internes et externes, évaluez votre charge de travail et identifiez les opportunités d’amélioration. Priorisez les opportunités d’amélioration dans la cadence de développement de votre logiciel. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Réalisez des examens périodiques de l’architecture de votre charge de travail de production à une fréquence convenue. Utilisez une norme d’architecture documentée qui comprend des bonnes pratiques spécifiques à AWS. 

   1.  Utilisez vos normes définies en interne pour ces évaluations. Si vous n’avez pas de norme interne, utilisez AWS Well-Architected Framework. 

   1.  AWS Well-Architected Tool vous permet de créer une perspective personnalisée de vos bonnes pratiques internes et d’effectuer un examen de votre architecture. 

   1.  Contactez votre architecte de solutions ou votre responsable technique des comptes AWS pour effectuer une révision guidée du Well-Architected Framework de votre charge de travail. 

1.  Priorisez les opportunités d’amélioration identifiées pendant la vérification au sein de votre processus de développement logiciel. 

 **Niveau d’effort du plan d’implémentation :** faible Vous pouvez utiliser le cadre AWS Well-Architected pour réaliser la vérification annuelle de votre architecture. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS11-BP02 Effectuer une analyse post-incident](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) 
+  [OPS11-BP08 Documenter et partager des enseignements](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_share_lessons_learned.html) 
+  [OPS04 Mettez en œuvre l’observabilité](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_process_cont_imp.html) 

 **Documents connexes :** 
+  [AWS Well-Architected Tool – Approches personnalisées](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [AWSLivre blanc Well-Architected – Le processus de révision](https://docs.aws.amazon.com/wellarchitected/latest/framework/the-review-process.html) 
+  [Personnalisez les critiques de Well-Architected à l’aide de lentilles personnalisées et AWS Well-Architected Tool](https://aws.amazon.com/blogs/mt/customize-well-architected-reviews-using-custom-lenses-and-the-aws-well-architected-tool/) 
+  [Mettre en œuvre le cycle de AWS vie de Well-Architected Custom Lens dans votre organisation](https://aws.amazon.com/blogs/architecture/implementing-the-aws-well-architected-custom-lens-lifecycle-in-your-organization/) 

 **Vidéos connexes :** 
+  [AWS re:Invent 2023 - Scaling AWS Well-Architected best practices across your organization](https://youtu.be/UXtZCoE9qfQ?si=OPATCOY2YAwiF2TS) 

 **Exemples connexes :** 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS11-BP02 Réaliser une analyse post-incident
<a name="ops_evolve_ops_perform_rca_process"></a>

 Examinez les événements ayant un impact sur les clients et identifiez les facteurs contributifs et les actions préventives. Utilisez ces informations pour développer des mesures d’atténuation afin de limiter ou d’empêcher la récurrence. Développez des procédures pour fournir des réponses rapides et efficaces. Publiez, le cas échéant, les facteurs adjuvants et les mesures correctives adaptées au public ciblé. 

 **Résultat escompté :** 
+  Vous avez mis en place des processus de gestion des incidents qui incluent une analyse post-incident. 
+  Vous avez mis en place des plans d’observabilité pour collecter des données sur les événements. 
+  Grâce à ces données, vous comprenez et vous collectez des métriques qui soutiennent votre processus d’analyse post-incident. 
+  Vous tirez des leçons des incidents pour améliorer les résultats futurs. 

 **Anti-modèles courants :** 
+  Vous administrez un serveur d’applications. Toutes vos séances actives sont interrompues toutes les 23 heures et 55 minutes environ. Vous avez essayé d’identifier le problème sur votre serveur d’applications. Vous pensez qu’il pourrait s’agir d’un problème de réseau, mais vous ne pouvez pas obtenir la coopération de l’équipe réseau, car elle est trop occupée pour vous aider. Vous n’avez pas de processus prédéfini à suivre pour obtenir de l’aide et collecter les informations nécessaires pour déterminer ce qui se passe. 
+  Vous avez subi une perte de données au sein de votre charge de travail. C’est la première fois que cela se produit et la cause n’est pas évidente. Vous décidez que ce n’est pas important, car vous pouvez recréer les données. La perte de données se reproduit plus fréquemment en affectant vos clients. Vous devez également faire face à une charge opérationnelle supplémentaire lorsque vous restaurez les données manquantes. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Vous disposez d’un processus prédéfini pour déterminer les composants, les conditions, les actions et les événements qui ont contribué à un incident, ce qui vous permet d’identifier les possibilités d’amélioration. 
+  Vous utilisez les données issues de l’analyse post-incident pour apporter des améliorations. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Utilisez un processus pour déterminer les facteurs adjuvants. Passez en revue tous les incidents ayant un impact sur le client. Dotez-vous d’un processus pour identifier et documenter les facteurs contributifs d’un incident afin de pouvoir mettre au point des mesures d’atténuation pour limiter ou empêcher la récurrence, et élaborez des procédures pour fournir des réponses rapides et efficaces. Communiquez les causes profondes des incidents, le cas échéant, et adaptez la communication à votre public cible. Partagez ouvertement les apprentissages au sein de votre organisation. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

1.  Collectez des métriques telles que le changement de déploiement, le changement de configuration, l’heure de début de l’incident, l’heure d’alarme, l’heure d’engagement, l’heure de début de l’atténuation et l’heure de résolution de l’incident. 

1.  Décrivez les principaux moments de la chronologie pour comprendre les événements de l’incident. 

1.  Posez les questions suivantes : 

   1.  Pourriez-vous améliorer le délai de détection ? 

   1.  Existe-t-il des mises à jour des métriques et des alarmes qui permettraient de détecter l’incident plus rapidement ? 

   1.  Pouvez-vous améliorer le délai de diagnostic ? 

   1.  Existe-t-il des mises à jour de vos plans de réponse ou de vos plans d’escalade qui permettraient d’impliquer plus rapidement les bons intervenants ? 

   1.  Pouvez-vous améliorer le délai d’atténuation ? 

   1.  Existe-t-il des étapes du runbook ou du playbook que vous pourriez ajouter ou améliorer ? 

   1.  Pouvez-vous éviter que de futurs incidents se produisent ? 

1.  Créez des listes de contrôle et des actions. Suivez et mettez en œuvre toutes les actions. 

 **Niveau d’effort du plan d’implémentation :** faible 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS11-BP01 Définir un processus d’amélioration continue](ops_evolve_ops_process_cont_imp.md) 
+ [OPS4 - Mettre en œuvre l'observabilité](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html)

 **Documents connexes :** 
+  [Performing a post-incident analysis in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html) 
+  [Examen de l’état de préparation opérationnelle](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 

# OPS11-BP03 Implémenter des boucles de rétroaction
<a name="ops_evolve_ops_feedback_loops"></a>

Les boucles de commentaires fournissent des informations exploitables qui orientent la prise de décision. Créez des boucles de commentaires dans vos procédures et vos charges de travail. Elles vous permettent d’identifier les problèmes et les points à améliorer. Elles valident également les investissements dans les améliorations. Ces boucles de commentaires sont à la base de l’amélioration continue de votre charge de travail.

 Les boucles de commentaires se répartissent en deux catégories : les *commentaires immédiats* et l’*analyse rétrospective*. Les commentaires immédiats sont collectés via l’examen des performances et des résultats des activités opérationnelles. Ces commentaires proviennent des membres de l’équipe, des clients ou de la sortie automatisée de l’activité. Les commentaires immédiats proviennent notamment de tests A/B et de la mise à disposition de nouvelles fonctionnalités, et sont essentiels à l’interruption immédiate. 

 Les analyses rétrospectives doivent être effectuées régulièrement pour recueillir des rétroactions concernant l’évaluation des métriques et des résultats opérationnels au fil du temps. Ces analyses rétrospectives se déroulent à la fin d’un sprint, sur une cadence, ou après des versions ou des événements majeurs. Ce type de boucle de rétroaction valide les investissements dans les opérations ou votre charge de travail. Il vous permet de mesurer la réussite et valide votre stratégie. 

 **Résultat escompté :** les commentaires immédiats et les analyses rétrospectives permettent d’apporter des améliorations. Il existe un mécanisme pour recueillir les commentaires des utilisateurs et des membres de l’équipe. Les analyses rétrospectives sont utilisées pour déterminer les tendances qui entraînent des améliorations. 

 **Anti-modèles courants :** 
+ Vous lancez une nouvelle fonctionnalité, mais vous n’avez aucun moyen de recevoir les commentaires des clients à ce sujet.
+ Après avoir investi dans des améliorations opérationnelles, vous n’effectuez pas d’analyse rétrospective pour les valider.
+ Vous recueillez les commentaires des clients, mais ne les examinez pas régulièrement.
+ Les boucles de commentaires mènent à des mesures de suivi proposées, mais elles ne sont pas incluses dans le processus de développement de logiciels.
+  Les clients ne reçoivent pas de commentaires sur les améliorations qu’ils ont proposées. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Vous pouvez travailler à rebours en partant du client pour générer de nouvelles fonctionnalités. 
+  Votre culture organisationnelle peut réagir plus rapidement face aux changements. 
+  Les tendances sont utilisées afin d’identifier des possibilités d’amélioration. 
+  Les analyses rétrospectives valident les investissements effectués dans votre charge de travail et vos opérations. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 L’implémentation de cette bonne pratique signifie que vous utilisez à la fois les commentaires immédiats et les analyses rétrospectives. Ces boucles de commentaires stimulent les améliorations. Il existe de nombreux mécanismes de commentaires immédiats, notamment des enquêtes, des sondages auprès des clients ou des formulaires de commentaires. Votre organisation utilise également des analyses rétrospectives afin d’identifier les possibilités d’amélioration et de valider les initiatives. 

 **Exemple client** 

 AnyCompany Retail a créé un formulaire Web dans lequel les clients peuvent donner leur avis ou signaler des problèmes. Au cours de la mêlée hebdomadaire, les commentaires des utilisateurs sont évalués par l’équipe de développement logiciel. Les commentaires sont régulièrement utilisés pour orienter l’évolution de la plateforme de l’entreprise. Les utilisateurs effectuent une analyse rétrospective à la fin de chaque sprint afin d’identifier les éléments qu’elle souhaite améliorer. 

## Étapes d’implémentation
<a name="implementation-steps"></a>

1. Commentaires immédiats
   +  Vous avez besoin d’un mécanisme pour recevoir les commentaires des clients et des membres de l’équipe. Vos activités opérationnelles peuvent également être configurées de façon à fournir des commentaires automatisés. 
   +  Votre organisation a besoin d’un processus pour examiner ces commentaires, déterminer ce qui doit être amélioré et planifier l’amélioration. 
   +  Les commentaires doivent être ajoutés à votre processus de développement logiciel. 
   +  Lorsque vous apportez des améliorations, effectuez un suivi auprès de l’auteur des commentaires. 
     +  Vous pouvez l'utiliser [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html)pour créer et suivre ces améliorations en tant que [OpsItems](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter-working-with-OpsItems.html).

1.  Analyse rétrospective 
   +  Effectuez des analyses rétrospectives à la fin d’un cycle de développement, sur une cadence définie ou après une version majeure. 
   +  Réunissez les parties prenantes impliquées dans la charge de travail pour une réunion rétrospective. 
   +  Créez trois colonnes sur un tableau blanc ou une feuille de calcul : Arrêter, Commencer et Conserver. 
     +  La colonne *Arrêter* comportera tout ce que votre équipe doit arrêter de faire. 
     +  La colonne *Commencer* comportera tout ce que votre équipe doit commencer à faire. 
     +  La colonne *Conserver* comportera tout ce que vous souhaitez continuer à faire. 
   +  Faites le tour de la salle et recueillez les commentaires des parties prenantes. 
   +  Privilégiez les commentaires. Attribuez les actions et les parties prenantes aux points que vous souhaitez commencer ou conserver. 
   +  Ajoutez les actions à votre processus de développement logiciel et communiquez les mises à jour de statut aux parties prenantes à mesure que vous apportez les améliorations. 

 **Niveau d’effort du plan d’implémentation :** moyen. Pour implémenter cette bonne pratique, vous avez besoin d’une solution pour recevoir des commentaires immédiats et effectuer une analyse. En outre, vous devez établir un processus d’analyse rétrospective. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS01-BP01 Évaluer les besoins des clients externes](ops_priorities_ext_cust_needs.md) : les boucles de commentaires sont un mécanisme qui permet de recueillir les besoins des clients externes. 
+  [OPS01-BP02 Évaluer les besoins des clients internes](ops_priorities_int_cust_needs.md) : les parties prenantes internes peuvent utiliser les boucles de rétroaction afin de communiquer les besoins et les exigences. 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) : les analyses post-incident sont une forme importante d’analyse rétrospective menée après les incidents. 
+  [OPS11-BP07 Réaliser des examens des métriques opérationnelles](ops_evolve_ops_metrics_review.md) : les examens des métriques opérationnelles permettent d’identifier les tendances et les points à améliorer. 

 **Documents connexes :** 
+  [7 pièges à éviter lors de la construction d'un CCOE](https://aws.amazon.com/blogs/enterprise-strategy/7-pitfalls-to-avoid-when-building-a-ccoe/) 
+  [Atlassian Team Playbook – Retrospectives](https://www.atlassian.com/team-playbook/plays/retrospective) 
+  [Email Definitions: Feedback Loops](https://aws.amazon.com/blogs/messaging-and-targeting/email-definitions-feedback-loops/) 
+  [Établissement de boucles de rétroaction basées sur la révision du AWS cadre Well-Architected](https://aws.amazon.com/blogs/architecture/establishing-feedback-loops-based-on-the-aws-well-architected-framework-review/) 
+  [IBMMéthodologie du garage - Organisez une rétrospective](https://www.ibm.com/garage/method/practices/learn/practice_retrospective_analysis/) 
+  [Investopedia — Le cycle PDCS](https://www.investopedia.com/terms/p/pdca-cycle.asp) 
+  [Maximizing Developer Effectiveness by Tim Cochran](https://martinfowler.com/articles/developer-effectiveness.html) 
+  [Livre blanc sur les examens de l'état de préparation des opérations (ORR) - Itération](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 
+  [ITILCSI- Amélioration continue du service](https://wiki.en.it-processmaps.com/index.php/ITIL_CSI_-_Continual_Service_Improvement)
+  [When Toyota met e-commerce: Lean at Amazon](https://www.mckinsey.com/capabilities/operations/our-insights/when-toyota-met-e-commerce-lean-at-amazon) 

 **Vidéos connexes :** 
+  [Building Effective Customer Feedback Loops](https://www.youtube.com/watch?v=zz_VImJRZ3U) 

 **Exemples connexes :** 
+  [Astuto - Open source customer feedback tool](https://github.com/riggraz/astuto) 
+  [AWS Solutions - Q nABot on AWS](https://aws.amazon.com/solutions/implementations/qnabot-on-aws/) 
+  [Fider - A platform to organize customer feedback](https://github.com/getfider/fider) 

 **Services connexes :** 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS11-BP04 Effectuer la gestion des connaissances
<a name="ops_evolve_ops_knowledge_management"></a>

La gestion des connaissances aide les membres de l’équipe à trouver les informations nécessaires à l’accomplissement de leur tâche. Dans les organisations qui fonctionnent selon le principe de l’apprentissage, les informations sont librement partagées, ce qui donne du pouvoir aux individus. Les informations peuvent être découvertes ou recherchées. Les informations sont exactes et à jour. Il existe des mécanismes permettant de générer de nouvelles informations, de mettre à jour les informations existantes et d’archiver les informations obsolètes. L’exemple le plus courant de plateforme de gestion des connaissances est un système de gestion de contenu comme un wiki. 

 **Résultat escompté :** 
+  Les membres de l’équipe ont accès à des informations précises et opportunes. 
+  Les informations sont consultables. 
+  Il existe des mécanismes pour ajouter, mettre à jour et archiver des informations. 

 **Anti-modèles courants :** 
+ Il n’y a pas de stockage centralisé des connaissances. Les membres de l’équipe gèrent leurs propres notes sur leurs machines locales.
+  Vous disposez d’un wiki auto-hébergé mais ne disposez d’aucun mécanisme de gestion des informations, ce qui se traduit par des informations obsolètes. 
+  Quelqu’un identifie des informations manquantes mais il n’existe aucun processus pour demander leur ajout dans le wiki de l’équipe. Cette personne l’ajoute elle-même mais manque une étape clé, ce qui entraîne une panne. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Les membres de l’équipe sont responsabilisés, car les informations sont partagées librement. 
+  Les nouveaux membres de l’équipe sont intégrés plus rapidement, car la documentation est à jour et consultable. 
+  Les informations sont opportunes, précises et exploitables. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élevé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 La gestion des connaissances est une facette importante des organisations qui fonctionnent selon le principe de l’apprentissage. Pour commencer, vous avez besoin d’un référentiel central pour stocker vos connaissances (par exemple, un wiki auto-hébergé). Vous devez développer des processus pour ajouter, mettre à jour et archiver les connaissances. Développez des normes pour ce qui doit être documenté et laissez chacune et chacun contribuer. 

 **Exemple client** 

 AnyCompany Retail héberge un wiki interne où toutes les connaissances sont stockées. Les membres de l’équipe sont encouragés à enrichir la base de connaissances dans l’exercice de leurs fonctions quotidiennes. Chaque trimestre, une équipe interfonctionnelle évalue les pages les moins mises à jour et détermine si elles doivent être archivées ou mises à jour. 

 **Étapes d’implémentation** 

1.  Commencez par identifier le système de gestion de contenu dans lequel les connaissances seront stockées. Obtenez l’accord des parties prenantes de votre organisation. 

   1.  Si vous ne disposez pas d’un système de gestion de contenu, envisagez d’utiliser un wiki hébergé par vos soins ou un référentiel de contrôle de version comme point de départ. 

1.  Développez des runbooks pour l’ajout, la mise à jour et l’archivage des informations. Formez votre équipe à ces processus. 

1.  Identifiez les connaissances qui doivent être stockées dans le système de gestion de contenu. Commencez par les activités quotidiennes (runbooks et playbooks) que les membres de l’équipe effectuent. Travaillez avec les parties prenantes pour prioriser les connaissances à ajouter. 

1.  Travaillez périodiquement avec les parties prenantes pour identifier les out-of-date informations et les archiver ou les mettre à jour. 

 **Niveau d’effort du plan d’implémentation :** moyen. Si vous ne disposez pas d’un système de gestion de contenu, vous pouvez mettre en place un wiki auto-hébergé ou un référentiel de documents contrôlé par version. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS11-BP08 Documenter et partager les enseignements](ops_evolve_ops_share_lessons_learned.md) : la gestion des connaissances facilite le partage des informations sur les enseignements tirés. 

 **Documents connexes :** 
+ [Atlassian – Gestion des connaissances](https://www.atlassian.com/itsm/knowledge-management)

 **Exemples connexes :** 
+ [ DokuWiki ](https://www.dokuwiki.org/dokuwiki)
+ [Gollum](https://github.com/gollum/gollum)
+ [ MediaWiki ](https://www.mediawiki.org/wiki/MediaWiki)
+ [ Wiki.js ](https://github.com/Requarks/wiki)

# OPS11-BP05 Définition de facteurs d’amélioration
<a name="ops_evolve_ops_drivers_for_imp"></a>

 Identifiez les facteurs d’amélioration pour vous aider à évaluer et à hiérarchiser les opportunités en fonction des données et des boucles de commentaires. Explorez les opportunités d’amélioration de vos systèmes et processus, et procédez à l’automatisation le cas échéant. 

 **Résultat escompté :** 
+  Vous suivez les données provenant de l’ensemble de votre environnement. 
+  Vous mettez en corrélation les événements et les activités avec les résultats commerciaux. 
+  Vous pouvez comparer et contraster les environnements et les systèmes. 
+  Vous conservez un historique détaillé des activités de vos déploiements et de leurs résultats. 
+  Vous collectez des données pour renforcer votre niveau de sécurité. 

 **Anti-modèles courants :** 
+  Vous collectez des données provenant de l’ensemble de votre environnement, mais vous ne mettez pas en corrélation les événements et les activités. 
+  Vous collectez des données détaillées sur l’ensemble de votre infrastructure, ce qui entraîne une activité et des coûts élevés pour Amazon CloudWatch et AWS CloudTrail. Cependant, vous n’utilisez pas ces données de manière significative. 
+  Vous ne tenez pas compte des résultats commerciaux lorsque vous définissez les facteurs d’amélioration. 
+  Vous ne mesurez pas les effets des nouvelles fonctionnalités. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Vous minimisez l’impact des motivations liées aux événements ou de l’investissement émotionnel en déterminant des critères d’amélioration. 
+  Vous répondez à des événements commerciaux, et pas seulement à des événements techniques. 
+  Vous mesurez votre environnement pour identifier les domaines à améliorer. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>
+  Comprenez les moteurs de l’amélioration : avant d’apporter des modifications à un système, il faut s’assurer que le résultat souhaité est bien pris en charge par celui-ci. 
  +  Fonctionnalités souhaitées : évaluez les fonctionnalités souhaitées lorsque vous étudiez les possibilités d’amélioration. 
    +  [Nouveautés avec AWS](https://aws.amazon.com/new/) 
  +  Problèmes inadmissibles : évaluez les problèmes inadmissibles, les bogues et les vulnérabilités lorsque vous étudiez les possibilités d’amélioration. Suivez les options de dimensionnement et recherchez les opportunités d’optimisation. 
    +  [Derniers bulletins de sécurité AWS](https://aws.amazon.com/security/security-bulletins/) 
    +  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
    +  [Cloud Intelligence Dashboards](https://www.wellarchitectedlabs.com/cloud-intelligence-dashboards/) 
  +  Exigences de conformité : évaluez les mises à jour et les changements nécessaires pour assurer la conformité avec la réglementation ou une politique, ou pour continuer à bénéficier du soutien d’un tiers, lors de l’examen des possibilités d’amélioration. 
    +  [AWS Conformité](https://aws.amazon.com/compliance/) 
    +  [Programmes de conformité AWS](https://aws.amazon.com/compliance/programs/) 
    +  [Dernières actualités sur la conformité AWS](https://aws.amazon.com/compliance/compliance-latest-news/) 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS01 Priorités de l’organisation](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/organization-priorities.html) 
+  [OPS02 Relations et propriété](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/relationships-and-ownership.html) 
+  [OPS04-BP01 Identification des indicateurs de rendement clés](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS08 Utilisation de l’observabilité de la charge de travail](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html) 
+  [OPS09 Compréhension de l’état opérationnel](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/understanding-operational-health.html) 
+  [OPS11-BP03 Mise en œuvre de boucles de commentaires](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

 **Documents connexes :** 
+  [Amazon Athena](https://aws.amazon.com/athena/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Conformité](https://aws.amazon.com/compliance/) 
+  [Dernières actualités sur la conformité AWS](https://aws.amazon.com/compliance/compliance-latest-news/) 
+  [Programmes de conformité AWS](https://aws.amazon.com/compliance/programs/) 
+  [AWS Glue](https://aws.amazon.com/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) 
+  [Derniers bulletins de sécurité AWS](https://aws.amazon.com/security/security-bulletins/) 
+  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
+  [Exportation des données du journal vers Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) 
+  [Nouveautés avec AWS](https://aws.amazon.com/new/) 
+  [Les impératifs de l’innovation centrée sur le client](https://aws.amazon.com/executive-insights/content/the-imperatives-of-customer-centric-innovation/) 
+  [Transformation numérique : hype ou nécessité stratégique ?](https://aws.amazon.com/blogs/enterprise-strategy/digital-transformation-hype-or-a-strategic-necessity/) 

 **Vidéos connexes** 
+  [AWS re:Invent 2023 - Improve operational efficiency and resilience with Support (SUP310)](https://youtu.be/jaehZYBNG0Y?si=UNEaLZsXDrxcBgYo) 

# OPS11-BP06 Valider les informations
<a name="ops_evolve_ops_validate_insights"></a>

 Vérifiez vos résultats d’analyse et les réponses avec les équipes interfonctionnelles et les responsables métier. Utilisez ces analyses pour établir la compréhension, identifier des impacts supplémentaires et déterminer des lignes de conduite. Ajustez les réponses si nécessaire. 

 **Résultat escompté :** 
+  Vous passez régulièrement en revue les informations avec les responsables métier. Les propriétaires d'entreprise fournissent un contexte supplémentaire aux nouvelles connaissances. 
+  Vous examinez des informations et demandez le retour de vos pairs techniques, et vous partagez vos connaissances avec les équipes. 
+  Vous publiez des données et des informations pour que d’autres équipes techniques et commerciales puissent les examiner. Vous tenez compte de ce que vous avez appris des nouvelles pratiques d’autres départements. 
+  Résumez et examinez les nouvelles idées avec les hauts responsables. Les hauts responsables utilisent de nouvelles connaissances pour définir leur stratégie. 

 **Anti-modèles courants :** 
+  Vous publiez une nouvelle fonctionnalité. Cette fonctionnalité modifie certains comportements de vos clients. Votre observabilité ne tient pas compte de ces changements. Vous ne quantifiez pas les avantages de ces changements. 
+  Vous lancez une nouvelle mise à jour et négligez d'actualiser votreCDN. Le CDN cache n'est plus compatible avec la dernière version. Vous mesurez le pourcentage de demandes comportant des erreurs. Tous vos utilisateurs signalent HTTP 400 erreurs lorsqu'ils communiquent avec les serveurs principaux. Vous examinez les erreurs du client et vous constatez que vous avez perdu votre temps parce que vous avez mesuré la mauvaise dimension. 
+  Votre contrat de niveau de service stipule une disponibilité de 99,9 % et votre objectif de point de restauration est de quatre heures. Le responsable du service affirme que le système ne connaît aucun temps d’arrêt. Vous implémentez une solution de réplication coûteuse et complexe, ce qui représente une perte de temps et d’argent. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Lorsque vous validez les informations avec les responsables métier et les experts du domaine, vous pouvez établir une compréhension commune et orienter plus efficacement les améliorations. 
+  Vous découvrez des problèmes cachés et vous en tenez compte dans vos décisions futures. 
+  Vous vous concentrez davantage sur les résultats commerciaux que sur les résultats techniques. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>
+  **Validation des informations :** collaborez avec les propriétaires d’entreprise et les experts du domaine pour vous assurer qu’il existe une compréhension et un accord communs sur la signification des données que vous avez recueillies. Identifiez les autres préoccupations, les impacts potentiels et déterminez les mesures à prendre. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS01-BP06 Évaluer les compromis tout en gérant les avantages et les risques](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS02-BP06 Les responsabilités entre les équipes sont prédéfinies ou négociées](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_neg_team_agreements.html) 
+  [OPS11-BP03 Implémenter des boucles de rétroaction](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

 **Documents connexes :** 
+  [Conception d'un centre d'excellence dans le cloud (CCOE)](https://aws.amazon.com/blogs/enterprise-strategy/designing-a-cloud-center-of-excellence-ccoe/) 

 **Vidéos connexes :** 
+  [Building observability to increase resiliency](https://youtu.be/6bJkYtrMMPI?si=yu8tVMz4a6ax9f34&t=2695) 

# OPS11-BP07 Réaliser des examens des métriques opérationnelles
<a name="ops_evolve_ops_metrics_review"></a>

 Régulièrement, faites des analyses rétrospectives des métriques opérationnelles avec des intervenants provenant de différents services de l’entreprise. Utilisez ces examens pour identifier les possibilités d’amélioration, les pistes d’action potentielles et pour partager les enseignements tirés. Recherchez des opportunités d’amélioration dans l’ensemble de vos environnements (par exemple, le développement, le test et la production). 

 **Résultat escompté :** 
+  Vous passez fréquemment en revue les métriques qui ont une incidence sur l’activité. 
+  Vous détectez et examinez les anomalies grâce à vos fonctionnalités d’observabilité. 
+  Vous utilisez les données pour soutenir les résultats et les objectifs de l’entreprise. 

 **Anti-modèles courants :** 
+  Votre fenêtre de maintenance interrompt une importante promotion de vente au détail. L’entreprise continue d’ignorer qu’il existe une fenêtre de maintenance standard qui peut être retardée si d’autres événements ont un impact sur l’activité. 
+  Vous avez subi une panne prolongée parce que vous utilisez fréquemment une bibliothèque obsolète dans votre organisation. Vous avez depuis migré vers une bibliothèque prise en charge. Les autres équipes de votre organisation ne savent pas qu’elles sont exposées à des risques. 
+  Vous ne passez pas régulièrement en revue le nombre de clients SLAs atteints. Vous avez tendance à ne pas rencontrer votre clientSLAs. Le fait de ne pas rencontrer votre client entraîne des pénalités financièresSLAs. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Lorsque vous vous réunissez régulièrement pour examiner les métriques opérationnelles, les événements et les incidents, vous maintenez une compréhension commune entre les équipes. 
+  Votre équipe se réunit régulièrement pour examiner les indicateurs et les incidents, ce qui vous permet de prendre des mesures en cas de risque et de reconnaître le clientSLAs. 
+  Vous partagez les leçons apprises, qui fournissent des données permettant de hiérarchiser les priorités et d’améliorer de manière ciblée les résultats commerciaux. 

 **Niveau de risque encouru si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>
+  Régulièrement, faites des analyses rétrospectives des métriques opérationnelles avec des intervenants provenant de différents services de l’entreprise. 
+  Faites appel à différents intervenants, y compris des membres de l’équipe commerciale, de l’équipe de développement et de l’équipe opérationnelle, pour qu’ils valident vos résultats par l’intermédiaire de rétroactions immédiates et d’analyses rétrospectives et pour partager les leçons apprises. 
+  Utilisez leurs informations pour identifier les possibilités d’amélioration et les plans d’action possibles. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS08-BP05 Création de tableaux de bord](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_dashboards.html) 
+  [OPS09-BP03 Examiner les indicateurs des opérations et prioriser les améliorations](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS10-BP01 Utiliser un processus de gestion des événements, des incidents et des problèmes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 

 **Documents connexes :** 
+  [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 
+  [Référence CloudWatch des métriques et dimensions d'Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Publication de métriques personnalisées](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Utilisation des CloudWatch métriques Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
+  [Tableaux de bord et visualisations avec CloudWatch](https://docs.aws.amazon.com/prescriptive-guidance/latest/implementing-logging-monitoring-cloudwatch/cloudwatch-dashboards-visualizations.html) 

# OPS11-BP08 Documenter et partager les enseignements
<a name="ops_evolve_ops_share_lessons_learned"></a>

 Documentation et partage d’enseignements : documentez et partagez les enseignements que vous tirez des activités opérationnelles afin de pouvoir les utiliser en interne et entre les équipes. Vous devez partager les enseignements tirés par vos équipes afin d’en retirer un bénéfice accru pour toute votre organisation. Partagez des informations et des ressources pour éviter les erreurs évitables et faciliter les efforts de développement, et concentrez-vous sur la livraison des fonctionnalités souhaitées. 

 Utilisez Gestion des identités et des accès AWS (IAM) pour définir les autorisations permettant de contrôler l’accès aux ressources que vous souhaitez partager au sein des comptes et entre les comptes. 

 **Résultat escompté :** 
+  Vous utilisez des référentiels dont les versions sont contrôlées pour partager des bibliothèques d’application, des procédures scriptées, de la documentation de procédure et d’autres documentations système. 
+  Vous partagez vos normes d’infrastructure sous forme de modèles AWS CloudFormation dont les versions sont contrôlées. 
+  Vous passez en revue les leçons apprises par les équipes. 

 **Anti-modèles courants :** 
+  Vous avez subi une panne prolongée, car votre organisation utilise couramment une bibliothèque défaillante. Depuis, vous avez migré vers une bibliothèque fiable. Les autres équipes de votre organisation ne savent pas qu’elles sont exposées à des risques. Personne ne documente et ne partage l’expérience vécue avec cette bibliothèque, et personne n’est conscient des risques. 
+  Vous avez identifié un cas limite dans un microservice partagé en interne qui entraîne l’abandon des sessions. Vous avez mis à jour vos appels au service pour éviter ce cas limite. Les autres équipes de votre organisation ne savent pas qu’elles sont exposées à des risques. 
+  Vous avez trouvé un moyen de réduire considérablement les besoins d’utilisation du processeur pour l’un de vos microservices. Vous ne savez pas si d’autres équipes peuvent tirer parti de cette technique. 

 **Avantages liés au respect de cette bonne pratique :** partagez les enseignements que vous avez tirés pour soutenir l’amélioration et pour optimiser les bénéfices de l’expérience. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** faible 

## Directives d’implémentation
<a name="implementation-guidance"></a>
+  **Documentation et partage d’enseignements :** mettez en place des procédures pour documenter les enseignements que vous tirez de l’exécution des activités opérationnelles et des analyses rétrospectives, afin que d’autres équipes puissent les utiliser. 
+  **Partage des enseignements :** imaginez des procédures permettant de partager ces enseignements, ainsi que les artefacts qui y sont associés, avec les autres équipes. Partagez par exemple les mises à jour concernant les procédures, les conseils, la gouvernance et les bonnes pratiques par l’intermédiaire d’un wiki accessible. Partagez des scripts, du code et des bibliothèques grâce à un référentiel commun. 
  +  Tirez parti d’[AWS re:Post Private](https://aws.amazon.com/repost-private/) en tant que service de connaissances pour rationaliser la collaboration et le partage des connaissances au sein de votre organisation. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP06 Les responsabilités entre les équipes sont prédéfinies ou négociées](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_neg_team_agreements.html) 
+  [OPS05-BP01 Utiliser le contrôle de version](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_version_control.html) 
+  [OPS05-BP06 Partager les normes de conception](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 
+  [OPS11-BP03 Mise en œuvre de boucles de commentaires](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 
+  [OPS11-BP07 Examens des métriques des opérations](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_metrics_review.html) 

 **Documents connexes :** 
+ [ Amélioration de la collaboration et partage sécurisé des connaissances relatives au cloud avec AWS re:Post Private ](https://aws.amazon.com/blogs/aws/increase-collaboration-and-securely-share-cloud-knowledge-with-aws-repost-private/)
+ [ Réduction des délais liés aux projets grâce à une solution Docs-as-Code ](https://aws.amazon.com/blogs/infrastructure-and-automation/reduce-project-delays-with-docs-as-code-solution/)

 **Vidéos connexes :** 
+ [AWS re:Invent 2023 - Collaborate within your company and with AWS using AWS re:Post Private ](https://www.youtube.com/watch?v=HNq_kU2QJLU)
+  [Supports You \$1 Exploring the Incident Management Tabletop Exercise](https://www.youtube.com/watch?v=0m8sGDx-pRM) 

# OPS11-BP09 Allouez du temps pour apporter des améliorations
<a name="ops_evolve_ops_allocate_time_for_imp"></a>

 Consacrez du temps et des ressources à vos processus pour permettre des améliorations progressives continues. 

 **Résultat escompté :** 
+  Vous créez des copies temporaires d’environnements, ce qui réduit les risques, les efforts et les coûts liés à l’expérimentation et aux tests. 
+  Ces copies d’environnements peuvent être utilisées pour tester les conclusions de votre analyse, expérimenter, et développer et tester des améliorations planifiées. 
+  Vous organisez des journées de jeu et vous utilisez Fault Injection Service (FIS) pour fournir les commandes et les garde-fous dont les équipes ont besoin pour mener des expériences dans un environnement similaire à celui de la production. 

 **Anti-modèles courants :** 
+  Il existe un problème de performances connu sur votre serveur d’applications. Il s’ajoute au retard accumulé dans la mise en œuvre de chaque fonctionnalité planifiée. Si le rythme d’ajout des fonctionnalités prévues reste constant, la question des performances ne sera jamais abordée. 
+  Pour permettre l’amélioration continue, vous autorisez les administrateurs et les développeurs à utiliser tout leur temps supplémentaire pour sélectionner et mettre en œuvre les améliorations. Aucune amélioration n’est effectuée. 
+  L’acceptation opérationnelle est terminée et vous ne testez plus les pratiques opérationnelles. 

 **Avantages liés au respect de cette bonne pratique :** ainsi, vous permettez d’apporter des améliorations progressives continues. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** faible 

## Directives d’implémentation
<a name="implementation-guidance"></a>
+  Allouez du temps aux améliorations : dédiez une partie des ressources et du temps consacrés à vos processus pour apporter des améliorations incrémentielles continues. 
+  Mettez en œuvre des modifications afin d’améliorer et d’évaluer les résultats, mais également de déterminer le taux de réussite qu’ils représentent. 
+  Si les résultats sont en deçà des objectifs et que l’amélioration constitue toujours une priorité, exécutez d’autres plans d’action. 
+  Simulez les charges de travail de production pendant les journées de simulation et utilisez les enseignements tirés de ces simulations pour apporter des améliorations. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS05-BP08 Utiliser plusieurs environnements](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_multi_env.html) 

 **Vidéos connexes :** 
+  [AWS re:Invent 2023 - Améliorez la résilience des applications grâce au service d'injection de AWS défauts](https://youtu.be/N0aZZVVZiUw?si=ivYa9ScBfHcj-IAq)