

# OPS 9  Comment comprendre l'état de vos opérations ?
<a name="w2aac19b5b9b7"></a>

 Définissez, capturez et analysez les métriques des opérations pour obtenir une visibilité sur les événements des opérations afin de pouvoir prendre des mesures appropriées. 

**Topics**
+ [OPS09-BP01 Identifier les indicateurs clés de performance](ops_operations_health_define_ops_kpis.md)
+ [OPS09-BP02 Définir des métriques pour les opérations](ops_operations_health_design_ops_metrics.md)
+ [OPS09-BP03 Collecter et analyser les métriques des opérations](ops_operations_health_collect_analyze_ops_metrics.md)
+ [OPS09-BP04 Établir des références pour les métriques des opérations](ops_operations_health_ops_metric_baselines.md)
+ [OPS09-BP05 Découvrir les modèles d'activité attendus pour les opérations](ops_operations_health_learn_ops_usage_patterns.md)
+ [OPS09-BP06 Signaler les menaces pesant sur les résultats des opérations](ops_operations_health_ops_outcome_alerts.md)
+ [OPS09-BP07 Signaler la détection d'anomalies dans les opérations](ops_operations_health_ops_anomaly_alerts.md)
+ [OPS09-BP08 Confirmer la réalisation des résultats et l'efficacité des KPI et des métriques](ops_operations_health_biz_level_view_ops.md)

# OPS09-BP01 Identifier les indicateurs clés de performance
<a name="ops_operations_health_define_ops_kpis"></a>

 Identifier les indicateurs clés de performance : identifiez les indicateurs clés de performances (KPI) en fonction de l'activité souhaitée (par exemple, les nouvelles fonctionnalités fournies) et des résultats clients (par exemple, les demandes de support client). Évaluez les KPI pour déterminer la réussite des opérations. 

 **Anti-modèles courants :** 
+  La direction de l’entreprise vous demande comment les opérations permettent d’atteindre les objectifs de l'entreprise, mais vous n'avez pas de cadre de référence pour déterminer le succès. 
+  Vous ne pouvez pas déterminer si vos fenêtres de maintenance ont un impact sur les résultats de l’entreprise. 

 **Avantages liés au respect de cette bonne pratique :** En identifiant des indicateurs clés de performance, vous permettez d'atteindre les résultats opérationnels comme test d’état et de succès de vos opérations. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Débit 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Identifiez les indicateurs clés de performance (KPI) en fonction des résultats désirés pour l'entreprise et le client. Évaluez les KPI pour déterminer la réussite des opérations. 

# OPS09-BP02 Définir des métriques pour les opérations
<a name="ops_operations_health_design_ops_metrics"></a>

 Définissez des métriques pour les opérations pour mesurer la réalisation des KPI (par exemple, déploiements réussis et déploiements ayant échoué). Définissez des métriques pour les opérations pour mesurer l’état des activités opérationnelles (par exemple, temps moyen de détection d'un incident (MTTD), et temps moyen de reprise après incident (MTTR)). Évaluez les paramètres pour déterminer si les opérations atteignent les résultats souhaités, et pour comprendre l’état des activités de vos opérations. 

 **Anti-modèles courants :** 
+  Vos métriques d'opérations sont basées sur ce que l'équipe estime raisonnable. 
+  Vos calculs de métriques comportent des erreurs qui donneront des résultats incorrects. 
+  Vous n'avez aucune métrique définie pour vos activités d'opérations. 

 **Avantages liés au respect de cette bonne pratique :** En définissant et en évaluant les métriques des opérations, vous pouvez déterminer l’état de vos activités opérationnelles et mesurer les résultats obtenus. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Débit 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Définir des métriques pour les opérations : définissez les métriques des opérations pour mesurer la réalisation des KPI. Définissez les métriques des opérations pour mesurer l'état des opérations et leurs activités. Évaluez les métriques pour déterminer si les opérations atteignent les résultats souhaités et pour comprendre l'état des opérations. 
  +  [Publier des métriques personnalisées](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Recherche et filtrage des données de journaux](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Référence aux dimensions et métriques Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+  [AWS Answers : journalisation centralisée](https://aws.amazon.com/answers/logging/centralized-logging/) 
+  [Référence aux dimensions et métriques Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Détecter les changements d'état du pipeline et réagir en conséquence avec Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Publier des métriques personnalisées](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Recherche et filtrage des données de journaux](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Vidéos connexes :** 
+  Élaborer un plan de surveillance 

# OPS09-BP03 Collecter et analyser les métriques des opérations
<a name="ops_operations_health_collect_analyze_ops_metrics"></a>

 Effectuez des examens réguliers et proactifs des mesures afin d'identifier les tendances et de déterminer les cas où des réponses appropriées sont nécessaires. 

 Vous devez regrouper les données de journaux issues de l'exécution de vos activités et appels d'API opérationnels dans un service tel que CloudWatch Logs. Générez des métriques à partir des observations du contenu nécessaire des journaux pour obtenir des informations sur les performances des activités opérationnelles. 

 Sur AWS, vous pouvez [exporter vos données de journaux vers Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) ou [envoyer des journaux directement](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) to [Amazon S3](https://aws.amazon.com/s3/) pour un stockage à long terme. Avec [AWS Glue](https://aws.amazon.com/glue/), vous pouvez découvrir et préparer vos données de journaux dans Amazon S3 à des fins d'analyse, en stockant les métadonnées associées dans le [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/)grâce à son intégration native à AWS Glue, peut ensuite être utilisé pour analyser vos données de journaux, en les interrogeant à l'aide de SQL standard. En utilisant un outil d'informatique décisionnelle comme [Quick](https://aws.amazon.com/quicksight/) vous pouvez visualiser, explorer et analyser vos données. 

 **Anti-modèles courants :** 
+  La fourniture constante de nouvelles fonctions est considérée comme un indicateur clé de performance. Vous n'avez aucune méthode pour mesurer la fréquence des déploiements. 
+  Vous enregistrez les déploiements, les déploiements annulés, les correctifs et les correctifs annulés pour suivre les activités de vos opérations, mais personne ne vérifie les métriques. 
+  Vous avez un objectif de temps de récupération de 15 minutes pour restaurer les bases de données perdues, qui a été défini lorsque le système a été déployé et n'avait pas d'utilisateurs. Vous avez maintenant dix mille utilisateurs et votre activité existe depuis deux ans. Une restauration récente a pris plus de deux heures. Cela n'a pas été enregistré et personne n'en est informé. 

 **Avantages liés au respect de cette bonne pratique :** En collectant et en analysant les métriques de vos opérations, vous comprenez mieux l'état de vos opérations et pouvez disposer d'un aperçu des tendances qui peuvent avoir un impact sur vos opérations ou la réalisation des résultats de votre entreprise. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Débit 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Collecter et analyser les métriques des opérations : effectuez régulièrement des évaluations proactives des métriques pour identifier les tendances et déterminer où des réponses appropriées sont nécessaires. 
  +  [Utilisation des métriques Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Référence aux dimensions et métriques Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Collecte des métriques et des journaux des instances Amazon EC2 et serveurs sur site avec l'agent CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Référence aux dimensions et métriques Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Collecte des métriques et des journaux des instances Amazon EC2 et serveurs sur site avec l'agent CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Utilisation des métriques Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS09-BP04 Établir des références pour les métriques des opérations
<a name="ops_operations_health_ops_metric_baselines"></a>

 Établissez des bases de référence afin de fournir les valeurs attendues comme base de comparaison et d'identification des activités opérationnelles sous et sur-performantes. 

 **Anti-modèles courants :** 
+  On vous a demandé quel est le délai prévu pour le déploiement. Vous n'avez pas mesuré le temps nécessaire au déploiement et vous ne pouvez pas déterminer le délai prévu. 
+  On vous a demandé combien de temps il faut pour reprendre les opérations à la suite d'un problème avec les serveurs d'applications. Vous n'avez aucune information sur le délai de reprise du premier contact du client. Vous n'avez aucune information sur le temps de reprise à partir de la première identification d'un problème via la surveillance. 
+  On vous a demandé quel est l’effectif du personnel de support pendant le week-end. Vous n'avez aucune idée du nombre type de dossiers de support au cours d’un week-end et vous ne pouvez pas fournir d'estimation. 
+  Vous avez un objectif de temps de récupération de 15 minutes pour restaurer les bases de données perdues, qui a été défini lorsque le système a été déployé et n'avait pas d'utilisateurs. Vous avez maintenant dix mille utilisateurs et votre activité existe depuis deux ans. Vous n'avez aucune information sur la façon dont le délai de restauration a changé pour votre base de données. 

 **Avantages liés au respect de cette bonne pratique :** En définissant des valeurs de métriques de base, vous êtes en mesure d'évaluer les valeurs des métriques actuelles et les tendances des métriques, afin de déterminer si une action est nécessaire. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Moyenne entreprise 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Découvrir des modèles d'activité attendus pour les opérations : définissez des modèles d'activité pour les opérations pour déterminer quand un comportement ne correspond pas aux valeurs attendues, afin de pouvoir répondre de manière appropriée si nécessaire. 

# OPS09-BP05 Découvrir les modèles d'activité attendus pour les opérations
<a name="ops_operations_health_learn_ops_usage_patterns"></a>

 Définissez des modèles d'activités opérationnelles pour identifier les activités anormales afin de pouvoir réagir de manière appropriée si nécessaire. 

 **Anti-modèles courants :** 
+  Votre taux d'échec de déploiement a considérablement augmenté récemment. Vous traitez chacune des défaillances de manière indépendante. Vous ne vous rendez pas compte que les défaillances correspondent aux déploiements effectués par un nouvel employé qui ne maîtrise pas le système de gestion des déploiements. 

 **Avantages liés au respect de cette bonne pratique :** En vous familiarisant avec les modèles de comportement, vous pouvez reconnaître un comportement inattendu et prendre des mesures si nécessaire. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Moyenne entreprise 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Découvrir des modèles d'activité attendus pour les opérations : définissez des modèles d'activité pour les opérations pour déterminer quand un comportement ne correspond pas aux valeurs attendues, afin de pouvoir répondre de manière appropriée si nécessaire. 

# OPS09-BP06 Signaler les menaces pesant sur les résultats des opérations
<a name="ops_operations_health_ops_outcome_alerts"></a>

 Chaque fois que les résultats des opérations sont menacés, une alerte doit être émise et impliquer des mesures concrètes. Les résultats des opérations sont toute activité qui accompagne une charge de travail en production. Cela comprend toutes les activités, du déploiement de nouvelles versions d'applications à la récupération après une panne. Les résultats des opérations doivent être traités avec la même importance que les résultats métier. 

Les équipes chargées des logiciels doivent identifier les principales métriques et activités des opérations, et créer des alertes les concernant. Les alertes doivent être rapides et exploitables. Si une alerte est émise, une référence à un runbook ou un playbook correspondant doit être incluse. Les alertes sans action correspondante peuvent entraîner une lassitude.

 **Résultat souhaité :** lorsque des activités d'opérations sont à risque, des alertes sont envoyées pour entraîner une action. Les alertes contiennent le contexte expliquant pourquoi une alerte est déclenchée et pointent vers un playbook pour une analyse ou un runbook pour une atténuation. Lorsque c'est possible, les runbooks sont automatisés et des notifications sont envoyées. 

 **Anti-modèles courants :** 
+ Vous analysez un incident et des demandes de support sont déposées. Les demandent de support enfreignent le contrat de niveau de service (SLA), mais aucune alerte n'est remontée. 
+ Un déploiement en production prévu à minuit est retardé en raison de changements de code de dernière minute. Aucune alerte n'est déclenchée et le déploiement est suspendu.
+ Une panne de production se produit, mais aucune alerte n'est envoyée.
+  Votre temps de déploiement dépasse toujours les estimations. Aucune mesure n'est prise pour analyser la situation. 

 **Avantages liés au respect de cette bonne pratique :** 
+  Le fait d'émettre une alerte lorsque les résultats des opérations sont à risque augmente votre capacité de gestion de votre charge de travail en gardant une longueur d'avance sur les problèmes. 
+  Les résultats métier s'améliorent grâce à des résultats d'opérations sains. 
+  La détection et la correction des problèmes d'opérations sont améliorées. 
+  L'intégrité globale des opérations est améliorée. 

 **Niveau d'exposition au risque si cette bonne pratique n'est pas respectée :** Moyen 

## Directives d'implémentation
<a name="implementation-guidance"></a>

 Les résultats des opérations doivent être définis avant que vous puissiez émettre une alerte les concernant. Commencez par définir les activités d'opérations les plus importantes pour votre organisation. Est-ce un déploiement en production en moins de deux heures ou répondre à une demande de support dans un délai donné ? Votre organisation doit définir les principales activités d'opérations et la façon dont elles sont mesurées afin de permettre leur surveillance, leur amélioration et l'émission d'alertes les concernant. Vous avez besoin d'un emplacement central où la charge de travail et les opérations de télémétrie sont stockées et analysées. Le même mécanisme doit pouvoir émettre une alerte lorsqu'un résultat d'opération est menacé. 

 **Exemple client** 

 Une alarme CloudWatch a été déclenchée lors d'un déploiement courant chez AnyCompany Retail. Le délai de déploiement a été dépassé. Amazon EventBridge a créé un OpsItem dans AWS Systems Manager OpsCenter. L'équipe chargée des opérations dans le cloud a utilisé un playbook pour analyser le problème et a constaté qu'un changement de schéma prenait plus de temps que prévu. Elle a alerté le développeur d'astreinte et a continué à surveiller le déploiement. Une fois le déploiement terminé, elle a résolu l'OpsItem. L'équipe analysera l'incident lors d'une étude post-mortem. 

## Étapes d'implémentation
<a name="implementation-steps"></a>

1. Si vous n'avez pas identifié les KPI, les métriques et les activités des opérations, implémentez les bonnes pratiques précédentes pour cette question (OPS09-BP01 à OPS09-BP05). 
   +  Les clients Support [bénéficiant d'un Entreprise Support](https://aws.amazon.com/premiumsupport/plans/enterprise/) peuvent demander [l'Operations KPI Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) à leur gestionnaire de compte technique. Cet atelier collaboratif, proposé sans encourir de frais supplémentaires, vous aide à définir les KPI et les métriques des opérations alignés sur les objectifs métier. Contactez votre gestionnaire de compte technique pour en savoir plus. 

1.  Une fois les activités, les KPI et les métriques des opérations établis, configurez les alertes dans votre plateforme d'observabilité. Les alertes doivent être accompagnées d'une action, comme un playbook ou un runbook. Évitez les alertes sans action. 

1.  Au fil du temps, vous devez évaluer vos métriques, vos KPI et vos activités d'opérations afin d'identifier les points à améliorer. Capturez les rétroactions des opérateurs dans les runbooks et les playbooks afin d'identifier les points à améliorer dans le cadre des réponses aux alertes. 

1.  Les alertes doivent comprendre un mécanisme permettant de signaler les faux positifs. Cela doit entraîner un examen des seuils de la métrique. 

 **Niveau d'effort du plan d'implémentation :** moyen. Plusieurs bonnes pratiques doivent être mises en place avant l'implémentation de cette bonne pratique. Une fois que les activités des opérations ont été déterminées et que les KPI des opérations ont été établis, les alertes doivent être établies. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+  [OPS02-BP03 Les activités opérationnelles ont des propriétaires identifiés responsables de leurs performances](ops_ops_model_def_activity_owners.md) : chaque activité et chaque résultat d'opération doivent avoir un propriétaire identifié qui est responsable. C'est la personne qui doit être alertée lorsque des risques pèsent sur les résultats. 
+  [OPS03-BP02 Les membres de l'équipe sont habilités à agir lorsque les résultats sont remis en cause](ops_org_culture_team_emp_take_action.md) : lorsque des alertes sont émises, votre équipe doit disposer d'une agence qui agira pour remédier au problème. 
+  [OPS09-BP01 Identifier les indicateurs clés de performance](ops_operations_health_define_ops_kpis.md) : l'émission d'une alerte pour des résultats d'opérations commence par l'identification des KPI d'opérations. 
+  [OPS09-BP02 Définir des métriques pour les opérations](ops_operations_health_design_ops_metrics.md) : établissez cette bonne pratique avant de commencer à générer des alertes. 
+  [OPS09-BP03 Collecter et analyser les métriques des opérations](ops_operations_health_collect_analyze_ops_metrics.md) : la collecte centralisée des métriques d'opérations est nécessaire pour créer des alertes. 
+  [OPS09-BP04 Établir des références pour les métriques des opérations](ops_operations_health_ops_metric_baselines.md) : les métriques d'opérations permettent d'ajuster les alertes et d'éviter la lassitude liée à ces dernières. 
+  [OPS09-BP05 Découvrir les modèles d'activité attendus pour les opérations](ops_operations_health_learn_ops_usage_patterns.md) : vous pouvez améliorer la précision de vos alertes en comprenant les modèles d'activité pour les événements liés aux opérations. 
+  [OPS09-BP08 Confirmer la réalisation des résultats et l'efficacité des KPI et des métriques](ops_operations_health_biz_level_view_ops.md) : évaluez la réalisation des résultats d'opérations afin de vous assurer que vos KPI et vos métriques sont valides. 
+  [OPS10-BP02 Disposer d'un processus par alerte](ops_event_response_process_per_alert.md) : chaque alerte doit être associée à un runbook ou un playbook et indiquer le contexte pour la personne alertée. 
+  [OPS11-BP02 Effectuer une analyse post-incident](ops_evolve_ops_perform_rca_process.md) : effectuez une analyse après l'incident afin d'identifier les points à améliorer. 

 **Documents connexes :** 
+  [AWS Deployment Pipelines Reference Architecture: Application Pipeline Architecture](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Getting Started with Agile / DevOps Metrics](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Vidéos connexes :** 
+  [Aggregate and Resolve Operational Issues Using AWS Systems Manager OpsCenter](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrate AWS Systems Manager OpsCenter with Amazon CloudWatch Alarms](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrate Your Data Sources into AWS Systems Manager OpsCenter Using Amazon EventBridge](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Exemples connexes :** 
+  [Automate remediation actions for Amazon EC2 notifications and beyond using Amazon EC2 Systems Manager Automation and AWS Health](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS Management and Governance Tools Workshop - Operations 2022](https://mng.workshop.aws/operations-2022.html) 
+  [Ingesting, analyzing, and visualizing metrics with DevOps Monitoring Dashboard on AWS](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Services associés :** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Support Proactive Services - Operations KPI Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP07 Signaler la détection d'anomalies dans les opérations
<a name="ops_operations_health_ops_anomaly_alerts"></a>

 Déclenchez une alerte quand des anomalies sont détectées dans les opérations, afin de pouvoir répondre de manière appropriée si nécessaire. 

 L'analyse de vos métriques opérationnelles au fil du temps peut permettre d'établir des schémas de comportement que vous pouvez quantifier assez précisément pour définir un événement ou déclencher une alarme en réponse. 

 Une fois entraînée, la fonctionnalité [fonctionnalité de détection des anomalies CloudWatch,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) peut être utilisée pour [donner l'alerte](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) sur les anomalies détectées ou peut fournir des valeurs attendues superposées sur un [graphique](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) de données de métriques pour une comparaison continue. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) peut être utilisé pour identifier un comportement anormal grâce à la corrélation des événements, à l'analyse des journaux et à l'application du machine learning pour analyser la télémétrie de votre charge de travail. La [insights](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) générés sont présentés avec les données et les recommandations pertinentes. 

 **Anti-modèles courants :** 
+  Vous appliquez un correctif à votre flotte d'instances. Vous avez testé le correctif avec succès dans l'environnement de test. Le correctif échoue pour un pourcentage élevé d'instances de votre flotte. Vous ne faites rien. 
+  Vous notez que des déploiements sont prévus à partir de vendredi en fin journée. Votre organisation a des fenêtres de maintenance prédéfinies les mardis et jeudis. Vous ne faites rien. 

 **Avantages liés au respect de cette bonne pratique :** En comprenant les modèles de comportement des opérations, vous pouvez identifier les comportements inattendus et prendre des mesures si nécessaire. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Faible 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Signaler la détection d'anomalies dans les opérations : déclenchez une alerte lorsque des anomalies d'opération sont détectées afin de pouvoir réagir de manière appropriée si nécessaire. 
  +  [Qu'est-ce que Amazon CloudWatch Events ?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Création d'alarmes Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Appel des fonctions Lambda avec les notifications Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [fonctionnalité de détection des anomalies CloudWatch,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Création d'alarmes Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Détecter les changements d'état du pipeline et réagir en conséquence avec Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Appel des fonctions Lambda avec les notifications Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Qu'est-ce que Amazon CloudWatch Events ?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP08 Confirmer la réalisation des résultats et l'efficacité des KPI et des métriques
<a name="ops_operations_health_biz_level_view_ops"></a>

 Créez une vue des activités des opérations au niveau de l'entreprise pour vous aider à déterminer si vous répondez aux besoins et permettre d'identifier les domaines ayant besoin d'être améliorés pour atteindre les objectifs commerciaux. Validez l'efficacité des KPI et des métriques et vérifiez-les si nécessaire. 

 AWS prend également en charge des systèmes d'analyse de journaux et des outils d'informatique décisionnelle tiers via les API de service AWS et les kits SDK (par exemple, Grafana, Kibana et Logstash). 

 **Anti-modèles courants :** 
+  La fréquence de vos déploiements a augmenté avec l'augmentation du nombre d'équipes de développement. Le nombre de déploiements attendu est défini une fois par semaine. Vous déployez régulièrement tous les jours. Lorsqu'il existe un problème lié au système de déploiement et que les déploiements sont impossibles, la situation n’est pas détectée pendant plusieurs jours. 
+  Lorsque votre entreprise ne fournissait auparavant un support que pendant les heures de bureau du lundi au vendredi. Votre objectif de temps de réponse pour les incidents est le jour ouvré suivant. Récemment, vous avez commencé à proposer un support 24h/24, 7j/7 avec un objectif de temps de réponse de deux heures. Votre personnel de nuit est débordé et les clients sont mécontents. Rien n'indique qu'il existe un problème au niveau des délais d'intervention en cas d'incident puisque vous fonctionnez sur la base du jour ouvré suivant. 

 **Avantages liés au respect de cette bonne pratique :** En examinant et en vérifiant les KPI et les métriques, vous comprenez comment votre charge de travail soutient la réalisation de des résultats commerciaux, et vous pouvez identifier les points à améliorer pour atteindre les objectifs commerciaux. 

 **Niveau de risque exposé si cette bonne pratique n'est pas respectée :** Faible 

## Directives d'implémentation
<a name="implementation-guidance"></a>
+  Confirmer la réalisation des résultats et l'efficacité des KPI et des métriques : créez une vue à l'échelle de l'entreprise des activités opérationnelles pour vous aider à déterminer si vous répondez à vos besoins et identifier les domaines qui doivent être améliorés pour atteindre vos objectifs métier. Validez l'efficacité des KPI et des métriques et vérifiez-les si nécessaire. 
  +  [Fonctionnement des tableaux de bord Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [Qu'est-ce que l'analytique des journaux ?](https://aws.amazon.com/log-analytics/) 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+  [Fonctionnement des tableaux de bord Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [Qu'est-ce que l'analytique des journaux ?](https://aws.amazon.com/log-analytics/) 