# OPS 9. Comment comprendre l’état de vos opérations ?
<a name="ops-09"></a>

 Définissez, capturez et analysez les métriques des opérations pour obtenir une visibilité sur les événements opérationnels afin de pouvoir prendre des mesures appropriées. 

**Topics**
+ [

# OPS09-BP01 Mesure des objectifs opérationnels et des KPI à l’aide de métriques
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Communication de l’état et des tendances pour garantir la visibilité des opérations
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Vérification des métriques des opérations et définition de la priorité des améliorations
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Mesure des objectifs opérationnels et des KPI à l’aide de métriques
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Obtenez des objectifs et des indicateurs de performance clés qui définissent le succès des opérations de votre organisation et déterminez les métriques qui les reflètent. Définissez des points de référence et réévaluez-les régulièrement. Développez des mécanismes permettant de recueillir ces métriques auprès des équipes à des fins d’évaluation. Les métriques [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) constituent une méthode populaire pour mesurer les progrès accomplis dans la mise en œuvre des pratiques DevOps en matière de fourniture de logiciels. 

 **Résultat escompté :** 
+ L’organisation publie et partage les objectifs et les KPI des équipes opérationnelles.
+ Vous établissez des métriques qui reflètent ces KPI. Exemples :
  +  Profondeur de la file d’attente ou âge moyen des tickets 
  +  Nombre de tickets regroupés par type de problème 
  +  Temps passé à résoudre les problèmes avec ou sans procédure opérationnelle normalisée (SOP) 
  +  Délai de récupération après un échec d’envoi de code 
  +  Volume d’appels 

 **Anti-modèles courants:** 
+  Les délais de déploiement ne sont pas respectés, car les développeurs sont contraints d’effectuer des tâches de dépannage. Les équipes de développement plaident en faveur d’une augmentation du personnel, mais ne peuvent pas quantifier le nombre de collaborateurs dont elles ont besoin, car le temps perdu ne peut pas être mesuré. 
+  Un bureau de niveau 1 a été mis en place pour traiter les appels des utilisateurs. Au fil du temps, de nouvelles charges de travail ont été ajoutées, mais aucun effectif n’a été affecté au bureau de niveau 1. La satisfaction des clients en pâtit, car les temps d’appel augmentent et la résolution des problèmes ralentit, mais la direction n’en voit aucun signe, ce qui empêche toute action. 
+  Une charge de travail problématique a été confiée à une équipe opérationnelle distincte pour entretien. Contrairement aux autres charges de travail, cette nouvelle charge de travail n’a pas été fournie avec la documentation et les runbooks appropriés. Les équipes consacrent donc plus de temps au dépannage et à la résolution des défaillances. Cependant, aucune métrique ne permet de documenter ces efforts, ce qui empêche les équipes de rendre compte de la situation. 

 **Avantages liés au respect de cette bonne pratique :** lorsque la surveillance de la charge de travail indique l’état de nos applications et services, les équipes chargées des opérations de surveillance fournissent aux propriétaires un aperçu des changements survenus chez les consommateurs de ces charges de travail, tels que l’évolution des besoins commerciaux. Mesurez l’efficacité de ces équipes et évaluez-les par rapport aux objectifs commerciaux en créant des métriques qui reflètent l’état des opérations. Ces métriques peuvent mettre en évidence les problèmes de support ou identifier les cas où des écarts se produisent par rapport à une cible de niveau de service. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

Planifiez du temps avec les responsables et les parties prenantes afin de déterminer les objectifs généraux du service. Déterminez quelles devraient être les tâches des différentes équipes opérationnelles et quels défis elles pourraient rencontrer. Sur la base de ces informations, réfléchissez à des indicateurs de rendement clés (KPI) susceptibles de refléter ces objectifs opérationnels. Il peut s’agir de la satisfaction des clients, du délai entre la conception des fonctionnalités et leur déploiement, du temps moyen de résolution des problèmes ou de la rentabilité.

 À partir de ces KPI, identifiez les métriques et les sources de données qui pourraient mieux refléter ces objectifs. La satisfaction des clients peut être une combinaison de diverses métriques telles que les temps d’attente ou de réponse aux appels, les scores de satisfaction et les types de problèmes soulevés. Les temps de déploiement peuvent être la somme du temps nécessaire aux tests et au déploiement, plus les correctifs à ajouter après le déploiement lui-même. Les statistiques indiquant le temps consacré à différents types de problèmes (ou le nombre de ces problèmes) peuvent fournir un aperçu des domaines dans lesquels des efforts ciblés sont nécessaires. 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+ [ Quick – Utilisation des KPI ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch : utilisation des métriques ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Création de tableaux de bord ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Comment suivre vos KPI en matière d’optimisation des coûts avec le tableau de bord des KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [Guide AWS DevOps ](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Exemples connexes :** 
+ [ Surveillance des performances de votre livraison de logiciels à l’aide d’outils AWS natifs de surveillance et d’observabilité ](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [ Équilibrage de la vitesse de déploiement et de la stabilité à l’aide des métriques DORA ](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [ Exemples de métriques opérationnelles MLOps dans le secteur des services financiers ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ Suivi des KPI d’optimisation des coûts avec KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Communication de l’état et des tendances pour garantir la visibilité des opérations
<a name="ops_operations_health_communicate_status_trends"></a>

 Il est nécessaire de connaître l’état de vos opérations et leurs tendances pour identifier les cas où les résultats peuvent être menacés, pour déterminer si des efforts supplémentaires sont justifiés ou non, ou pour identifier les effets des modifications sur vos équipes. Lors d’événements opérationnels, la possession de pages d’état auxquelles les utilisateurs et les équipes opérationnelles peuvent se référer pour obtenir des informations peut réduire la pression sur les canaux de communication et à diffuser les informations de manière proactive. 

 **Résultat escompté :** 
+  Les responsables des opérations ont un aperçu rapide des volumes d’appels auxquels leurs équipes sont confrontées et des initiatives en cours, telles que les déploiements. 
+  Des alertes sont diffusées aux parties prenantes et aux communautés d’utilisateurs lorsque des répercussions sur les opérations normales se produisent. 
+  La direction de l’organisation et les parties prenantes peuvent consulter une page d’état en réponse à une alerte ou à un impact, et obtenir des informations concernant un événement opérationnel, telles que les points de contact, des informations sur les tickets et les délais de reprise estimés. 
+  Des rapports sont mis à la disposition de la direction et des autres parties prenantes pour présenter des statistiques opérationnelles telles que le volume d’appels sur une période donnée, les scores de satisfaction des utilisateurs, le nombre de tickets en attente et leur ancienneté. 

 **Anti-modèles courants :** 
+  Une charge de travail tombe en panne, ce qui rend un service indisponible. Les volumes d’appels atteignent un pic lorsque les utilisateurs demandent à savoir ce qui se passe. Les responsables ajoutent au volume en demandant à savoir qui est à l’origine du problème. Les différentes équipes opérationnelles redoublent leurs efforts pour tenter d’identifier la cause première. 
+  Pour répondre à un nouveau besoin, plusieurs membres du personnel sont réaffectés à un effort d’ingénierie. Les postes vacants ne sont pas pourvus, et les délais de résolution des problèmes augmentent. Ces informations ne sont pas capturées, et ce n’est qu’après plusieurs semaines et après avoir reçu des commentaires insatisfaits des utilisateurs que les dirigeants prennent conscience du problème. 

 **Avantages liés au respect de cette bonne pratique :** lors d’événements opérationnels affectant l’entreprise, beaucoup de temps et d’énergie peuvent être gaspillés à demander des informations aux différentes équipes qui tentent de comprendre la situation. En mettant en place des pages d’état et des tableaux de bord largement diffusés, les parties prenantes peuvent rapidement se procurer les informations nécessaires et déterminer, par exemple, si un problème a été détecté ou non, qui est responsable du problème ou quand un retour à une activité normale est attendu. Cela évite aux membres de l’équipe d’avoir à passer trop de temps à communiquer la situation aux autres. Ils peuvent ainsi consacrer plus de temps à la résolution des problèmes. 

 En outre, les tableaux de bord et les rapports peuvent fournir des informations aux décideurs et aux parties prenantes pour voir comment les équipes opérationnelles sont en mesure de répondre aux besoins de l’entreprise et comment leurs ressources sont allouées. Ces informations sont cruciales pour déterminer si des ressources adéquates sont en place pour soutenir l’entreprise. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Créez des tableaux de bord qui présentent les métriques clés actuelles pour vos équipes opérationnelles et mettez-les à disposition des responsables des opérations et de la direction. 

 Créez des pages d’état qui peuvent être mises à jour rapidement pour indiquer quand un incident ou un événement se produit, qui en est le responsable et qui coordonne la réponse. Partagez sur cette page les étapes ou les solutions que les utilisateurs doivent prendre en compte et diffusez largement l’emplacement. Encouragez les utilisateurs à vérifier d’abord cet emplacement lorsqu’ils sont confrontés à un problème inconnu. 

 Collectez et fournissez des rapports qui présentent l’état des opérations au fil du temps, et distribuez-les aux dirigeants et aux décideurs pour illustrer le travail des opérations ainsi que les défis et les besoins. 

 Partagez entre les équipes les métriques et rapports qui reflètent au mieux les objectifs et les KPI, ainsi que les domaines où ils ont contribué au changement. Consacrez du temps à ces activités afin de renforcer l’importance des opérations au sein des équipes et entre elles. 

 Utilisez [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) avec vos propres tableaux de bord ou intégrez-y des événements AWS Health, afin que vos équipes puissent établir une corrélation entre les problèmes liés aux applications et l’état du service AWS. 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées :** 
+ [ OPS09-BP01 Mesurer les objectifs opérationnels et les KPI à l’aide de métriques ](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Documents connexes :** 
+ [ Mesurer les progrès ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [Création de tableaux de bord pour une visibilité opérationnelle](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Exemples connexes :** 
+ [Opérations de données](https://aws.amazon.com/solutions/app-development/data-operations)
+ [Comment suivre vos KPI en matière d’optimisation des coûts avec le tableau de bord des KPI](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [L’importance des indicateurs de rendement clés (KPI) pour les migrations vers le cloud à grande échelle](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Vérification des métriques des opérations et définition de la priorité des améliorations
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Le fait de consacrer du temps et des ressources à l’examen de l’état des opérations garantit que le service quotidien des activités demeure une priorité. Réunissez les responsables des opérations et les parties prenantes pour vérifier régulièrement les métriques, réaffirmer ou modifier les objectifs et prioriser les améliorations. 

 **Résultat escompté :** 
+  Les responsables des opérations et le personnel se rencontrent régulièrement pour vérifier les métriques au cours d’une période de référence donnée. Les défis sont communiqués, les victoires sont célébrées et les leçons tirées sont partagées. 
+  Les parties prenantes et les responsables sont régulièrement informés de l’état des opérations et sont invités à donner leur avis concernant les objectifs, les KPI et les initiatives futures. Les compromis entre la prestation de services, les opérations et la maintenance font l’objet de discussions et sont mis en contexte. 

 **Anti-modèles courants :** 
+  Un nouveau produit est lancé, mais les équipes opérationnelles de niveau 1 et de niveau 2 ne sont pas suffisamment formées pour fournir l’assistance nécessaire ou n’ont pas de personnel supplémentaire. Les métriques qui montrent une dégradation des délais de résolution des demandes d’assistance et l’augmentation du volume d’incidents ne sont pas pris en compte par les dirigeants. Des mesures sont prises des semaines plus tard lorsque le nombre d’abonnements commence à baisser alors que les utilisateurs mécontents quittent la plateforme. 
+  Un processus manuel pour effectuer la maintenance d’une charge de travail est en place depuis longtemps. Bien que le désir d’automatiser soit présent, il n’était pas prioritaire compte tenu de la faible importance du système. Cependant, au fil du temps, le système gagne de l’importance et ces processus manuels occupent désormais la majeure partie du temps des opérations. Aucune ressource n’est prévue pour assister les opérations, ce qui entraîne un épuisement du personnel à mesure que la charge de travail augmente. La direction n’en prend conscience que lorsqu’on lui signale que le personnel démissionne pour aller travailler pour d’autres concurrents. 

 **Avantages liés au respect de cette bonne pratique :** dans certaines organisations, il peut être difficile de consacrer le même temps et la même attention à la prestation de services et aux nouveaux produits ou offres. Le cas échéant, le secteur d’activité peut en pâtir, car le niveau de service attendu se détériore lentement. En effet, les opérations ne changent pas et n’évoluent pas avec la croissance de l’entreprise, et peuvent se retrouver à la traîne. En l’absence d’un examen régulier des informations recueillies par les opérations, le risque pour l’entreprise peut ne devenir visible que lorsqu’il sera trop tard. En allouant du temps à l’examen des métriques et des procédures à la fois au sein des équipes opérationnelles et auprès de la direction, le rôle crucial joué par les opérations reste visible, et les risques peuvent être identifiés bien avant qu’ils n’atteignent des niveaux critiques. Les équipes opérationnelles ont une meilleure idée des changements et initiatives commerciaux imminents, ce qui permet de lancer des initiatives proactives. La visibilité qu’ont les dirigeants sur les métriques opérationnelles met en évidence le rôle que jouent ces équipes dans la satisfaction des clients, à la fois en interne et en externe. Elle leur permet également de mieux évaluer les choix en fonction des priorités, ou de s’assurer que les opérations disposent du temps et des ressources nécessaires pour changer et évoluer avec de nouvelles initiatives stratégiques et de charge de travail. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** moyen 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Consacrez du temps à la vérification des métriques opérationnelles entre les parties prenantes et les équipes opérationnelles et à l’examen des données des rapports. Placez ces rapports dans le contexte des objectifs de l’organisation afin de déterminer s’ils sont atteints. Identifiez les sources d’ambiguïté lorsque les objectifs ne sont pas clairs ou lorsque l’offre ne correspond pas à la demande. 

 Identifiez les domaines dans lesquels de meilleurs résultats opérationnels peuvent être obtenus avec du temps, du personnel et des outils disponibles. Déterminez les KPI qui seraient impactés et les objectifs de réussite à atteindre. Révisez-les régulièrement pour vous assurer que les opérations disposent de ressources suffisantes pour soutenir le secteur d’activité. 

## Ressources
<a name="resources"></a>

 **Documents connexes :** 
+ [Amazon Athena](https://aws.amazon.com/athena/)
+ [Référence des métriques et dimensions Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [ Amazon Quick ](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [Collecte de métriques et de journaux à partir d’instances Amazon EC2 et de serveurs sur site avec l’agent Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Utilisation des métriques Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)