PERF05-BP05 Utilisation de l’automatisation pour résoudre de manière proactive les problèmes liés aux performances
Utilisez les KPI en combinaison avec des systèmes de surveillance et d’alarme pour traiter de manière proactive les problèmes liés aux performances.
Anti-modèles courants :
-
Vous autorisez uniquement le personnel des opérations à apporter des modifications opérationnelles à la charge de travail.
-
Vous confiez toutes les activités de filtre des alarmes à l’équipe des opérations sans correction proactive.
Avantages liés au respect de cette bonne pratique : la correction proactive des actions d’alarme permet au personnel d’assistance de se concentrer sur les éléments qui ne sont pas exploitables automatiquement. Cela permet au personnel des opérations de gérer toutes les alarmes sans être submergé et de se concentrer uniquement sur les alarmes critiques.
Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : bas
Directives d’implémentation
Utilisez des alarmes pour déclencher des actions automatisées afin de corriger les problèmes dans la mesure du possible. Faites remonter l’alarme aux personnes qui peuvent répondre si une réponse automatique n’est pas possible. Par exemple, vous pourriez disposer d’un système capable de prédire les valeurs attendues de KPI et qui déclenche une alarme lorsqu’elles dépassent certains seuils. Vous pouvez aussi disposer d’un outil capable d’arrêter ou de restaurer automatiquement des déploiements si les valeurs des KPI dépassent celles attendues.
Mettez en place des processus qui rendent visibles les performances pendant que votre charge de travail est en cours d’exécution. Créez des tableaux de bord de surveillance et établissez des normes de référence pour les attentes en matière de performances pour déterminer si les performances de la charge de travail sont optimales.
Étapes d’implémentation
-
Identification du processus de remédiation : identifiez et comprenez le problème lié aux performances qui peut être résolu automatiquement. Utilisez des solutions de surveillance AWS telles qu’Amazon CloudWatch ou AWS X-Ray pour vous aider à mieux comprendre la cause première du problème.
-
Définition du processus d’automatisation : créez un plan et un processus de résolution étape par étape qui peuvent être utilisés pour résoudre automatiquement le problème.
-
Configuration de l’événement d’initiation : configurez l’événement pour lancer automatiquement le processus de correction. Par exemple, vous pouvez définir un déclencheur pour redémarrer automatiquement une instance lorsqu’elle atteint un certain seuil d’utilisation de l’UC.
-
Automatisation de la remédiation : utilisez les services et technologies AWS pour automatiser le processus de résolution. Par exemple, AWS Systems Manager Automation fournit une solution sécurisée et évolutive d’automatisation du processus de résolution. Veillez à utiliser une logique d’auto-réparation pour annuler les modifications si elles ne permettent pas de résoudre le problème.
-
Test du flux de travail : testez le processus de résolution automatisé dans un environnement de pré-production.
-
Mise en œuvre du flux de travail : implémentez la correction automatique dans l’environnement de production.
-
Élaboration d’un manuel : élaborez et documentez un manuel qui décrit les étapes du plan de remédiation, y compris les événements initiateurs, la logique de remédiation et les mesures prises. Veillez à former les parties prenantes pour les aider à répondre efficacement aux événements de résolution automatisée.
-
Révision et affinage : évaluez régulièrement l’efficacité du flux de travail de correction automatisé. Ajustez les événements de lancement et la logique de résolution, si nécessaire.
Ressources
Documents connexes:
Vidéos connexes :
-
AWS re:Invent 2023 - Strategies for automated scaling, remediation, and smart self-healing
-
AWS re:Invent 2023 - [LAUNCH] Application monitoring for modern workloads
-
AWS re:Invent 2021 - Intelligently automating cloud operations
-
AWS re:Invent 2022 - Setting up controls at scale in your AWS environment
-
AWS re:Inforce 2022 - Automating patch management and compliance using AWS
-
AWSre:Invent 2022 - How Amazon uses better metrics for improved website performance
-
AWSre:Invent 2023 - Take a load off: Diagnose & resolve performance issues with Amazon RDS
-
AWSre:Invent 2021 - {New Launch} Automatically detect and resolve issues with Amazon DevOps Guru
Exemples connexes :