View a markdown version of this page

Prévention proactive des incidents - AWS DevOps Agent

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Prévention proactive des incidents

AWS DevOps L'agent analyse les tendances issues de vos enquêtes sur les incidents afin de fournir des recommandations ciblées qui améliorent continuellement votre posture opérationnelle et préviennent de futurs incidents. Accédez à la prévention proactive des incidents via la page Ops Backlog de l'application Web Operator.

Comment fonctionne la prévention proactive des incidents

AWS DevOps L'agent évalue les enquêtes récentes sur les incidents afin d'identifier des améliorations durables afin de prévenir de futurs incidents et d'accélérer le délai moyen de détection (MTTD). L'agent analyse plusieurs incidents afin d'identifier des recommandations susceptibles de prévenir des catégories entières d'incidents à l'avenir, en se concentrant sur les recommandations les plus pertinentes afin de garantir qu'elles sont exploitables.

Par défaut, l'agent exécute automatiquement des évaluations chaque semaine. Vous pouvez suspendre le calendrier si vous préférez exécuter des évaluations uniquement à la demande. Des évaluations manuelles sont toujours disponibles, ce qui est utile lorsqu'une enquête récente justifie une mise en œuvre rapide des améliorations recommandées.

L'agent identifie les améliorations dans quatre catégories, comme indiqué dans le tableau de catégorisation des recommandations sur la page Ops Backlog :

  • Observabilité : recommandations pour améliorer la surveillance, les alertes, la journalisation et la visibilité du système afin de détecter les problèmes plus rapidement et avec plus de précision.

  • Infrastructure : recommandations pour optimiser la configuration des ressources, le réglage des capacités et la résilience architecturale.

  • Gouvernance — Recommandations pour renforcer les processus de déploiement, les améliorations du pipeline, les pratiques de test et les contrôles opérationnels.

  • Optimisation du code : recommandations pour améliorer la qualité du code des applications, la gestion des erreurs et la résilience du code.

Cette catégorisation vous aide à comprendre les domaines dans lesquels vos améliorations opérationnelles sont les plus nécessaires et vous permet de hiérarchiser les recommandations en fonction des domaines d'intérêt de votre équipe.

Avantages

  • Prévenir les incidents récurrents — Traitez systématiquement les causes profondes plutôt que de répondre de manière répétée aux mêmes types de problèmes

  • Réduisez le travail opérationnel : libérez votre équipe de la lutte répétitive contre les incendies pour se concentrer sur l'innovation et les améliorations stratégiques

  • Améliorez la résilience du système : renforcez votre infrastructure, votre observabilité et vos processus de déploiement sur la base de données réelles sur les incidents

  • Tirez les leçons des modèles historiques — Tirez parti des informations tirées des incidents passés pour apporter des améliorations ciblées ayant le plus grand impact

Résumé de l'agent

Le résumé des agents figurant sur la page Ops Backlog de l'application Web fournit une description des résultats de la dernière évaluation des incidents récents. Le résumé explique le nombre d'enquêtes sur les incidents analysées, quels incidents sont similaires aux précédents et quelles recommandations ont été créées ou mises à jour avec de nouvelles informations.

Le résumé vous aide à comprendre rapidement ce que l'agent a découvert lors de sa dernière évaluation et met en évidence les recommandations les plus importantes susceptibles d'avoir le plus d'impact sur votre posture opérationnelle.

Contrôler les évaluations

Vous pouvez contrôler le moment où AWS DevOps l'agent évalue les incidents et génère des recommandations :

  • Exécution manuelle des évaluations : cliquez sur le bouton Exécuter maintenant sur la page Ops Backlog pour démarrer immédiatement une évaluation. Cela est utile lorsqu'une enquête récente justifie une mise en œuvre rapide des améliorations recommandées.

  • Arrêt des évaluations actives : cliquez sur le bouton Arrêter l'évaluation dans la page Ops Backlog pour arrêter une évaluation en cours.

Gérer les recommandations

AWS DevOps L'agent fournit des recommandations sur la page Ops Backlog, où vous pouvez les consulter et les gérer :

  • Afficher les détails des recommandations : cliquez sur une recommandation pour ouvrir la page des détails de la recommandation, où vous pouvez voir plus d'informations sur l'amélioration suggérée, notamment les incidents qui ont inspiré la recommandation, les impacts attendus et les prochaines étapes. Pour les recommandations concernant les modifications de code, vous pouvez également consulter la spécification prête à être transmise à un agent de codage pour mise en œuvre.

  • Conserver : cliquez sur « Conserver » pour conserver une recommandation dans votre carnet de commandes à des fins de suivi. Cela vous permet de suivre les améliorations que vous prévoyez de mettre en œuvre et de suivre leur progression.

  • Supprimer — Cliquez sur « Supprimer » pour supprimer une recommandation de votre backlog. Lorsque vous annulez une recommandation, vous pouvez expliquer en langage naturel pourquoi elle ne répond pas à vos besoins. L'agent tire les leçons de ces commentaires et les utilise pour élaborer de futures recommandations, en veillant à ce qu'elles correspondent mieux à vos priorités et exigences opérationnelles au fil du temps.

  • Mise en œuvre — Cliquez sur « Mise en œuvre » pour marquer une recommandation comme terminée. Cela vous permet de suivre les améliorations qui ont été appliquées et permet à l'agent de mesurer l'efficacité de ses recommandations au fil du temps.

  • Suppression automatique : les recommandations qui n'ont pas été marquées comme conservées ou mises en œuvre peuvent être supprimées au bout de 6 semaines environ si aucun nouvel incident n'aurait été évité grâce à la mise en œuvre de la recommandation. Cela garantit que la page Ops Backlog se concentre sur les améliorations les plus pertinentes pour relever vos défis opérationnels.

  • Mises à jour des recommandations : les recommandations existantes sont mises à jour lorsque de nouveaux incidents qui auraient pu être évités par la recommandation sont découverts. Les mises à jour peuvent modifier la priorité de la recommandation ou l'affiner en fonction de nouvelles informations.

Spécifications prêtes à être utilisées par les agents

Pour les recommandations impliquant des modifications de code ou de configuration, l' AWS DevOps agent peut générer une spécification prête à être utilisée par l'agent. Cette spécification fournit un document structuré qui peut être transmis directement à un agent de codage pour la mise en œuvre.

La spécification inclut :

  • Exposé du problème : résumé du problème et de sa cause première

  • Résumé de la solution : description détaillée de l'approche recommandée

  • Référentiels cibles : référentiels spécifiques dans lesquels des modifications doivent être apportées

  • Modifications du code : descriptions détaillées de ce qui doit être modifié et pourquoi, avec des chemins de fichiers spécifiques et des considérations relatives à la mise en œuvre

  • Exigences relatives aux tests — Quels scénarios doivent être testés

  • Plan de mise en œuvre — Une approche progressive pour la mise en œuvre des changements

Les spécifications prêtes pour les agents accélèrent la mise en œuvre en fournissant aux agents de codage le contexte dont ils ont besoin pour apporter des modifications prêtes à être mises en production sans avoir à faire appel à de nombreux ingénieurs. back-and-forth

Mise en œuvre des recommandations

Pour optimiser la valeur des recommandations proactives en matière de prévention des incidents, considérez les pratiques suivantes pour y donner suite :

  • Utilisation de spécifications prêtes pour l'agent : pour les recommandations relatives aux modifications de code, utilisez la spécification générée pour accélérer la mise en œuvre en la remettant à un agent de codage ou en l'utilisant comme guide détaillé pour la mise en œuvre manuelle.

  • Ajouter des recommandations à votre carnet de tickets : copiez les recommandations dans le système de billetterie ou l'outil de gestion de projet de votre équipe pour vous assurer qu'elles sont priorisées aux côtés des autres travaux d'ingénierie.

  • Hiérarchisation des recommandations en fonction de leur impact — Concentrez-vous d'abord sur les recommandations qui concernent les types d'incidents les plus fréquents ou les plus graves, ou ceux qui affectent les systèmes critiques.

  • Suivi des progrès de la mise en œuvre — Surveillez les recommandations qui ont été mises en œuvre et mesurez leur efficacité en observant si le nombre d'incidents similaires diminue au fil du temps.

  • Coordination avec les équipes de développement : partagez les recommandations avec les équipes appropriées qui possèdent les systèmes concernés, en veillant à ce qu'elles disposent du contexte et des ressources nécessaires pour mettre en œuvre les améliorations.