PERF05-BP05 Uso dell'automazione per risolvere in modo proattivo i problemi relativi alle prestazioni
Utilizza indicatori chiave di prestazioni (KPI), in combinazione con sistemi di monitoraggio e allarmi, per risolvere in modo proattivo i problemi correlati alle prestazioni.
Anti-pattern comuni:
-
Solo il personale operativo è autorizzato ad apportare modifiche operative al carico di lavoro.
-
Tutti gli allarmi giungono direttamente al team operativo senza alcuna correzione proattiva.
Vantaggi dell'adozione di questa best practice: la correzione proattiva delle azioni di allarme consente al personale di supporto di concentrarsi sugli elementi non attivabili in automatico. In questo modo, il personale operativo non viene sovraccaricato da tutti gli allarmi e si concentra, invece, solo sugli allarmi critici.
Livello di rischio associato se questa best practice non fosse adottata: basso
Guida all’implementazione
Laddove possibile, utilizza gli allarmi per attivare operazioni automatizzate per risolvere i problemi. Se non è possibile rispondere in modo automatizzato, inoltra l'allarme a chi può intervenire. Ad esempio, puoi implementare un sistema in grado di prevedere i valori attesi per gli indicatori chiave di prestazioni (KPI) e di inviare allarmi qualora essi oltrepassino determinate soglie, oppure uno strumento che arresta o esegue in automatico il rollback delle implementazioni in caso di discostamento dei KPI dai valori attesi.
Implementa processi che forniscono visibilità sulle prestazioni durante l'esecuzione del carico di lavoro. Crea pannelli di controllo del monitoraggio e stabilisci norme di riferimento per le aspettative in termini di prestazioni, per determinare se il carico di lavoro presenta prestazioni ottimali.
Passaggi dell'implementazione
-
Identifica il flusso di correzione: individua e comprendi il problema delle prestazioni risolvibile automaticamente. Utilizza soluzioni di monitoraggio AWS come Amazon CloudWatch o AWS X-Ray per comprendere meglio la causa principale del problema.
-
Definisci il processo di automazione: crea un processo di risoluzione dettagliato utilizzabile per risolvere in automatico il problema.
-
Configura l'evento di avvio: configura l'evento per l'avvio automatico del processo di risoluzione. Ad esempio, è possibile definire un trigger per riavviare automaticamente un'istanza quando raggiunge una determinata soglia di utilizzo della CPU.
-
Automatizza la correzione: utilizza i servizi e le tecnologie AWS per automatizzare il processo di risoluzione. Ad esempio, AWS Systems Manager Automation fornisce un modo sicuro e scalabile per automatizzare il processo di risoluzione. Assicurati di utilizzare la logica di risoluzione automatica per annullare le modifiche se non risolvono correttamente il problema.
-
Testa il flusso di lavoro: esegui il test del processo di risoluzione automatizzato in un ambiente di preproduzione.
-
Implementa il flusso di lavoro: implementa la risoluzione automatizzata nell'ambiente di produzione.
-
Sviluppa un playbook: predisponi e documenta un playbook che delinei le fasi del piano di risoluzione, inclusi eventi di avvio, logica di risoluzione e azioni intraprese. Assicurati di fornire la giusta preparazione alle parti interessate in modo che possano rispondere efficacemente agli eventi di risoluzione automatizzati.
-
Esamina e perfeziona: valuta con regolarità l'efficacia del flusso di lavoro di risoluzione automatizzato. Modifica gli eventi di avvio e la logica di risoluzione, se necessario.
Risorse
Documenti correlati:
Video correlati:
-
AWS re:Invent 2023 - Strategies for automated scaling, remediation, and smart self-healing
-
AWS re:Invent 2023 - [LAUNCH] Application monitoring for modern workloads
-
AWS re:Invent 2021 - Intelligently automating cloud operations
-
AWS re:Invent 2022 - Setting up controls at scale in your AWS environment
-
AWS re:Invent 2022 - Automating patch management and compliance using AWS
-
AWS re:Invent 2022 - How Amazon uses better metrics for improved website performance
-
AWS re:Invent 2023 - Take a load off: Diagnose & resolve performance issues with Amazon RDS
-
AWS re:Invent 2021 -{New Launch} Automatically detect and resolve issues with Amazon DevOps Guru
Esempi correlati: