# OPS10-BP02 Definizione di un processo per ogni avviso
<a name="ops_event_response_process_per_alert"></a>

 Stabilire un processo chiaro e definito per ogni avviso nel sistema è essenziale per una gestione degli incidenti efficace ed efficiente. Questa pratica garantisce che ogni avviso porti a una risposta specifica e attuabile, migliorando l'affidabilità e la reattività delle operazioni. 

 **Risultato desiderato:** ogni avviso avvia un piano di risposta specifico e ben definito. Ove possibile, le risposte sono automatizzate e dotate di una chiara titolarità e di un percorso di escalation definito. Gli avvisi sono collegati a una base di conoscenze aggiornata, in modo che qualsiasi operatore sia in grado di rispondere in modo coerente ed efficace. Le risposte sono rapide e uniformi su tutta la linea, migliorando l'efficienza e l'affidabilità operativa. 

 **Anti-pattern comuni:** 
+  Gli avvisi non hanno un processo di risposta predefinito, il che porta a risoluzioni improvvisate e tardive. 
+  Il sovraccarico di avvisi comporta che gli avvisi importanti vengano trascurati. 
+  Gli avvisi vengono gestiti in modo incoerente a causa della mancanza di titolarità e responsabilità chiare. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Creazione solo di avvisi utilizzabili, con conseguente riduzione dell'affaticamento da avvisi. 
+  Riduzione del tempo medio di risoluzione (MTTR) per problemi operativi. 
+  Riduzione del tempo medio di indagine (MTTI), il che aiuta a ridurre l'MTTR. 
+  Migliore capacità di scalare le risposte operative. 
+  Maggiore coerenza e affidabilità nella gestione degli eventi operativi. 

 Ad esempio, disponi di un processo definito per gli eventi di AWS Health per gli account critici, compresi gli allarmi delle applicazioni, i problemi operativi e gli eventi del ciclo di vita pianificati (come l'aggiornamento delle versioni di Amazon EKS prima dell'aggiornamento automatico dei cluster) e fornisci ai team la possibilità di monitorare attivamente, comunicare e rispondere a questi eventi. Queste azioni aiutano a prevenire le interruzioni del servizio causate da modifiche lato AWS o a mitigarle più rapidamente quando si verificano problemi imprevisti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** elevato 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Avere un processo per ogni avviso implica stabilire un piano di risposta chiaro per ciascun avviso, automatizzare le risposte ove possibile e perfezionare continuamente questi processi in base al feedback operativo e all'evoluzione dei requisiti. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

 Il diagramma seguente illustra il flusso di lavoro di gestione degli incidenti all'interno di [Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). È progettato per rispondere rapidamente ai problemi operativi creando automaticamente incidenti in risposta a eventi specifici che si verificano in [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) o [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Quando viene creato automaticamente o manualmente un incidente, Incident Manager centralizza la gestione dell'incidente, organizza le informazioni pertinenti sulle risorse AWS e avvia piani di risposta predefiniti. Ciò include l'esecuzione dei runbook di automazione di Systems Manager per un'azione immediata e la creazione di un elemento di lavoro operativo principale in OpsCenter per tenere traccia delle attività e delle analisi correlate. Questo processo semplificato accelera e coordina la risposta agli incidenti in tutto l'ambiente AWS. 

![\[Diagramma di flusso che illustra il funzionamento dello strumento di gestione degli incidenti: Amazon Q Developer nelle applicazioni di chat, i piani di escalation, i contatti e i runbook confluiscono nei piani di risposta, che generano incidenti e analisi. Anche Amazon CloudWatch confluisce anche nei piani di risposta.\]](http://docs.aws.amazon.com/it_it/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


1.  **Utilizza allarmi compositi:** crea [allarmi compositi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) in CloudWatch per raggruppare allarmi correlati, così da ridurre il rumore e consentire risposte più significative. 

1.  **Resta aggiornato con [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html):** AWS Health è la fonte autorevole di informazioni sull'integrità delle risorse Cloud AWS. Utilizza AWS Health per visualizzare e ricevere notifiche su eventuali eventi di servizio in corso e modifiche imminenti, come gli eventi pianificati del ciclo di vita, in modo da poter adottare misure per mitigare gli impatti. 

   1.  [Crea notifiche di eventi AWS Health personalizzati](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) per i canali e-mail e chat con [Notifiche all'utente AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e integra a livello di codice con [gli strumenti di monitoraggio e avviso di Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o l'[AWS Health API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Pianifica e monitora i progressi relativi agli eventi sull'integrità che richiedono un'azione integrando con strumenti di gestione delle modifiche o ITSM (come [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) che potresti già utilizzare tramite Amazon EventBridge o l'API AWS Health. 

   1.  Se utilizzi AWS Organizations, abilita la [visualizzazione dell'organizzazione per AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) per aggregare gli eventi AWS Health tra gli account. 

1.  **Integra gli allarmi di Amazon CloudWatch con lo strumento di gestione degli incidenti:** configura gli allarmi di CloudWatch per la creazione automatica di incidenti in [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integra Amazon EventBridge con Incident Manager:** crea [regole EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) in modo da reagire agli eventi e creare incidenti mediante piani di risposta definiti. 

1.  **Preparati per gli incidenti in Incident Manager:** 
   +  Crea [piani di risposta](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) dettagliati in Incident Manager per ciascun tipo di avviso. 
   +  Stabilisci canali di chat tramite [Amazon Q Developer nelle applicazioni di chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) collegato ai piani di risposta nello strumento di gestione degli incidenti, semplificando la comunicazione in tempo reale durante gli incidenti su piattaforme come Slack, Microsoft Teams e Amazon Chime. 
   +  Integra i [runbook di Systems Manager Automation](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) in Incident Manager per fornire risposte automatiche agli incidenti. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Identifica gli indicatori chiave di prestazione](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Creare avvisi fruibili](ops_workload_observability_create_alerts.md) 

 **Documenti correlati:** 
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Using Amazon CloudWatch alarms](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Setting up Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [ Preparing for incidents in Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Video correlati:** 
+ [ Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Esempi correlati:** 
+ [Workshop AWS, Strumento di gestione degli incidenti AWS Systems Manager: Automate incident response to security events ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)