

# OPS 10. In che modo gestisci gli eventi del carico di lavoro e delle operazioni?
<a name="ops-10"></a>

 Prepara e convalida le procedure in risposta agli eventi per ridurre al minimo il loro impatto sul tuo carico di lavoro. 

**Topics**
+ [OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Definizione di un processo per ogni avviso](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Definizione dei percorsi di escalation](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Definizione di un piano di comunicazione con i clienti per eventi che incidono sul servizio](ops_event_response_push_notify.md)
+ [OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo](ops_event_response_dashboards.md)
+ [OPS10-BP07 Automatizza le risposte agli eventi](ops_event_response_auto_event_response.md)

# OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi
<a name="ops_event_response_event_incident_problem_process"></a>

La capacità di gestire in modo efficiente eventi, incidenti e problemi è fondamentale per mantenere l'integrità e le prestazioni del carico di lavoro. È essenziale riconoscere e comprendere le differenze tra questi elementi per sviluppare una strategia di risposta e risoluzione efficace. Stabilire e seguire un processo ben definito per ogni aspetto facilita la gestione rapida ed efficace da parte del tuo team di qualsiasi sfida operativa che si presenti.

 **Risultato desiderato:** la tua organizzazione gestisce efficacemente eventi operativi, incidenti e problemi attraverso processi ben documentati e archiviati a livello centrale. Questi processi vengono costantemente aggiornati per riflettere le modifiche, semplificando la gestione e mantenendo l'affidabilità del servizio e delle prestazioni dei carichi di lavoro elevata. 

 **Anti-pattern comuni:** 
+  Rispondi in modo reattivo, anziché proattivo, agli eventi. 
+  Vengono adottati approcci incoerenti a diversi tipi di eventi o incidenti. 
+ La tua organizzazione non effettua analisi e non impara dagli incidenti per prevenire eventi futuri.

 **Vantaggi dell'adozione di questa best practice:** 
+  Processi di risposta semplificati e standardizzati. 
+  Riduzione dell'impatto degli incidenti su servizi e clienti. 
+  Risoluzione rapida dei problemi. 
+  Miglioramento continuo dei processi operativi. 

 **Livello di rischio associato se questa best practice non fosse adottata:** elevato 

## Guida all’implementazione
<a name="implementation-guidance"></a>

 L'implementazione di questa best practice prevede la registrazione degli eventi dei carichi di lavoro. Per la gestione di incidenti e problemi, è necessario ricorrere ai processi. I processi sono documentati, condivisi e aggiornati con frequenza. I problemi vengono identificati, classificati in base alla priorità e corretti. 

 **Informazioni su eventi, incidenti e problemi** 
+  **Eventi:** un *evento* è l'adempimento di un'azione, un'occorrenza o un cambiamento di stato. Gli eventi possono essere pianificati o non pianificati e possono avere origine all'interno o all'esterno del carico di lavoro. 
+  **Incidenti:** gli *incidenti* sono eventi che richiedono una risposta, come interruzioni non pianificate o il peggioramento della qualità del servizio. Rappresentano interruzioni che richiedono un'attenzione immediata al fine di ripristinare il normale funzionamento del carico di lavoro. 
+  **Problemi:** i *problemi* sono le cause alla base di uno o più incidenti. Identificare e risolvere i problemi implica approfondire gli incidenti per prevenire eventi futuri. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

 **Eventi** 

1.  **Monitora gli eventi:** 
   +  [Implementa l'osservabilità](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) e [sfrutta l'osservabilità del carico di lavoro](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Le azioni di monitoraggio intraprese da un utente, ruolo o servizio AWS vengono registrate come eventi in [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Rispondi alle modifiche operative delle tue applicazioni in tempo reale con [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Valuta, monitora e registra continuamente le modifiche alla configurazione delle risorse con [AWS Config](https://aws.amazon.com/config/). 

1.  **Crea processi:** 
   +  Sviluppa un processo per valutare quali eventi sono significativi e richiedono di essere monitorati. Ciò comporta l'impostazione di soglie e parametri per le attività normali e anomale. 
   +  Determina i criteri in base ai quali un evento viene segnalato come un incidente, ad esempio, la gravità dell'evento, l'impatto sugli utenti o la deviazione dal comportamento previsto. 
   +  Rivedi regolarmente i processi di monitoraggio e risposta agli eventi. Ciò include l'analisi degli incidenti passati, l'adeguamento delle soglie e il perfezionamento dei meccanismi di avviso. 

 **Incidenti** 

1.  **Rispondi agli incidenti:** 
   +  Usa gli approfondimenti degli strumenti di osservabilità per identificare e rispondere rapidamente agli incidenti. 
   +  Implementa [AWS Systems Manager Ops Center](https://aws.amazon.com/systems-manager/features/#OpsCenter) per aggregare, organizzare e dare priorità agli elementi operativi e agli incidenti. 
   +  Utilizza servizi come [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) e [AWS X-Ray](https://aws.amazon.com/xray/) per analisi e risoluzione dei problemi più approfondite. 
   +  Prendi in considerazione [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) per una gestione degli incidenti avanzata, sfruttandone funzionalità proattive, preventive e investigative. AMS estende il supporto operativo con servizi come monitoraggio, rilevamento, risposta agli incidenti e gestione della sicurezza. 
   +  Per i clienti del supporto Enterprise, [AWS Incident Detection and Response](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/) offre un monitoraggio proattivo continuo e la gestione degli incidenti per i carichi di lavoro di produzione. 

1.  **Crea un processo di gestione degli incidenti:** 
   +  Definisci un processo strutturato di gestione degli incidenti, che includa ruoli, protocolli di comunicazione e passaggi per la risoluzione chiari. 
   +  Integra la gestione degli incidenti con strumenti come [Amazon Q Developer nelle applicazioni di chat](https://aws.amazon.com/chatbot/) per garantire l'efficienza nella risposta e nel coordinamento. 
   +  Suddividi in categorie gli incidenti in base alla gravità, con [piani di risposta agli incidenti](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) predefiniti per ciascuna di esse. 

1.  **Apprendi e migliora:** 
   +  Effettua [analisi post-incidente](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) per comprendere le cause principali e l'efficacia della risoluzione. 
   +  Aggiorna e migliora continuamente i piani di risposta in base alle revisioni e alle pratiche in evoluzione. 
   +  Documenta e condividi le lezioni apprese tra i team per migliorare la resilienza operativa. 
   +  I clienti del supporto Enterprise possono rivolgersi al proprio Technical Account Manager per il [workshop sulla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives). Questo workshop guidato consente di verificare il piano di risposta agli incidenti esistente e ti aiuta a individuare eventuali aree da migliorare. 

 **Problemi** 

1.  **Identifica i problemi:** 
   +  Utilizza i dati degli incidenti passati per identificare modelli ricorrenti che potrebbero indicare la presenza di problemi sistemici più profondi. 
   +  Sfrutta strumenti come [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) e [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) per l'analisi delle tendenze e l'individuazione dei problemi alla base. 
   +  Coinvolgi team interfunzionali, ad esempio i team dediti alle operazioni, allo sviluppo e i reparti aziendali, per ottenere prospettive diverse sulle cause principali. 

1.  **Crea un processo di gestione dei problemi:** 
   +  Sviluppa un processo strutturato per la gestione dei problemi, concentrandoti su soluzioni a lungo termine piuttosto che su correzioni rapide. 
   +  Incorpora tecniche di analisi delle cause principali (RCA) per indagare e comprendere le cause alla base degli incidenti. 
   +  Aggiorna policy e procedure operative e l'infrastruttura in base agli esiti per prevenire il ripetersi degli incidenti. 

1.  **Continua a migliorare:** 
   +  Promuovi una cultura di apprendimento e miglioramento continui, incoraggiando i team a identificare e affrontare in modo proattivo i problemi potenziali. 
   +  Analizza e rivedi regolarmente i processi e gli strumenti di gestione dei problemi per allinearli agli scenari aziendali e tecnologici in evoluzione. 
   +  Condividi approfondimenti e best practice in tutta l'organizzazione per creare un ambiente operativo più resiliente ed efficiente. 

1.  **Integra Supporto AWS:** 
   +  Consulta le risorse di supporto AWS, come [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), per indicazioni proattive e suggerimenti in merito all'ottimizzazione. 
   +  I clienti del supporto Enterprise hanno a disposizione programmi dedicati, come [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/), per ricevere assistenza durante gli eventi critici. 

 **Livello di impegno per il piano di implementazione:** medio 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Identifica gli indicatori chiave di prestazione](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementare la telemetria delle applicazioni](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Utilizzo di runbook per eseguire le procedure](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Utilizzo dei playbook per analizzare i problemi](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analizza le metriche del carico di lavoro](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Eseguire l'analisi post-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documenti correlati:** 
+  [AWS Security Incident Response Guide](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Rilevamento e risposta agli incidenti di AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Incident Management in the Age of DevOps and SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Video correlati:** 
+ [ Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - The Amazon Builders' Library: 25 yrs of Amazon operational excellence ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [ Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Esempi correlati:** 
+  [AWS Proactive Services: workshop sulla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [ How to Automate Incident Response with PagerDuty and Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [ Engage Incident Responders with the On-Call Schedules in Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [ Improve the Visibility and Collaboration during Incident Handling in Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [ Incident reports and service requests in AMS ](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Servizi correlati:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Definizione di un processo per ogni avviso
<a name="ops_event_response_process_per_alert"></a>

 Stabilire un processo chiaro e definito per ogni avviso nel sistema è essenziale per una gestione degli incidenti efficace ed efficiente. Questa pratica garantisce che ogni avviso porti a una risposta specifica e attuabile, migliorando l'affidabilità e la reattività delle operazioni. 

 **Risultato desiderato:** ogni avviso avvia un piano di risposta specifico e ben definito. Ove possibile, le risposte sono automatizzate e dotate di una chiara titolarità e di un percorso di escalation definito. Gli avvisi sono collegati a una base di conoscenze aggiornata, in modo che qualsiasi operatore sia in grado di rispondere in modo coerente ed efficace. Le risposte sono rapide e uniformi su tutta la linea, migliorando l'efficienza e l'affidabilità operativa. 

 **Anti-pattern comuni:** 
+  Gli avvisi non hanno un processo di risposta predefinito, il che porta a risoluzioni improvvisate e tardive. 
+  Il sovraccarico di avvisi comporta che gli avvisi importanti vengano trascurati. 
+  Gli avvisi vengono gestiti in modo incoerente a causa della mancanza di titolarità e responsabilità chiare. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Creazione solo di avvisi utilizzabili, con conseguente riduzione dell'affaticamento da avvisi. 
+  Riduzione del tempo medio di risoluzione (MTTR) per problemi operativi. 
+  Riduzione del tempo medio di indagine (MTTI), il che aiuta a ridurre l'MTTR. 
+  Migliore capacità di scalare le risposte operative. 
+  Maggiore coerenza e affidabilità nella gestione degli eventi operativi. 

 Ad esempio, disponi di un processo definito per gli eventi di AWS Health per gli account critici, compresi gli allarmi delle applicazioni, i problemi operativi e gli eventi del ciclo di vita pianificati (come l'aggiornamento delle versioni di Amazon EKS prima dell'aggiornamento automatico dei cluster) e fornisci ai team la possibilità di monitorare attivamente, comunicare e rispondere a questi eventi. Queste azioni aiutano a prevenire le interruzioni del servizio causate da modifiche lato AWS o a mitigarle più rapidamente quando si verificano problemi imprevisti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** elevato 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Avere un processo per ogni avviso implica stabilire un piano di risposta chiaro per ciascun avviso, automatizzare le risposte ove possibile e perfezionare continuamente questi processi in base al feedback operativo e all'evoluzione dei requisiti. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

 Il diagramma seguente illustra il flusso di lavoro di gestione degli incidenti all'interno di [Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). È progettato per rispondere rapidamente ai problemi operativi creando automaticamente incidenti in risposta a eventi specifici che si verificano in [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) o [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Quando viene creato automaticamente o manualmente un incidente, Incident Manager centralizza la gestione dell'incidente, organizza le informazioni pertinenti sulle risorse AWS e avvia piani di risposta predefiniti. Ciò include l'esecuzione dei runbook di automazione di Systems Manager per un'azione immediata e la creazione di un elemento di lavoro operativo principale in OpsCenter per tenere traccia delle attività e delle analisi correlate. Questo processo semplificato accelera e coordina la risposta agli incidenti in tutto l'ambiente AWS. 

![\[Diagramma di flusso che illustra il funzionamento dello strumento di gestione degli incidenti: Amazon Q Developer nelle applicazioni di chat, i piani di escalation, i contatti e i runbook confluiscono nei piani di risposta, che generano incidenti e analisi. Anche Amazon CloudWatch confluisce anche nei piani di risposta.\]](http://docs.aws.amazon.com/it_it/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


 

1.  **Utilizza allarmi compositi:** crea [allarmi compositi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) in CloudWatch per raggruppare allarmi correlati, così da ridurre il rumore e consentire risposte più significative. 

1.  **Resta aggiornato con [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html):** AWS Health è la fonte autorevole di informazioni sull'integrità delle risorse Cloud AWS. Utilizza AWS Health per visualizzare e ricevere notifiche su eventuali eventi di servizio in corso e modifiche imminenti, come gli eventi pianificati del ciclo di vita, in modo da poter adottare misure per mitigare gli impatti. 

   1.  [Crea notifiche di eventi AWS Health personalizzati](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) per i canali e-mail e chat con [Notifiche all'utente AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e integra a livello di codice con [gli strumenti di monitoraggio e avviso di Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o l'[AWS Health API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Pianifica e monitora i progressi relativi agli eventi sull'integrità che richiedono un'azione integrando con strumenti di gestione delle modifiche o ITSM (come [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) che potresti già utilizzare tramite Amazon EventBridge o l'API AWS Health. 

   1.  Se utilizzi AWS Organizations, abilita la [visualizzazione dell'organizzazione per AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) per aggregare gli eventi AWS Health tra gli account. 

1.  **Integra gli allarmi di Amazon CloudWatch con lo strumento di gestione degli incidenti:** configura gli allarmi di CloudWatch per la creazione automatica di incidenti in [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integra Amazon EventBridge con Incident Manager:** crea [regole EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) in modo da reagire agli eventi e creare incidenti mediante piani di risposta definiti. 

1.  **Preparati per gli incidenti in Incident Manager:** 
   +  Crea [piani di risposta](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) dettagliati in Incident Manager per ciascun tipo di avviso. 
   +  Stabilisci canali di chat tramite [Amazon Q Developer nelle applicazioni di chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) collegato ai piani di risposta nello strumento di gestione degli incidenti, semplificando la comunicazione in tempo reale durante gli incidenti su piattaforme come Slack, Microsoft Teams e Amazon Chime. 
   +  Integra i [runbook di Systems Manager Automation](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) in Incident Manager per fornire risposte automatiche agli incidenti. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Identifica gli indicatori chiave di prestazione](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Creare avvisi fruibili](ops_workload_observability_create_alerts.md) 

 **Documenti correlati:** 
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Using Amazon CloudWatch alarms](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Setting up Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [ Preparing for incidents in Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Video correlati:** 
+ [ Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Esempi correlati:** 
+ [Workshop AWS, Strumento di gestione degli incidenti AWS Systems Manager: Automate incident response to security events ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business
<a name="ops_event_response_prioritize_events"></a>

 Rispondere tempestivamente agli eventi operativi è fondamentale, ma non tutti gli eventi sono uguali. Quando si assegnano le priorità in base all'impatto sul business, si dà la priorità anche alla risoluzione di eventi che possono avere conseguenze significative, come la compromissione della sicurezza, perdite finanziarie, violazioni normative o danni alla reputazione. 

 **Risultato desiderato:** la priorità delle risposte agli eventi operativi si basa sul potenziale impatto dell'evento su operazioni e obiettivi di business. Ciò rende le risposte efficienti ed efficaci. 

 **Anti-pattern comuni:** 
+  Ogni evento viene trattato con lo stesso livello di urgenza, generando confusione e ritardi nell'affrontare le criticità. 
+  Non è possibile distinguere tra eventi ad alto e basso impatto, con conseguente errata allocazione delle risorse. 
+  L'organizzazione non dispone di un chiaro framework di assegnazione delle priorità, il che genera risposte incoerenti agli eventi operativi. 
+  Agli eventi viene assegnata la priorità in base all'ordine in cui vengono segnalati piuttosto che al loro impatto sui risultati aziendali. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Assicura che la risposta si concentri in primo luogo sulle funzioni aziendali critiche, riducendo al minimo i danni potenziali. 
+  Migliora l'allocazione delle risorse durante più eventi simultanei. 
+  Migliora la capacità dell'organizzazione di mantenere la fiducia e soddisfare i requisiti normativi. 

 **Livello di rischio associato se questa best practice non fosse adottata:** elevato 

## Guida all’implementazione
<a name="implementation-guidance"></a>

 Di fronte a molteplici eventi operativi, è essenziale un approccio strutturato alla definizione delle priorità basato sull'impatto e sull'urgenza. Questo approccio consente di prendere decisioni informate, indirizzare gli sforzi laddove sono più necessari e mitigare il rischio per la continuità aziendale. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Valuta l'impatto:** sviluppa un sistema di classificazione per valutare la gravità degli eventi in termini di potenziale impatto sulle operazioni e sugli obiettivi di business. L'esempio seguente mostra le categorie di impatto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Valuta l'urgenza:** definisci i livelli di urgenza in base alla rapidità con cui un evento deve ricevere una risposta, considerando fattori come la sicurezza, le implicazioni finanziarie e accordi sul livello di servizio (SLA). L'esempio seguente illustra le categorie di urgenza:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Crea una matrice di prioritizzazione:** 
   +  Usa una matrice per incrociare impatto e urgenza, assegnando livelli di priorità a diverse combinazioni. 
   +  Rendi la matrice accessibile e comprensibile da tutti i membri del team responsabili delle risposte agli eventi operativi. 
   +  La seguente matrice di esempio mostra la gravità dell'incidente in base all'urgenza e all'impatto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Predisponi formazione e comunicazione:** forma i team di risposta sulla matrice di prioritizzazione e sull'importanza di attenersi a essa durante un evento. Comunica il processo di definizione delle priorità a tutte le parti interessate per stabilire aspettative chiare. 

1.  **Integra con la risposta agli incidenti:** 
   +  Incorpora la matrice di prioritizzazione nei tuoi piani e strumenti di risposta agli incidenti. 
   +  Automatizza la classificazione e la prioritizzazione degli eventi, ove possibile, per accelerare i tempi di risposta. 
   +  I clienti del supporto Enterprise, possono sfruttare [AWS Incident Detection and Response](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/) che garantisce il monitoraggio proattivo 24 ore su 24, 7 giorni su 7, oltre alla gestione degli incidenti per i carichi di lavoro di produzione. 

1.  **Rivedi e adatta:** rivedi regolarmente l'efficacia del processo di definizione delle priorità e apporta modifiche in base al feedback e ai cambiamenti nell'ambiente aziendale. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS03-BP03 L'escalation è incoraggiata](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Creare avvisi fruibili](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Misura gli obiettivi operativi e i KPI con le metriche](ops_operations_health_measure_ops_goals_kpis.md) 

 **Documenti correlati:** 
+ [ Atlassian - Understanding incident severity levels ](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [ IT Process Map - Checklist Incident Priority ](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Definizione dei percorsi di escalation
<a name="ops_event_response_define_escalation_paths"></a>

Stabilisci percorsi di escalation chiari all'interno dei tuoi protocolli di risposta agli incidenti per facilitare un'azione tempestiva ed efficace. Ciò include la specificazione delle richieste relative all'escalation, la descrizione dettagliata del processo di escalation e la preapprovazione delle azioni per accelerare il processo decisionale e ridurre il tempo medio di risoluzione (MTTR).

 **Risultato desiderato:** un processo strutturato ed efficiente che inoltra gli incidenti al personale appropriato, riducendo al minimo i tempi di risposta e l'impatto. 

 **Anti-pattern comuni:** 
+ La mancanza di chiarezza in merito alle procedure di ripristino genera risposte improvvisate in caso di incidenti critici.
+ L'assenza di autorizzazioni e titolarità definite comporta ritardi quando è necessaria un'azione urgente.
+  Le parti interessate e i clienti non sono informati nei tempi attesi. 
+  Le decisioni importanti subiscono ritardi. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Risposta semplificata agli incidenti tramite procedure di escalation predefinite. 
+  Tempi di inattività ridotti con azioni preapprovate e titolarità chiara. 
+  Migliore allocazione delle risorse e adeguamenti del livello di supporto in base alla gravità degli incidenti. 
+  Migliore comunicazione con le parti interessate e i clienti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 I percorsi di escalation correttamente definiti sono fondamentali per una risposta rapida agli incidenti. Strumento di gestione degli incidenti AWS Systems Manager supporta l'impostazione di piani di escalation strutturati e di pianificazioni della reperibilità, che avvisano il personale pertinente preparandolo ad agire in caso di incidenti. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Configura le richieste di escalation:** imposta [allarmi CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) per la creazione di un incidente in [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  ** Imposta la pianificazione della reperibilità:** crea la [pianificazione della reperibilità](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) in Incident Manager, in linea con i tuoi percorsi di escalation. Fornisci al personale di turno le autorizzazioni e gli strumenti necessari per agire rapidamente. 

1.  ** Procedure di escalation dettagliate: ** 
   +  Determina le condizioni specifiche in base alle quali un incidente deve essere inoltrato. 
   +  Crea [piani di escalation](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) in Incident Manager. 
   +  I canali di escalation devono consistere in un contatto o in una pianificazione della reperibilità. 
   +  Definisci i ruoli e le responsabilità del team a ogni livello di escalation. 

1.  **Approva preventivamente le azioni di mitigazione:** collabora con i responsabili delle decisioni per approvare preventivamente le azioni per gli scenari previsti. Sfrutta i [runbook di Systems Manager Automation](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) integrati con Incident Manager per velocizzare la risoluzione degli incidenti. 

1.  **Specifica la proprietà:** identifica chiaramente i proprietari interni per ogni fase del percorso di escalation. 

1.  **Fornisci dettagli in merito alle escalation a terze parti:** 
   +  Documenta gli accordi sul livello di servizio (SLA) di terze parti e adeguali agli obiettivi interni. 
   +  Stabilisci protocolli chiari per la comunicazione con i fornitori durante gli incidenti. 
   +  Integra i contatti dei fornitori negli strumenti di gestione degli incidenti per l'accesso diretto. 
   +  Conduci regolarmente esercitazioni che includano scenari di risposta di terze parti. 
   +  Mantieni le informazioni sulle escalation dei fornitori ben documentate e facilmente accessibili. 

1.  **Esegui formazione e test per i piani di escalation:** forma il tuo team sul processo di escalation e conduci regolarmente esercitazioni di risposta agli incidenti o giornate di gioco. I clienti del supporto Enterprise possono richiedere un [workshop sulla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/). 

1.  **Continua a migliorare:** verifica regolarmente l'efficacia dei tuoi percorsi di escalation. Aggiorna i tuoi processi in base alle lezioni apprese dalle analisi degli incidenti e dal feedback continuo. 

 **Livello di impegno per il piano di implementazione:** moderato 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS08-BP04 Creare avvisi fruibili](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Definizione di un processo per ogni avviso](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Eseguire l'analisi post-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documenti correlati:** 
+ [Piani di escalation di Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [ Working with on-call schedules in Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [ Creating and Managing Runbooks ](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [ Temporary elevated access management with AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [ Atlassian - Escalation policies for effective incident management ](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Definizione di un piano di comunicazione con i clienti per eventi che incidono sul servizio
<a name="ops_event_response_push_notify"></a>

 Una comunicazione efficace durante gli eventi che incidono sul servizio è fondamentale per mantenere la fiducia e la trasparenza con i clienti. Un piano di comunicazione ben definito sostiene la comunicazione rapida e chiara di informazioni all'interno e all'esterno dell'organizzazione durante gli incidenti. 

 **Risultato desiderato:** 
+  Un solido piano di comunicazione che informa efficacemente i clienti e le parti interessate durante gli eventi che influiscono sul servizio. 
+  Trasparenza nella comunicazione per creare fiducia e ridurre la preoccupazione dei clienti. 
+  Riduzione al minimo dell'impatto che gli eventi che incidono sul servizio hanno sull'esperienza del cliente e sulle operazioni aziendali. 

 **Anti-pattern comuni:** 
+  Una comunicazione inadeguata o in ritardo genera confusione e insoddisfazione nei clienti. 
+  Una messaggistica eccessivamente tecnica o vaga impedisce la comunicazione dell'impatto effettivo sugli utenti. 
+  È assente una strategia di comunicazione predefinita, con conseguente messaggistica incoerente e reattiva. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Maggiore fiducia e soddisfazione dei clienti attraverso una comunicazione chiara e proattiva. 
+  Riduzione del carico operativo per i team di supporto grazie alla risoluzione preventiva delle preoccupazioni dei clienti. 
+  Maggiore efficienza di gestione e risoluzione degli incidenti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 La creazione di un piano di comunicazione completo per gli eventi che incidono sul servizio implica prendere in considerazione molteplici aspetti, dalla scelta dei canali giusti alla creazione del messaggio e del tono. Il piano deve essere adattabile, scalabile e soddisfare diversi scenari di interruzione del servizio. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Definisci ruoli e responsabilità:** 
   +  Assegna a un responsabile degli incidenti gravi la supervisione delle attività di risposta agli incidenti. 
   +  Designa un responsabile delle comunicazioni dedicato al coordinamento di tutte le comunicazioni esterne e interne. 
   +  Includi il responsabile dell'assistenza per fornire una comunicazione coerente attraverso ticket di supporto. 

1.  **Identifica i canali di comunicazione:** seleziona canali come chat aziendale, e-mail, SMS, social media, notifiche in-app e pagine di stato. Questi canali devono essere resilienti e in grado di operare in maniera indipendente durante gli eventi che incidono sul servizio. 

1.  ** Comunica in modo rapido, chiaro e regolare con i clienti: ** 
   +  Sviluppa modelli per vari scenari di compromissione del servizio, focalizzandoti sulla semplicità e sui dettagli essenziali. Includi informazioni sul problema relativo al servizio, sui tempi di risoluzione previsti e sull'impatto. 
   +  Usa Amazon Pinpoint per avvisare i clienti tramite notifiche push, notifiche in-app, e-mail, SMS, messaggi vocali e messaggi su canali personalizzati. 
   +  Usa Amazon Simple Notification Service (Amazon SNS) per avvisare gli abbonati in modo programmatico o tramite e-mail, notifiche push su dispositivi mobili e SMS. 
   +  Comunica lo stato tramite pannelli di controllo, condividendone pubblicamente uno di Amazon CloudWatch. 
   +  Incoraggia il coinvolgimento sui social media: 
     +  Monitora attivamente i social media per comprendere il sentimento dei clienti. 
     +  Pubblica post su piattaforme di social media per aggiornare il pubblico e coinvolgere la comunità. 
     +  Prepara modelli per una comunicazione coerente e chiara sui social media. 

1.  **Coordina la comunicazione interna:** implementa protocolli interni utilizzando strumenti come Amazon Q Developer per migliorare il coordinamento e la comunicazione tra i team. Usa i pannelli di controlli di CloudWatch per comunicare lo stato. 

1.  ** Orchestra la comunicazione con strumenti e servizi dedicati: ** 
   +  Usa Strumento di gestione degli incidenti AWS Systems Manager con Amazon Q Developer per configurare canali di chat dedicati per la comunicazione interna e il coordinamento in tempo reale durante gli incidenti. 
   +  Usa i runbook Strumento di gestione degli incidenti AWS Systems Manager per automatizzare le notifiche ai clienti durante gli incidenti tramite Amazon Pinpoint, Amazon SNS o strumenti di terze parti come le piattaforme di social media. 
   +  Incorpora i flussi di lavoro di approvazione all'interno dei runbook per rivedere e autorizzare tutte le comunicazioni esterne prima dell'invio. 

1.  ** Fai pratica e migliora: ** 
   +  Tieni corsi di formazione sull'uso di strumenti e strategie di comunicazione. Responsabilizza i team affinché siano in grado di prendere decisioni tempestive durante gli incidenti. 
   +  Testa il piano di comunicazione con esercitazioni regolari o giornate di gioco. Usa questi test per perfezionare la messaggistica e valutare l'efficacia dei canali. 
   +  Implementa meccanismi di feedback per valutare l'efficacia della comunicazione durante gli incidenti. Sviluppa continuamente il piano di comunicazione in base al feedback e alle esigenze mutevoli. 

 **Livello di impegno per il piano di implementazione:** elevato 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS07-BP03 Utilizzo di runbook per eseguire le procedure](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Eseguire l'analisi post-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documenti correlati:** 
+ [ Atlassian - Incident communication best practices ](https://www.atlassian.com/incident-management/incident-communication)
+ [ Atlassian - How to write a good status update ](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [ PagerDuty - A Guide to Incident Communications ](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Video correlati:** 
+ [ Atlassian - Create your own incident communication plan: Incident templates ](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Esempi correlati:** 
+  [Dashboard di AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo
<a name="ops_event_response_dashboards"></a>

 Usa i pannelli di controllo come strumento strategico per trasmettere lo stato operativo e le metriche fondamentali in tempo reale a diversi tipi di pubblico, inclusi team tecnici interni, leader e clienti. Questi pannelli di controllo offrono una rappresentazione visiva centralizzata dello stato del sistema e delle prestazioni aziendali, il che migliora la trasparenza e l’efficienza decisionale. 

 **Risultato desiderato:** 
+  I pannelli di controllo forniscono una visione completa del sistema e delle metriche aziendali rilevanti per le varie parti interessate. 
+  Le parti interessate possono accedere in modo proattivo alle informazioni operative, il che riduce la necessità di richieste di stato frequenti. 
+  Migliore processo decisionale in tempo reale durante le normali operazioni e gli incidenti. 

 **Anti-pattern comuni:** 
+ I tecnici che partecipano a una chiamata di gestione degli incidenti hanno bisogno di ricevere aggiornamenti di stato per poter agire rapidamente.
+ Affidarsi ai report manuali per la gestione comporta ritardi e potenziali imprecisioni.
+  I team operativi vengono spesso interrotti per aggiornamenti sullo stato durante gli incidenti. 

 **Vantaggi dell’adozione di questa best practice:** 
+  Consente alle parti interessate di accedere immediatamente alle informazioni critiche, promuovendo un processo decisionale informato. 
+  Riduce le inefficienze operative riducendo al minimo i report manuali e le richieste di stato frequenti. 
+  Aumenta la trasparenza e la fiducia attraverso la visibilità in tempo reale delle prestazioni del sistema e delle metriche aziendali. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all’implementazione
<a name="implementation-guidance"></a>

 I pannelli di controllo comunicano efficacemente lo stato dei sistemi e le metriche aziendali e possono essere personalizzati in base alle esigenze di diversi gruppi di destinatari. Strumenti come i pannelli di controllo di Amazon CloudWatch e Amazon Quick aiutano a creare pannelli di controllo interattivi e in tempo reale per il monitoraggio del sistema e la business intelligence. 

### Passaggi dell’implementazione
<a name="implementation-steps"></a>

1.  **Identifica le esigenze delle parti interessate:** determina le esigenze in termini di informazioni specifiche dei diversi gruppi di destinatari, come team tecnici, leader e clienti. 

1.  ** Scegli gli strumenti giusti:** seleziona gli strumenti appropriati come i [pannelli di controllo di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) per il monitoraggio del sistema e [Amazon Quick ](https://aws.amazon.com/quicksight/) per la business intelligence interattiva. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) offre un’esperienza pronta all’uso in [Dashboard AWS Health](https://health.aws.amazon.com/health/home), oppure puoi utilizzare gli eventi di stato in Amazon EventBridge o tramite l’API AWS Health per aumentare i pannelli di controllo. 

1.  **Progetta pannelli di controllo efficaci:** 
   +  Progetta pannelli di controllo per presentare in modo chiaro metriche e KPI pertinenti, assicurandoti che siano comprensibili e utilizzabili. 
   +  Incorpora visualizzazioni a livello di sistema e a livello aziendale, se necessario. 
   +  Includi pannelli di controllo di alto livello (per ampie panoramiche) e di basso livello (per analisi dettagliate). 
   +  Integra allarmi automatici all’interno dei pannelli di controllo per evidenziare i problemi critici. 
   +  Annota i pannelli di controllo con soglie e obiettivi delle metriche importanti per una visibilità immediata. 

1.  **Integra l’origine dati:** 
   +  Utilizza [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) per aggregare e visualizzare i parametri di vari servizi AWS e i [parametri delle query provenienti da altre origini dati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), creando in questo modo una visualizzazione unificata dello stato e dei parametri aziendali del tuo sistema. 
   +  Utilizza funzionalità come [Approfondimenti di CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) per le query e la visualizzazione di dati di log provenienti da vari applicazioni e servizi. 
   +  Usa gli eventi AWS Health per rimanere informato sullo stato operativo e sui problemi operativi confermati dei servizi AWS tramite l’[API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) o gli [eventi AWS Health su Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Fornisci l’accesso self-service:** 
   +  Condividi i pannelli di controllo CloudWatch con le parti interessate pertinenti per l’accesso self-service alle informazioni utilizzando la [funzionalità di condivisione dei pannelli di controllo](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Assicurati che i pannelli di controllo siano facilmente accessibili e contengano informazioni aggiornate in tempo reale. 

1.  **Aggiorna e perfeziona regolarmente:** 
   +  Aggiorna e perfeziona continuamente i panelli di controllo per allinearli alle esigenze aziendali in evoluzione e ai feedback delle parti interessate. 
   +  Rivedi regolarmente i panelli di controllo per assicurarti che siano sempre pertinenti ed efficaci nella trasmissione delle informazioni necessarie. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS08-BP05 Creare dashboard](ops_workload_observability_create_dashboards.md) 

 **Documenti correlati:** 
+ [ Creazione di pannelli di controllo per visibilità operativa ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Using Amazon CloudWatch dashboards ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Create flexible dashboards with dashboard variables ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Sharing CloudWatch dashboards ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Query metrics from other data sources ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Add a custom widget to a CloudWatch dashboard ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Esempi correlati:** 
+ [ One Observability Workshop - Dashboards ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatizza le risposte agli eventi
<a name="ops_event_response_auto_event_response"></a>

 L'automazione delle risposte agli eventi è fondamentale per una gestione operativa rapida, coerente e priva di errori. Crea processi semplificati e utilizza strumenti per gestire e rispondere automaticamente agli eventi, riducendo al minimo gli interventi manuali e migliorando l'efficacia operativa. 

 **Risultato desiderato:** 
+  Riduzione degli errori umani e tempi di risoluzione più rapidi grazie all'automazione. 
+  Gestione degli eventi operativi coerente e affidabile. 
+  Maggiore efficienza operativa e affidabilità del sistema. 

 **Anti-pattern comuni:** 
+ La gestione manuale degli eventi comporta ritardi ed errori.
+ L'automazione viene trascurata nelle attività ripetitive e critiche.
+  Le attività manuali ripetitive causano affaticamento da avvisi e la mancata identificazione di problemi critici. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Risposte agli eventi accelerate, riduzione dei tempi di inattività del sistema. 
+  Operazioni affidabili con gestione automatizzata e coerente degli eventi. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Incorpora l'automazione per creare flussi di lavoro operativi efficienti e ridurre al minimo gli interventi manuali. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Identifica le opportunità di automazione:** definisci le attività ripetitive da automatizzare, come la risoluzione dei problemi, l'arricchimento dei ticket, la gestione della capacità, la scalabilità, le implementazioni e i test. 

1.  **Identifica i prompt di automazione:** 
   +  Valuta e definisci condizioni o metriche specifiche che avviano risposte automatiche utilizzando le azioni di [ CloudWatch allarme di Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Usa [Amazon EventBridge](https://aws.amazon.com/eventbridge/) per rispondere agli eventi nei AWS servizi, nei carichi di lavoro personalizzati e nelle applicazioni SaaS. 
   +  [Prendi in considerazione eventi di avvio come [voci di registro specifiche](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [soglie di metriche prestazionali](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) o cambiamenti di stato nelle risorse.](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) AWS 

1.  **Implementa l'automazione basata sugli eventi:** 
   +  Utilizza i runbook di AWS Systems Manager automazione per semplificare le attività di manutenzione, implementazione e correzione. 
   +  [La creazione di incidenti in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) raccoglie e aggiunge automaticamente dettagli sulle AWS risorse coinvolte nell'incidente. 
   +  Monitora in modo proattivo le quote utilizzando [Quota Monitor for AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Regola in automatico la capacità di [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) così da mantenere disponibilità e prestazioni. 
   +  [Automatizza le pipeline di sviluppo con Amazon. CodeCatalyst](https://codecatalyst.aws/explore) 
   +  [Smoke testa o monitora continuamente gli endpoint utilizzando il monitoraggio sintetico. APIs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

1.  **Esegui la mitigazione del rischio attraverso l'automazione:** 
   +  Implementa le [risposte di sicurezza automatizzate](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) per affrontare in modo rapido i rischi. 
   +  Utilizza [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) per ridurre la deviazione delle configurazioni. 
   +  [Risolvi le risorse non conformi](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) con. Regole di AWS Config

 **Livello di impegno per il piano di implementazione:** elevato 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS08-BP04 Creare avvisi fruibili](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Definizione di un processo per ogni avviso](ops_event_response_process_per_alert.md) 

 **Documenti correlati:** 
+  [Using Systems Manager Automation runbooks with Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Creating incidents in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [AWS quote di servizio](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Monitor resource usage and send notifications when approaching quotas](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [Che cos'è Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Utilizzo degli CloudWatch allarmi Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Utilizzo delle azioni di CloudWatch allarme di Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Correzione delle risorse non conformi con Regole di AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Creating metrics from log events using filters](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Video correlati:** 
+ [Crea runbook di automazione con AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [Come automatizzare le operazioni IT su AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM regole di automazione](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Avvia rapidamente il tuo progetto software con CodeCatalyst i blueprints di Amazon](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Esempi correlati:** 
+ [ CodeCatalyst Tutorial Amazon: creazione di un progetto con il modello di applicazione Web moderno a tre livelli](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [ One Observability Workshop ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [ Respond to incidents using Incident Manager ](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)