# OPS 10 In che modo gestisci gli eventi del carico di lavoro e delle operazioni?
<a name="w2aac19b5b9b9"></a>

 Prepara e convalida le procedure in risposta agli eventi per ridurre al minimo il loro impatto sul tuo carico di lavoro. 

**Topics**
+ [OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Definizione di un processo per ogni avviso](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Definizione dei percorsi di escalation](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Abilitazione delle notifiche push](ops_event_response_push_notify.md)
+ [OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo](ops_event_response_dashboards.md)
+ [OPS10-BP07 Automazione delle risposte agli eventi](ops_event_response_auto_event_response.md)

# OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi
<a name="ops_event_response_event_incident_problem_process"></a>

L'organizzazione dispone di processi per gestire eventi, incidenti e problemi. *Gli eventi* sono costituiti da quanto accade nel carico di lavoro che non necessita di un intervento umano. *Gli incidenti* sono invece eventi che richiedono un intervento. *I problemi* sono eventi ricorrenti che richiedono un intervento o che non possono essere risolti. È necessario disporre di processi per ridurre l'impatto degli eventi sull'azienda e accertarsi di reagire in modo tempestivo e appropriato.

Quando nel carico di lavoro si verificano problemi o incidenti, è necessario utilizzare i processi per gestirli. In che modo puoi comunicare lo stato dell'evento alle parti coinvolte? Chi supervisiona la gestione delle risposte? Quali sono gli strumenti da utilizzare per ridurre l'impatto dell'evento? Questi sono solo alcuni esempi delle domande a cui devi rispondere per creare un processo di risposta affidabile. 

I processi devono essere documentati in una posizione centralizzata, nonché essere disponibili a chiunque sia coinvolto nel carico di lavoro. Se non è presente un wiki o un archivio di documenti centralizzato, è possibile utilizzare un repository per il controllo delle versioni. In questo modo sarà possibile mantenere aggiornati i piani in modo conforme all'evoluzione dei processi. 

I problemi possono essere automatizzati. Il tempo richiesto per la gestione di questo tipo di eventi potrebbe essere altrimenti destinato all'innovazione. Comincia a creare un processo ripetibile per ridurre il più possibile l'impatto del problema. Gradualmente cerca di concentrarti sull'automazione della riduzione o risoluzione del problema sottostante. In questo modo il tempo risparmiato potrà essere dedicato a migliorare il carico di lavoro. 

**Risultato desiderato:** l'organizzazione dispone di un processo per gestire eventi, incidenti e problemi. Questi processi sono documentati e archiviati in una posizione centralizzata e vengono aggiornati in base alle modifiche apportate. 

**Anti-pattern comuni:** 
+  Un incidente si verifica durante il fine settimana e il tecnico di turno non sa cosa fare. 
+  Un cliente invia un messaggio e-mail indicando che l'applicazione non è disponibile. Riavvii il server per correggere il problema. Questo incidente si verifica di frequente. 
+  Si verifica un incidente e più team si mettono a lavorare in modo indipendente per risolvere il problema. 
+  Le implementazioni vengono eseguite nel carico di lavoro senza essere documentate. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Nel carico di lavoro è presente un itinerario di audit degli eventi. 
+  Viene ridotto il tempo necessario per il ripristino in seguito a un incidente. 
+  I membri dei team riescono a risolvere incidenti e problemi in modo coerente. 
+  Durante l'analisi di un incidente, l'approccio è condiviso e più consolidato. 

 **Livello di rischio associato se questa best practice non fosse adottata:** alto 

## Guida all'implementazione
<a name="implementation-guidance"></a>

L'implementazione di questa best practice prevede la registrazione degli eventi dei carichi di lavoro. Per la gestione di incidenti e problemi, è necessario ricorrere ai processi. I processi sono documentati, condivisi e aggiornati con frequenza. I problemi vengono identificati, classificati in base alla priorità e corretti. 

 **Esempio del cliente** 

AnyCompany Retail ha dedicato una parte del proprio wiki interno ai processi destinati alla gestione di eventi, incidenti e problemi. Tutti gli eventi vengono inviati ad [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html). I problemi vengono classificati come OpsItems (elementi di lavoro operativi) in [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) e classificati in base alla loro priorità al fine della loro risoluzione, in modo da ridurre eventuali attività indifferenziate. Quando i processi subiscono variazioni, vengono aggiornati nel wiki interno. Viene utilizzato [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) per gestire gli incidenti e coordinare le attività di riduzione dell'impatto. 

## Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  Eventi 
   +  Tieni traccia degli eventi che si verificano nel carico di lavoro, anche se non è richiesto alcun intervento umano. 
   +  Collabora con le parti coinvolte a livello di piano di lavoro per redigere un elenco di eventi di cui tenere traccia, ad esempio implementazioni completate o applicazioni di patch riuscite. 
   +  Puoi utilizzare servizi come [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) oppure [Amazon Simple Notification Service](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) per generare eventi personalizzati per il monitoraggio. 

1.  Incidenti 
   +  Per prima cosa, definisci il piano di comunicazione per gli incidenti. Quali parti coinvolte devono essere informate? In che modo le tieni costantemente aggiornate? Chi supervisiona il coordinamento di tutte queste attività? È consigliabile creare un canale di chat per le comunicazioni e il coordinamento. 
   +  Definisci un percorso di escalation per i team di supporto del carico di lavoro, soprattutto se il team non dispone di turni di rotazione della disponibilità. A seconda del livello di supporto, è possibile segnalare un caso anche mediante il Supporto. 
   +  Crea un playbook per l'analisi dell'incidente. È necessario includere il piano di comunicazione e, in dettaglio, i passaggi del processo di indagine. Includi il controllo del [Dashboard AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) nel processo di indagine. 
   +  Documenta il piano di risposta agli incidenti. Comunica il piano di gestione degli incidenti in modo che i clienti esterni siano consapevoli delle regole da seguire e dei comportamenti richiesti previsti. Fornisci formazione ai membri dei team su come utilizzare tale piano di gestione. 
   +  I clienti possono utilizzare [Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) per configurare e gestire il piano di risposta agli incidenti. 
   +  I clienti del supporto Enterprise possono richiedere di seguire il [workshop relativo alla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) al proprio Technical Account Manager (TAM). Questo workshop guidato consente di verificare il piano di risposta agli incidenti esistente e ti aiuta a individuare eventuali aree da migliorare. 

1.  Problemi 
   +  I problemi devono essere identificati e registrati nel sistema ITSM in uso. 
   +  Identifica tutti i problemi noti ed eseguine una catalogazione in base all'impegno necessario per correggerli e al relativo impatto sul carico di lavoro.   
![\[Matrice delle priorità delle operazioni per la catalogazione dei problemi.\]](http://docs.aws.amazon.com/it_it/wellarchitected/2022-03-31/framework/images/impact-effort-chart.png)
   +  Per prima cosa risolvi i problemi caratterizzati dall'impatto più alto e dal minore impegno. Dopodiché, passa alla risoluzione dei problemi che rientrano nel quadrante basso impatto/basso impegno. 
   +  Puoi utilizzare [Systems Manager OpsCenter](systems-manager/latest/userguide/OpsCenter.html) per identificare i problemi, associarvi runbook e tenerne traccia. 

**Livello di impegno per il piano di implementazione:** medio. Devi disporre sia di un processo che degli strumenti per implementare questa best practice. Documenta i processi e rendili disponibili a chiunque sia coinvolto nel carico di lavoro. Aggiornali con frequenza. È disponibile un processo per la gestione e la migrazione o la risoluzione dei problemi. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS07-BP03 Utilizzo di runbook per eseguire le procedure](ops_ready_to_support_use_runbooks.md): i problemi noti necessitano di un runbook associato in modo tale che le attività di attenuazione dell'impatto siano coerenti.
+  [OPS07-BP04 Utilizzo dei playbook per analizzare i problemi](ops_ready_to_support_use_playbooks.md): gli incidenti devono essere analizzati con il supporto di playbook. 
+  [OPS11-BP02 Esecuzione di analisi post-incidente](ops_evolve_ops_perform_rca_process.md): esegui sempre un post-mortem dopo aver eseguito un ripristino in seguito a un incidente. 

 **Documenti correlati:** 
+  [Atlassian - Incident management in the age of DevOps (Atlassian - Gestione degli incidenti nell'era di DevOps)](https://www.atlassian.com/incident-management/devops) 
+  [AWS Security Incident Response Guide (Guida alle risposte agli incidenti di sicurezza di AWS)](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Incident Management in the Age of DevOps and SRE (Gestione degli incidenti nell'era di DevOps e SRE)](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management? (PagerDuty - Che cos'è la gestione degli incidenti?)](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Video correlati:** 
+  [AWS re:Invent 2020: Incident management in a distributed organization (Gestione degli incidenti in un'organizzazione distribuita)](https://www.youtube.com/watch?v=tyS1YDhMVos) 
+  [AWS re:Invent 2021 - Building next-gen applications with event-driven architectures (Sviluppo di applicazioni di nuova generazione con architetture basate su eventi)](https://www.youtube.com/watch?v=U5GZNt0iMZY) 
+  [AWS Supports You \$1 Exploring the Incident Management Tabletop Exercise (Esplorazione degli esercizi di simulazione relativi alla gestione degli incidenti)](https://www.youtube.com/watch?v=0m8sGDx-pRM) 
+  [Strumento di gestione degli incidenti AWS Systems Manager - AWS Virtual Workshops (Workshop virtuali AWS)](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [AWS What's Next ft. Incident Manager \$1 AWS Events (Novità di AWS e Incident Manager \$1 Eventi AWS)](https://www.youtube.com/watch?v=uZL-z7cII3k) 

 **Esempi correlati:** 
+  [AWS Management and Governance Tools Workshop - OpsCenter (Workshop sugli strumenti di gestione e governance AWS - OpsCenter)](https://mng.workshop.aws/ssm/capability_hands-on_labs/opscenter.html) 
+  [AWS Proactive Services – Incident Management Workshop (Servizi AWS proattivi – Workshop relativo alla gestione degli incidenti)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [Building an event-driven application with Amazon EventBridge (Sviluppo di un'applicazione basata su eventi con Amazon EventBridge)](https://aws.amazon.com/blogs/compute/building-an-event-driven-application-with-amazon-eventbridge/) 
+  [Building event-driven architectures on AWS (Sviluppo di architetture basate su eventi in AWS)](https://catalog.us-east-1.prod.workshops.aws/workshops/63320e83-6abc-493d-83d8-f822584fb3cb/en-US/) 

 **Servizi correlati:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) 
+  [Dashboard AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS10-BP02 Definizione di un processo per ogni avviso
<a name="ops_event_response_process_per_alert"></a>

 Predisponi una risposta specifica (runbook o playbook), con un proprietario espressamente identificato, per ogni evento per cui viene generato un avviso. Questo consente di rispondere agli eventi operativi in modo rapido ed efficace, evitando che gli eventi che richiedono un'azione vengano oscurati da notifiche meno importanti. 

 **Anti-pattern comuni:** 
+  Il sistema di monitoraggio presenta un flusso di connessioni approvate insieme ad altri messaggi. Il volume di messaggi è così grande che vengono ignorati dei messaggi di errore periodici che richiedono il tuo intervento. 
+  Ricevi un avviso che informa che il sito Web è inattivo. Non esiste un processo definito per quando ciò si verifica. Sei costretto ad adottare un approccio ad hoc per diagnosticare e risolvere il problema. Lo sviluppo di questo processo durante l'esecuzione prolunga il tempo di ripristino. 

 **Vantaggi dell'adozione di questa best practice:** Generando avvisi solo quando è necessaria un'operazione, eviti che gli avvisi di basso valore nascondano quelli più importanti. Creando un processo per ogni avviso che richiede un'azione, puoi attivare una risposta coerente e immediata agli eventi nel tuo ambiente. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alta 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Un processo per ogni avviso: a ogni evento per cui viene generato un avviso deve corrispondere una risposta specifica (runbook o playbook) con un responsabile specificatamente identificato (ad esempio, una persona, un team o un ruolo) a cui spetta il compito di completare correttamente l'azione. L'esecuzione della risposta può essere automatizzata o condotta da un altro team, ma il proprietario è tenuto ad assicurarsi che il processo produca i risultati previsti. Questi processi consentono di rispondere agli eventi operativi in modo rapido ed efficace, evitando che gli eventi che richiedono un'azione vengano oscurati da notifiche meno importanti. Ad esempio, è possibile applicare l'auto scaling per ridimensionare un front-end Web, ma il team operativo può essere tenuto a garantire che le regole e i limiti di auto scaling siano appropriati per le esigenze del carico di lavoro. 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Funzionalità di Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Video correlati:** 
+  [Creazione di un piano di monitoraggio](https://www.youtube.com/watch?v=OMmiGETJpfU) 

# OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business
<a name="ops_event_response_prioritize_events"></a>

 Quando più eventi richiedono un intervento, assicurati che quelli più significativi per il business vengano affrontati per primi. Sono esempi di effetti il decesso o l'infortunio, le perdite finanziarie o i danni alla reputazione o alla fiducia. 

 **Anti-pattern comuni:** 
+  Ricevi una richiesta di supporto per aggiungere una configurazione della stampante per un utente. Durante la risoluzione del problema, ricevi una richiesta di supporto per sito di vendita al dettaglio non disponibile. Dopo aver completato la configurazione della stampante per l'utente, inizi a lavorare sul problema del sito Web. 
+  Ti viene segnalato che il sito Web di vendita al dettaglio e il sistema delle buste paga non sono disponibili. Non sai quale deve avere la priorità. 

 **Vantaggi dell'adozione di questa best practice:** Dare priorità alle risposte agli incidenti che determinano il maggiore impatto sull'azienda consente di gestire tale impatto. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Definizione della priorità degli eventi operativi in base agli effetti sul business: assicurati che quando più eventi richiedono un intervento, quelli più significativi per l'azienda vengano affrontati per primi. Sono esempi di effetti il decesso o l'infortunio, le perdite finanziarie, le violazioni alle normative o i danni alla reputazione o alla fiducia. 

# OPS10-BP04 Definizione dei percorsi di escalation
<a name="ops_event_response_define_escalation_paths"></a>

 Definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi che attivano l'escalation e le procedure di escalation. In particolare, identifica i proprietari per ogni azione per assicurare risposte rapide ed efficaci agli eventi operativi. 

 Stabilisci in quali circostanze serve una decisione umana prima che venga intrapresa un'azione. Collabora con i responsabili delle decisioni affinché questa decisione venga presa in anticipo e l'operazione sia preapprovata, in modo che la MTTR non si prolunghi in attesa di una risposta. 

 **Anti-pattern comuni:** 
+  Il sito di vendita al dettaglio non è disponibile. Il runbook per il ripristino del sito non è chiaramente comprensibile. Inizi a chiamare i colleghi sperando che qualcuno possa aiutarti. 
+  Ricevi un caso di supporto per un'applicazione irraggiungibile. Non disponi delle autorizzazioni per amministrare il sistema. Non sai a chi compete questo compito. Tenti di contattare il proprietario del sistema che ha aperto il caso ma non ricevi risposta. Né tu né i tuoi colleghi sapete chi bisogna contattare per il sistema. 

 **Vantaggi dell'adozione di questa best practice:** Definendo le escalation e i trigger e le procedure per l'escalation, abiliti l'aggiunta sistematica di risorse a un incidente con una rapidità adeguata all'impatto. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Definizione di percorsi di escalation: definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi che attivano l'escalation e le relative procedure. Ad esempio, l'escalation di un problema dai tecnici del supporto ai tecnici del supporto senior quando i runbook non riescono a risolvere il problema o quando è trascorso un determinato periodo di tempo. Un altro esempio di percorso di escalation appropriato è l'inoltro dai tecnici del supporto senior al team di sviluppo per un carico di lavoro quando i playbook non sono in grado di identificare un percorso di correzione o quando è trascorso un determinato periodo di tempo. In particolare, identifica i proprietari per ogni azione per assicurare risposte rapide ed efficaci agli eventi operativi. Le escalation possono includere terze parti, ad esempio un provider di connettività di rete o un produttore di software. Possono anche includere i responsabili decisionali autorizzati identificati per i sistemi interessati. 

# OPS10-BP05 Abilitazione delle notifiche push
<a name="ops_event_response_push_notify"></a>

 Informa direttamente gli utenti (ad esempio tramite e-mail o SMS) quando i servizi che utilizzano sono interessati e quando vengono ripristinate le normali condizioni operative, per consentire loro di adottare le misure appropriate. 

 **Anti-pattern comuni:** 
+  La tua applicazione sta sperimentando un Denial of Service distribuito e non risponde da giorni. Non è presente alcun messaggio di errore. Non hai inviato un'e-mail di notifica. Non hai inviato notifiche testuali. Non hai condiviso le informazioni sui social media. I clienti sono frustrati e sono alla ricerca di altri fornitori in grado di supportarli. 
+  Lunedì la tua applicazione ha avuto problemi dopo una patch ed è rimasta fuori uso per un paio d'ore. Martedì la tua applicazione ha avuto problemi dopo la distribuzione del codice e per un paio d'ore ha mostrato segni di instabilità. Mercoledì l'applicazione ha avuto problemi a seguito di una distribuzione del codice per mitigare una vulnerabilità di sicurezza associata alla patch non riuscita e non è stata disponibile per un paio d'ore. Giovedì i tuoi clienti, infastiditi, hanno iniziato a cercare un altro fornitore che potesse supportarli. 
+  Per il fine settimana avevi già previsto interventi di manutenzione che avrebbero reso irraggiungibile l'applicazione. Non ne dai comunicazione ai tuoi clienti. Alcuni dei tuoi clienti avevano pianificato attività che comportavano l'uso della tua applicazione. Sono molto frustrati dal fatto che la tua applicazione non è disponibile. 

 **Vantaggi dell'adozione di questa best practice:** Definendo le notifiche e i trigger e le procedure per le notifiche, i clienti vengono informati e possono rispondere nel caso siano interessati dai problemi riguardanti il carico di lavoro. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Abilitazione delle notifiche push: informa direttamente gli utenti (ad esempio tramite e-mail o SMS) quando i servizi che utilizzano sono interessati e quando vengono ripristinate le normali condizioni operative, per consentire loro di adottare le misure appropriate. 
  +  [Caratteristiche di Amazon SES](https://aws.amazon.com/ses/details/) 
  +  [Che cos'è Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 
  +  [Impostazione delle notifiche Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Caratteristiche di Amazon SES](https://aws.amazon.com/ses/details/) 
+  [Impostazione delle notifiche Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 
+  [Che cos'è Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 

# OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo
<a name="ops_event_response_dashboards"></a>

 Fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i team tecnici interni, la dirigenza e i clienti, per comunicare lo stato operativo corrente del business e fornire i parametri desiderati. 

 Puoi creare pannelli di controllo utilizzando [Amazon CloudWatch Dashboards](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) sulle home page personalizzabili nella console di CloudWatch. Utilizzando servizi di business intelligence come [Quick](https://aws.amazon.com/quicksight/) è possibile creare e pubblicare pannelli di controllo interattivi sullo stato del carico di lavoro e delle operazioni (ad esempio tassi di ordinazione, utenti connessi e tempi di transazione). Crea pannelli di controllo che mostrino visualizzazioni dei parametri a livello di sistema e a livello di azienda. 

 **Anti-pattern comuni:** 
+  Su richiesta, esegui un report sull'utilizzo corrente dell'applicazione per la gestione. 
+  Durante un incidente, vieni contattato ogni 20 minuti da un responsabile di sistema preoccupato, che desidera sapere se il problema è stato risolto. 

 **Vantaggi dell'adozione di questa best practice:** Creando pannelli di controllo, abiliti l'accesso self-service alle informazioni consentendo ai clienti di informarsi autonomamente e decidere se devono intervenire. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Comunicazione dello stato tramite pannelli di controllo: fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i team tecnici, la leadership e i clienti, per comunicare l'attuale stato operativo del business e fornire i parametri rilevanti. Offrire un'opzione self-service per le informazioni di stato riduce le interruzioni derivanti dalla gestione delle richieste di stato da parte dei team operativi. Ne sono esempi i pannelli di controllo di Amazon CloudWatch e Dashboard AWS Health. 
  +  [I pannelli di controllo di CloudWatch creano e utilizzano visualizzazioni dei parametri personalizzate](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [I pannelli di controllo di CloudWatch creano e utilizzano visualizzazioni dei parametri personalizzate](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

# OPS10-BP07 Automazione delle risposte agli eventi
<a name="ops_event_response_auto_event_response"></a>

 Automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali e assicurare risposte rapide e coerenti. 

 I modi per automatizzare le azioni di runbook o playbook su AWS sono molteplici. Per rispondere a un evento dovuto a una modifica dello stato nelle risorse AWS o a eventi personalizzati, è necessario creare [regole CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) per attivare risposte tramite destinazioni CloudWatch (ad esempio funzioni Lambda, argomenti Amazon Simple Notification Service (Amazon SNS), attività Amazon ECS e AWS Systems Manager Automation). 

 Per rispondere a un determinato parametro che supera una soglia per una certa risorsa (ad es. il tempo di attesa), è consigliabile creare [avvisi CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) per eseguire una o più azioni utilizzando azioni Amazon EC2 e azioni Auto Scaling o per inviare una notifica a un argomento Amazon SNS. Se è necessario eseguire azioni personalizzate in risposta a un avviso, richiama Lambda con una notifica Amazon SNS. Utilizza Amazon SNS per pubblicare notifiche di eventi e messaggi di escalation, in modo tale che le persone ne siano informate. 

 AWS supporta, inoltre, sistemi di terze parti attraverso API e SDK del servizio AWS. Esistono numerosi strumenti forniti da partner AWS e da terze parti che consentono di monitorare e inviare notifiche e risposte. Alcuni di questi strumenti sono New Relic, Splunk, Loggly, SumoLogic e Datadog. 

 Rendi disponibili le procedure manuali cruciali in modo tale che possano essere utilizzate quando le procedure automatiche non riescono. 

 **Anti-pattern comuni:** 
+  Uno sviluppatore controlla il proprio codice. Questo evento avrebbe potuto essere utilizzato per avviare una compilazione e quindi eseguire il test, ma non accade nulla. 
+  L'applicazione registra un errore specifico prima di smettere di funzionare. La procedura per riavviare l'applicazione è ben nota e può essere creata con script. Puoi utilizzare l'evento di log per richiamare uno script e riavviare l'applicazione. Ricevi, invece, una chiamata alle 3 di domenica mattina, quando si verifica l'errore, perché sei reperibile come risorsa responsabile della correzione del sistema. 

 **Vantaggi dell'adozione di questa best practice:** Utilizzando le risposte automatizzate agli eventi, riduci il tempo necessario per rispondere e limiti l'introduzione di errori da attività manuali. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Bassa 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Automazione delle risposte agli eventi: automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali e per assicurare risposte rapide e coerenti. 
  +  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creazione di una regola di CloudWatch Events che si attiva al verificarsi di un evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
  +  [Creazione di una regola di CloudWatch Events che si attiva con una chiamata API AWS tramite AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
  +  [Esempi di eventi CloudWatch Events dai servizi supportati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Funzionalità di Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Esempi di eventi CloudWatch Events dai servizi supportati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 
+  [Creazione di una regola di CloudWatch Events che si attiva con una chiamata API AWS tramite AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
+  [Creazione di una regola di CloudWatch Events che si attiva al verificarsi di un evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Video correlati:** 
+  [Creazione di un piano di monitoraggio](https://www.youtube.com/watch?v=OMmiGETJpfU) 

 **Esempi correlati:**