# Operatività
Operatività

**Topics**
+ [

# OPS 8 Come fai a comprendere lo stato del tuo carico di lavoro?
](w2aac19b5b9b5.md)
+ [

# OPS 9 Come fai a comprendere lo stato delle operazioni?
](w2aac19b5b9b7.md)
+ [

# OPS 10 In che modo gestisci gli eventi del carico di lavoro e delle operazioni?
](w2aac19b5b9b9.md)

# OPS 8 Come fai a comprendere lo stato del tuo carico di lavoro?


 Definisci, acquisisci e analizza i parametri del carico di lavoro per ottenere visibilità sugli eventi del carico di lavoro, in modo da intraprendere le azioni appropriate. 

**Topics**
+ [

# OPS08-BP01 Identificazione degli indicatori chiave di prestazione
](ops_workload_health_define_workload_kpis.md)
+ [

# OPS08-BP02 Definizione dei parametri del carico di lavoro
](ops_workload_health_design_workload_metrics.md)
+ [

# OPS08-BP03 Raccolta e analisi dei parametri del carico di lavoro
](ops_workload_health_collect_analyze_workload_metrics.md)
+ [

# OPS08-BP04 Definizione di baseline per i parametri del carico di lavoro
](ops_workload_health_workload_metric_baselines.md)
+ [

# OPS08-BP05 Studio dei modelli di attività previsti per il carico di lavoro
](ops_workload_health_learn_workload_usage_patterns.md)
+ [

# OPS08-BP06 Attivazione di un avviso quando i risultati del carico di lavoro sono a rischio
](ops_workload_health_workload_outcome_alerts.md)
+ [

# OPS08-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nel carico di lavoro
](ops_workload_health_workload_anomaly_alerts.md)
+ [

# OPS08-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri
](ops_workload_health_biz_level_view_workload.md)

# OPS08-BP01 Identificazione degli indicatori chiave di prestazione
OPS08-BP01 Identificazione degli indicatori chiave di prestazione

 Identifica gli indicatori chiave delle prestazioni (KPI) in base ai risultati aziendali desiderati (ad esempio, tasso di ordini, tasso di conservazione dei clienti e profitti rispetto alle spese operative) e ai risultati dei clienti (ad esempio, soddisfazione dei clienti). Valuta i KPI per determinare il successo del carico di lavoro. 

 **Anti-pattern comuni:** 
+  I dirigenti aziendali ti chiedono in che modo un carico di lavoro sia stato in grado di soddisfare le esigenze aziendali, ma non disponi di un quadro di riferimento per determinare il successo. 
+  Non sei in grado di stabilire se l'applicazione pronta all'uso commerciale utilizzata per la tua organizzazione è conveniente. 

 **Vantaggi dell'adozione di questa best practice:** Identificando indicatori chiave delle prestazioni, puoi ottenere risultati aziendali da utilizzare come test dello stato e del successo del carico di lavoro. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alta 

## Guida all'implementazione
Guida all'implementazione
+  Identificazione degli indicatori chiave di prestazione: identifica gli indicatori chiave di prestazione (KPI) basati su risultati attesi in termini di business e clienti. Valuta i KPI per determinare il successo del carico di lavoro. 

# OPS08-BP02 Definizione dei parametri del carico di lavoro
OPS08-BP02 Definizione dei parametri del carico di lavoro

 Definisci i parametri del carico di lavoro per misurare il raggiungimento dei KPI (ad esempio, carrelli degli acquisti abbandonati, ordini effettuati, costo, prezzo e spesa allocata per il carico di lavoro). Definisci i parametri del carico di lavoro per misurarne lo stato (ad esempio, tempo di risposta dell'interfaccia, percentuale di errori, richieste effettuate, richieste completate e utilizzo). Valuta i parametri per stabilire se il carico di lavoro raggiunge i risultati previsti e per comprendere lo stato del carico di lavoro. 

 È consigliabile inviare i dati di log a un servizio come CloudWatch Logs e generare parametri a partire dalle osservazioni dei contenuti di log necessari. 

 CloudWatch dispone di funzionalità specializzate quali [Amazon CloudWatch Insights per .NET e SQL Server](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/appinsights-what-is.html) e [Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) che possono aiutarti a identificare e configurare parametri chiave, log e allarmi per le risorse applicative e lo stack tecnologico specificamente supportati. 

 **Anti-pattern comuni:** 
+  Hai definito parametri standard, non associati ad alcun KPI o personalizzati per qualsiasi carico di lavoro. 
+  Si verificano errori nei calcoli dei parametri che produrranno risultati non validi. 
+  Non sono stati definiti parametri per il carico di lavoro. 
+  Le misurazioni riguardano solo la disponibilità. 

 **Vantaggi dell'adozione di questa best practice:** Definendo e valutando i parametri del carico di lavoro, puoi determinarne lo stato e misurare i risultati aziendali ottenuti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alta 

## Guida all'implementazione
Guida all'implementazione
+  Definizione dei parametri del carico di lavoro: definisci i parametri del carico di lavoro per misurare il raggiungimento dei KPI. Definisci i parametri del carico di lavoro per misurare lo stato del carico di lavoro e dei singoli componenti. Valuta i parametri per stabilire se il carico di lavoro raggiunge i risultati previsti e per comprendere lo stato del carico di lavoro. 
  +  [Pubblicazione di parametri personalizzati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Ricerca e filtraggio dei dati di log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Pubblicazione di parametri personalizzati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Ricerca e filtraggio dei dati di log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

# OPS08-BP03 Raccolta e analisi dei parametri del carico di lavoro
OPS08-BP03 Raccolta e analisi dei parametri del carico di lavoro

 Esegui revisioni proattive regolari dei parametri per identificare le tendenze e stabilire dove sono necessarie risposte adeguate. 

 Devi aggregare i dati di log della tua applicazione, dei componenti del carico di lavoro, dei servizi e delle chiamate API in un servizio come CloudWatch Logs. Genera parametri dalle osservazioni dei contenuti di log necessari per consentire analisi approfondite delle prestazioni delle attività operative. 

 In AWS puoi analizzare i parametri del carico di lavoro e identificare i problemi operativi grazie alla funzionalità di machine learning di [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html). AWS DevOps Guru fornisce notifiche relative ai problemi operativi, con consigli [mirati e proattivi](https://docs.aws.amazon.com/devops-guru/latest/userguide/view-insights.html) per risolvere tali problemi e mantenere integra l'applicazione. 

 Nel modello di responsabilità condivisa AWS, le parti relative al monitoraggio vengono passate a te attraverso [Dashboard AWS Health](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/). Questo pannello di controllo fornisce avvisi e indicazioni per la correzione dei problemi quando in AWS si verificano eventi che possono avere ripercussioni su di te. I clienti iscritti al supporto Business ed Enterprise hanno a loro volta accesso all' [API AWS Health](https://docs.aws.amazon.com/health/latest/ug/getting-started-api.html), il che consente loro di integrare i propri sistemi di gestione degli eventi. 

 In AWS è possibile [esporta i dati di log in Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) oppure [inviare log direttamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) a [Amazon S3](https://aws.amazon.com/s3/) per lo storage a lungo termine. Utilizzando [AWS Glue](https://aws.amazon.com/glue/), è possibile individuare e preparare i dati di log in Amazon S3 per l'analisi, archiviando i metadati associati nel [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), grazie all'integrazione nativa con AWS Glue, quindi, può essere utilizzato per analizzare i dati di log, eseguendo query tramite SQL standard. Utilizzando uno strumento di business intelligence come [Quick](https://aws.amazon.com/quicksight/) puoi visualizzare, esplorare e analizzare i tuoi dati. 

 Una [soluzione](https://aws.amazon.com/solutions/centralized-logging/?did=sl_card&trk=sl_card) alternativa sarebbe quella di utilizzare [Amazon OpenSearch Service](https://aws.amazon.com/elasticsearch-service/) e [i pannelli di controllo di OpenSearch](https://aws.amazon.com/elasticsearch-service/the-elk-stack/kibana/) per raccogliere, analizzare e visualizzare i log su AWS per più account e Regioni AWS. 

 **Anti-pattern comuni:** 
+  Il team di progettazione della rete ti chiede le tariffe correnti di utilizzo della larghezza di banda della rete. Secondo i parametri correnti, l'utilizzo della rete è al 35%. Come misura di risparmio sui costi, viene ridotta la capacità del circuito causando problemi di connettività diffusi, poiché la misurazione effettuata in un determinato momento non rifletteva l'andamento dei tassi di utilizzo. 
+  Il router ha generato errori. Ha registrato errori di memoria non critici con frequenza maggiore fino al completamento dell'errore. Non hai rilevato questo andamento e di conseguenza non hai sostituito la memoria difettosa prima che il router causasse un'interruzione del servizio. 

 **Vantaggi dell'adozione di questa best practice:** Raccogliendo e analizzando i parametri del carico di lavoro, puoi comprenderne lo stato e ottenere informazioni sulle tendenze che possono avere un impatto di esso o sul raggiungimento dei risultati aziendali. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alta 

## Guida all'implementazione
Guida all'implementazione
+  Raccolta e analisi dei parametri del carico di lavoro: esegui regolarmente revisioni proattive dei parametri per identificare le tendenze e stabilire dove occorrono risposte adeguate. 
  +  [Utilizzare i parametri Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Raccolta di parametri e registri da istanze Amazon EC2 e da server on-premise con l'agente di CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Amazon OpenSearch Service](https://aws.amazon.com/elasticsearch-service/) 
+  [Dashboard AWS Health](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [Raccolta di parametri e registri da istanze Amazon EC2 e da server on-premise con l'agente di CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Utilizzare i parametri Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS08-BP04 Definizione di baseline per i parametri del carico di lavoro
OPS08-BP04 Definizione di baseline per i parametri del carico di lavoro

 Definisci le baseline per i parametri in modo da fornire i valori previsti di base per il confronto e l'identificazione dei componenti con prestazioni basse o alte. Identifica le soglie di miglioramento, verifica e intervento. 

 **Anti-pattern comuni:** 
+  Un server è in esecuzione al 95% di utilizzo della CPU e ti viene chiesto se ciò è positivo o negativo. L'utilizzo della CPU su tale server non segue la baseline, quindi non hai idea se ciò sia positivo o negativo. 

 **Vantaggi dell'adozione di questa best practice:** Definendo i valori dei parametri di base, è possibile valutare i valori dei parametri correnti e le tendenze dei parametri per determinare se è necessaria un'azione. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
Guida all'implementazione
+  Definizione di baseline per i parametri del carico di lavoro: definisci le baseline per i parametri del carico di lavoro in modo da fornire i valori previsti di base per il confronto. 
  +  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 

# OPS08-BP05 Studio dei modelli di attività previsti per il carico di lavoro
OPS08-BP05 Studio dei modelli di attività previsti per il carico di lavoro

 Definisci modelli di attività del carico di lavoro per identificare comportamenti anomali in modo da rispondere in modo appropriato, se necessario. 

 CloudWatch, tramite la funzionalità [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) , applica algoritmi statistici e di machine learning per generare una gamma di valori previsti che rappresentano il normale comportamento dei parametri. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) può servire per identificare comportamenti anomali tramite la correlazione di eventi, l'analisi dei registri e l'applicazione del machine learning per analizzare la telemetria del carico di lavoro. Se vengono rilevati comportamenti inattesi, fornisce i [parametri e gli eventi correlati](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) con consigli per affrontare il comportamento. 

 **Anti-pattern comuni:** 
+  Stai esaminando i log di utilizzo della rete e vedi che questo è aumentato tra le 11:30 e le 13:30 e poi di nuovo alle 16:30 alle 18:00. Non sai se questo deve essere considerato normale o meno. 
+  I server Web si riavviano ogni sera alle 03:00. Non sai se questo è un comportamento previsto. 

 **Vantaggi dell'adozione di questa best practice:** Acquisendo modelli di comportamento, puoi riconoscere comportamenti imprevisti e intervenire, se necessario. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
Guida all'implementazione
+  Studio di modelli di attività previsti per il carico di lavoro: definisci modelli di attività del carico di lavoro per stabilire quando un comportamento non rientra nei valori previsti, in modo da poter rispondere adeguatamente se necessario. 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 

# OPS08-BP06 Attivazione di un avviso quando i risultati del carico di lavoro sono a rischio
OPS08-BP06 Attivazione di un avviso quando i risultati del carico di lavoro sono a rischio

 Attiva un avviso quando i risultati del carico di lavoro sono a rischio, in modo da poter rispondere adeguatamente, se necessario. 

 Idealmente, in precedenza hai identificato una soglia di parametro raggiunta la quale si deve attivare l'allarme, oppure un evento che puoi utilizzare per attivare una risposta automatizzata. 

 In AWS, è possibile utilizzare [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) per creare script canary e monitorare endpoint e API, eseguendo le stesse azioni intraprese dai clienti. Grazie alla telemetria generata e alle [informazioni ottenute](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_Details.html) identifichi i problemi prima che interessino i clienti. 

 Puoi anche utilizzare [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) per cercare e analizzare in modo interattivo i dati di log utilizzando un linguaggio di query appositamente creato. Gli approfondimenti CloudWatch Logs rilevano automaticamente [i campi nei log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData-discoverable-fields.html) dei servizi AWS e i registri eventi personalizzati in JSON. Si dimensiona in base al volume di log e alla complessità delle query e fornisce risposte in pochi secondi, aiutandoti a individuare i fattori associati all'incidente. 

 **Anti-pattern comuni:** 
+  Non disponi della connettività di rete. Nessuno lo sa. Nessuno sta cercando di identificare il motivo o intraprendere un'azione per ripristinare la connettività. 
+  Dopo una patch, le istanze persistenti non sono disponibili, creando disagi agli utenti. I tuoi utenti hanno aperto casi di supporto. Nessuno ha ricevuto notifiche. Nessuno sta intervenendo. 

 **Vantaggi dell'adozione di questa best practice:** Riconoscendo lo stato di rischio dei risultati aziendali e attivando avvisi sulla necessità di intervento, hai l'opportunità di prevenire o mitigare l'impatto di un incidente. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
Guida all'implementazione
+  Attivazione di un avviso quando i risultati del carico di lavoro sono a rischio: invia un avviso quando i risultati del carico di lavoro sono a rischio, in modo da rispondere in modo appropriato, se necessario. 
  +  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nel carico di lavoro
OPS08-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nel carico di lavoro

 Attiva un avviso quando vengono rilevate delle anomalie nel carico di lavoro, in modo da poter rispondere adeguatamente, se necessario. 

 L'analisi dei parametri del carico di lavoro nel corso del tempo potrebbe stabilire modelli di comportamento che puoi quantificare in modo sufficiente per definire un evento o attivare un allarme in risposta. 

 Una volta addestrata, la funzionalità [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) può essere utilizzata per inviare [allarmi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) in caso di anomalie rilevate o può fornire i valori previsti sovrapposti su un [grafico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) di dati dei parametri per un confronto continuo. 

 **Anti-pattern comuni:** 
+  Le vendite del sito Web di vendita al dettaglio sono aumentate improvvisamente e in modo significativo. Nessuno lo sa. Nessuno sta cercando di identificare ciò che ha portato a questo picco. Nessuno interviene per garantire ai clienti un'esperienza di qualità sotto il carico aggiuntivo. 
+  Dopo l'applicazione di una patch, i tuoi server persistenti si riavviano spesso creando disagi gli utenti. In genere i server si riavviano al massimo fino a tre volte. Nessuno lo sa. Nessuno sta cercando di identificare il motivo per cui ciò si verifica. 

 **Vantaggi dell'adozione di questa best practice:** Comprendendo i modelli di comportamento del carico di lavoro, puoi identificare comportamenti imprevisti e intervenire, se necessario. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Bassa 

## Guida all'implementazione
Guida all'implementazione
+  Attivazione di un avviso in caso di rilevamento di anomalie: invia un avviso quando vengono rilevate anomalie del carico di lavoro, in modo da rispondere in modo appropriato, se necessario. 
  +  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri
OPS08-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri

 Crea una vista a livello di business delle tue operazioni del carico di lavoro, per stabilire se le esigenze sono soddisfatte e per identificare gli aspetti da migliorare per raggiungere gli obiettivi di business. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario. 

 AWS, inoltre, fornisce supporto per strumenti di business intelligence e sistemi per l'analisi di registri di terze parti attraverso API e SDK del servizio AWS (ad esempio Grafana, Kibana e Logstash). 

 **Anti-pattern comuni:** 
+  Il tempo di risposta della pagina non è mai stato considerato determinante per la soddisfazione dei clienti. Non hai mai stabilito un parametro o una soglia per il tempo di risposta della pagina. I tuoi clienti si lamentano della lentezza. 
+  Non hai raggiunto i tuoi obiettivi minimi in termini di tempo di risposta. Nel tentativo di migliorare il tempo di risposta, hai ampliato i server delle applicazioni. Ora stai superando gli obiettivi di tempo di risposta con un margine significativo e disponi anche di una notevole capacità inutilizzata che stai pagando. 

 **Vantaggi dell'adozione di questa best practice:** Esaminando e rivedendo i KPI e i parametri, puoi capire in che modo il carico di lavoro supporta il raggiungimento dei risultati aziendali e identificare i punti di miglioramento per ottenerli. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Basso 

## Guida all'implementazione
Guida all'implementazione
+  Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri: crea una panoramica a livello aziendale delle operazioni dei carichi di lavoro per stabilire se le esigenze sono soddisfatte e identificare le aree migliorabili per raggiungere gli obiettivi aziendali. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario. 
  +  [Utilizzo dei pannelli di controllo Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [Che cos'è l'analisi dei log?](https://aws.amazon.com/log-analytics/) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Utilizzo dei pannelli di controllo Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [Che cos'è l'analisi dei log?](https://aws.amazon.com/log-analytics/) 

# OPS 9 Come fai a comprendere lo stato delle operazioni?


 Definisci, acquisisci e analizza i parametri delle operazioni per ottenere visibilità sugli eventi delle operazioni, in modo da intraprendere le azioni appropriate. 

**Topics**
+ [

# OPS09-BP01 Identificazione degli indicatori chiave di prestazione
](ops_operations_health_define_ops_kpis.md)
+ [

# OPS09-BP02 Definizione dei parametri delle operazioni
](ops_operations_health_design_ops_metrics.md)
+ [

# OPS09-BP03 Raccolta e analisi dei parametri delle operazioni
](ops_operations_health_collect_analyze_ops_metrics.md)
+ [

# OPS09-BP04 Definizione delle baseline per i parametri delle operazioni
](ops_operations_health_ops_metric_baselines.md)
+ [

# OPS09-BP05 Acquisizione dei modelli di attività previsti per le operazioni
](ops_operations_health_learn_ops_usage_patterns.md)
+ [

# OPS09-BP06 Attivazione di un avviso quando i risultati delle operazioni sono a rischio
](ops_operations_health_ops_outcome_alerts.md)
+ [

# OPS09-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nelle operazioni
](ops_operations_health_ops_anomaly_alerts.md)
+ [

# OPS09-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri
](ops_operations_health_biz_level_view_ops.md)

# OPS09-BP01 Identificazione degli indicatori chiave di prestazione
OPS09-BP01 Identificazione degli indicatori chiave di prestazione

 Identifica gli indicatori chiave di prestazione (KPI) in base all'obiettivo desiderato (ad esempio, fornitura di nuove caratteristiche) e ai risultati dei clienti (ad esempio, casi del servizio clienti). Valuta i KPI per determinare il successo delle operazioni. 

 **Anti-pattern comuni:** 
+  I dirigenti aziendali ti chiedono in che si raggiungono gli obiettivi aziendali con operazioni di successo, ma non disponi di un quadro di riferimento per determinare il successo. 
+  Non sei in grado di determinare se le finestre di manutenzione hanno un impatto sui risultati aziendali. 

 **Vantaggi dell'adozione di questa best practice:** Identificando indicatori chiave delle prestazioni, puoi ottenere risultati aziendali da utilizzare come test dello stato e del successo delle tue operazioni. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alta 

## Guida all'implementazione
Guida all'implementazione
+  Identificazione degli indicatori chiave di prestazione: identifica gli indicatori chiave di prestazione (KPI) basati su risultati attesi in termini di business e clienti. Valuta i KPI per determinare il successo delle operazioni. 

# OPS09-BP02 Definizione dei parametri delle operazioni
OPS09-BP02 Definizione dei parametri delle operazioni

 Definisci i parametri delle operazioni per misurare il raggiungimento dei KPI (ad esempio, distribuzioni riuscite e distribuzioni non riuscite). Definisci i parametri delle operazioni per misurare lo stato delle attività operative (ad esempio, tempo medio per rilevare un incidente (MTTD) e tempo medio per il ripristino (MTTR) in seguito a un incidente). Valuta i parametri per stabilire se le operazioni raggiungono i risultati previsti e per comprendere lo stato delle loro attività. 

 **Anti-pattern comuni:** 
+  I parametri delle operazioni sono basati su ciò che il team ritiene ragionevole. 
+  Si verificano errori nei calcoli dei parametri che produrranno risultati non validi. 
+  Non disponi di parametri definiti per le attività operative. 

 **Vantaggi dell'adozione di questa best practice:** Definendo e valutando i parametri delle operazioni, puoi determinare lo stato delle tue attività operative e misurare i risultati aziendali ottenuti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alto 

## Guida all'implementazione
Guida all'implementazione
+  Definizione dei parametri delle operazioni: definisci i parametri delle operazioni per misurare il raggiungimento dei KPI. Definisci i parametri delle operazioni per misurare lo stato delle operazioni e delle relative attività. Valuta i parametri per stabilire se le operazioni raggiungono i risultati previsti e comprendere lo stato delle operazioni. 
  +  [Pubblicazione di parametri personalizzati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Ricerca e filtraggio dei dati di log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [AWS Answers: Centralized Logging (AWS Answers: registrazione centralizzata)](https://aws.amazon.com/answers/logging/centralized-logging/) 
+  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Rilevare e reagire a modifiche dello stato della pipeline con Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Pubblicazione di parametri personalizzati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Ricerca e filtraggio dei dati di log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Video correlati:** 
+  Creazione di un piano di monitoraggio 

# OPS09-BP03 Raccolta e analisi dei parametri delle operazioni
OPS09-BP03 Raccolta e analisi dei parametri delle operazioni

 Esegui regolarmente revisioni proattive dei parametri per identificare le tendenze e stabilire dove sono necessarie risposte adeguate. 

 È consigliabile aggregare i dati di registro relativi all'esecuzione delle attività e delle chiamate API operative in un servizio come CloudWatch Logs. Genera parametri dalle osservazioni dei contenuti di log necessari per ottenere informazioni dettagliate sulle prestazioni delle attività operative. 

 In AWS è possibile [esporta i dati di log in Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) oppure [inviare log direttamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) a [Amazon S3](https://aws.amazon.com/s3/) per lo storage a lungo termine. Utilizzando [AWS Glue](https://aws.amazon.com/glue/), è possibile individuare e preparare i dati di log in Amazon S3 per l'analisi, archiviando i metadati associati nel [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), grazie all'integrazione nativa con AWS Glue, quindi, può essere utilizzato per analizzare i dati di log, eseguendo query tramite SQL standard. Utilizzando uno strumento di business intelligence come [Quick](https://aws.amazon.com/quicksight/) puoi visualizzare, esplorare e analizzare i tuoi dati. 

 **Anti-pattern comuni:** 
+  La distribuzione coerente di nuove funzionalità è considerata un indicatore chiave delle prestazioni. Non disponi di un metodo per misurare la frequenza delle distribuzioni. 
+  Registri le distribuzioni, le distribuzioni sottoposte a rollback, le patch e le patch di rollback per tenere traccia delle attività operative, ma nessuno esamina i parametri. 
+  L'obiettivo RTO (Recovery Time Objective) per ripristinare il database perso è di al massimo 15 minuti, definiti quando il sistema è stato distribuito ed era privo di utenti. Ora hai 10.000 utenti e sei in attività da due anni. Un ripristino recente ha richiesto più di due ore. Questo non è stato registrato e nessuno lo sa. 

 **Vantaggi dell'adozione di questa best practice:** Raccogliendo e analizzando i parametri delle operazioni, puoi comprenderne lo stato e ottenere informazioni sulle tendenze che possono avere un impatto di esse o sul raggiungimento dei risultati aziendali. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alto 

## Guida all'implementazione
Guida all'implementazione
+  Raccolta e analisi dei parametri delle operazioni: esegui regolarmente revisioni proattive dei parametri per identificare le tendenze e determinare dove occorrono risposte adeguate. 
  +  [Utilizzare i parametri Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Raccolta di parametri e registri da istanze Amazon EC2 e da server on-premise con l'agente di CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Raccolta di parametri e registri da istanze Amazon EC2 e da server on-premise con l'agente di CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Utilizzare i parametri Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS09-BP04 Definizione delle baseline per i parametri delle operazioni
OPS09-BP04 Definizione delle baseline per i parametri delle operazioni

 Definisci le baseline per i parametri in modo da fornire i valori previsti di base per il confronto e l'identificazione delle attività operative con prestazioni basse e alte. 

 **Anti-pattern comuni:** 
+  Ti è stato chiesto di indicare il tempo previsto per la distribuzione. Non hai misurato il tempo necessario per la distribuzione e non sei in grado di determinare i tempi previsti. 
+  Ti è stato chiesto di indicare il tempo necessario per risolvere un problema con i server applicazioni. Non disponi di informazioni sul tempo necessario per il ripristino dal primo contatto del cliente. Non disponi di informazioni sul tempo necessario per il ripristino dalla prima identificazione di un problema tramite il monitoraggio. 
+  Ti è stato chiesto il numero del personale di supporto necessario durante il fine settimana. Non hai idea del numero di casi di supporto tipici durante un fine settimana e non puoi fornire una stima. 
+  L'obiettivo del tempo di ripristino per recuperare i database persi è di al massimo 15 minuti, definiti quando il sistema è stato implementato ed era privo di utenti. Ora hai 10.000 utenti e sei in attività da due anni. Non disponi di alcuna informazione su come il tempo di ripristino è cambiato per il database. 

 **Vantaggi dell'adozione di questa best practice:** Definendo i valori dei parametri di base, è possibile valutare i valori dei parametri correnti e le tendenze dei parametri per determinare se è necessaria un'azione. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
Guida all'implementazione
+  Studio di modelli di attività previsti per le operazioni: definisci modelli di attività operative per stabilire quando un comportamento non rientra nei valori previsti, in modo da poter rispondere adeguatamente se necessario. 

# OPS09-BP05 Acquisizione dei modelli di attività previsti per le operazioni
OPS09-BP05 Acquisizione dei modelli di attività previsti per le operazioni

 Definisci modelli di attività operative per identificare comportamenti anomali in modo da rispondere in modo appropriato, se necessario. 

 **Anti-pattern comuni:** 
+  La percentuale di errori di distribuzione è aumentata sostanzialmente di recente. Gli errori vengono risolti in modo indipendente. Non ti accorgi che gli errori corrispondono alle distribuzioni di un nuovo dipendente che non ha familiarità con il sistema di gestione della distribuzione. 

 **Vantaggi dell'adozione di questa best practice:** Studiando i modelli di comportamento, puoi riconoscere comportamenti imprevisti e intervenire, se necessario. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
Guida all'implementazione
+  Studio di modelli di attività previsti per le operazioni: definisci modelli di attività operative per stabilire quando un comportamento non rientra nei valori previsti, in modo da poter rispondere adeguatamente se necessario. 

# OPS09-BP06 Attivazione di un avviso quando i risultati delle operazioni sono a rischio
OPS09-BP06 Attivazione di un avviso quando i risultati delle operazioni sono a rischio

 Ogni volta che i risultati delle operazioni sono a rischio, è necessario attivare un avviso e determinare le azioni da intraprendere. I risultati delle operazioni sono costituiti da qualsiasi attività che supporta un carico di lavoro in produzione. Sono incluse tutte le operazioni, dall'implementazione di nuove versioni delle applicazioni al ripristino da interruzione. I risultati delle operazioni devono essere trattati con la stessa importanza dei risultati aziendali. 

I team del software devono identificare i parametri e le attività delle operazioni chiave e creare i relativi avvisi. Gli avvisi devono essere tempestivi e fruibili. Se viene generato un avviso, è necessario includere un riferimento a un runbook o un playbook corrispondente. Gli avvisi senza un'azione corrispondente possono portare al cosiddetto affaticamento dagli avvisi ("alert fatigue").

 **Risultato desiderato:** quando le attività operative sono a rischio, vengono inviati avvisi per individuare l'azione da intraprendere. Gli avvisi spiegano il motivo per cui sono stati generati e includono il riferimento a un playbook per analizzare o a un runbook per mitigare. Ove possibile, i runbook vengono automatizzati e vengono inviate le notifiche. 

 **Anti-pattern comuni:** 
+ Si analizza un incidente e vengono compilati i casi di supporto. I casi di supporto stanno violando l'Accordo sul livello di servizio (SLA) ma non vengono generati avvisi. 
+ Un'implementazione in produzione pianificata per mezzanotte è stata ritardata a causa di modifiche del codice dell'ultimo minuto. Non viene generato alcun avviso e l'implementazione si blocca.
+ Si verifica un'interruzione della produzione ma non vengono inviati avvisi.
+  Il tempo di implementazione è costantemente al di sotto delle stime. Non viene intrapresa alcuna azione per analizzare. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Gli avvisi per i risultati delle operazioni a rischio aumentano la tua capacità di supportare il carico di lavoro anticipando i problemi. 
+  I risultati aziendali sono migliorati grazie all'integrità delle operazioni. 
+  Il rilevamento e la risoluzione dei problemi operativi sono migliorati. 
+  L'integrità operativa complessiva è aumentata. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
Guida all'implementazione

 I risultati delle operazioni devono essere definiti prima di poter inviare gli avvisi. Inizia stabilendo quali attività operative sono più importanti per l'organizzazione: eseguire l'implementazione in produzione in meno di due ore o rispondere a una richiesta di supporto entro un determinato periodo di tempo? L'organizzazione deve definire le attività operative chiave e come vengono misurate in modo che possano essere monitorate, migliorate e segnalate. È necessaria una posizione centrale in cui archiviare e analizzare la telemetria del carico di lavoro e delle operazioni. Lo stesso meccanismo deve essere in grado di attivare un avviso quando l'esito di un'operazione è a rischio. 

 **Esempio del cliente** 

 È stato attivato un allarme CloudWatch durante un'implementazione di routine presso AnyCompany Retail. Il lead time per l'implementazione è stato violato. Amazon EventBridge ha creato un OpsItem in AWS Systems Manager OpsCenter. Il team delle operazioni cloud utilizza un playbook per analizzare il problema e nota che una modifica dello schema richiede più tempo del previsto. Avvisa lo sviluppatore di turno e continua a monitorare l'implementazione. Una volta completata l'implementazione, il team delle operazioni cloud risolve OpsItem. Il team esamina l'incidente per l'analisi dopo il completamento. 

## Passaggi dell'implementazione
Passaggi dell'implementazione

1. Se non hai identificato KPI, parametri e attività delle operazioni, lavora sull'implementazione delle best practice precedenti per questa domanda (da OPS09-BP01 a OPS09-BP05). 
   +  I clienti Supporto con [Supporto Enterprise](https://aws.amazon.com/premiumsupport/plans/enterprise/) possono richiedere il [workshop sui KPI operativi](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) al proprio Technical Account Manager (TAM). Questo workshop collaborativo ti aiuta a definire i KPI e i parametri delle operazioni allineati agli obiettivi di business, senza costi aggiuntivi. Contatta il Technical Account Manager per ulteriori informazioni. 

1.  Dopo aver stabilito le attività operative, i KPI e i parametri, configura gli avvisi nella piattaforma di osservabilità. Gli avvisi devono avere un'azione associata, come un playbook o un runbook. Gli avvisi senza un'azione devono essere evitati. 

1.  Occorre valutare nel tempo i parametri, i KPI e le attività delle operazioni per identificare le aree di miglioramento. Acquisisci i feedback in runbook e playbook dagli operatori per identificare le aree di miglioramento nella risposta agli avvisi. 

1.  Gli avvisi devono includere un meccanismo per contrassegnarli come falsi positivi che porta alla revisione delle soglie dei parametri. 

 **Livello di impegno per il piano di implementazione:** medio. Prima di implementare questa best practice, ne esistono diverse altre che devono essere applicate. Una volta identificate le attività operative e stabiliti i KPI operativi, è necessario definire gli avvisi. 

## Risorse
Risorse

 **Best practice correlate:** 
+  [OPS02-BP03 Assegnazione di proprietari identificati alle operazioni che siano responsabili delle relative prestazioni](ops_ops_model_def_activity_owners.md): ogni attività e risultato dell'operazione deve avere un proprietario identificato che è il responsabile e deve essere avvisato quando i risultati sono a rischio. 
+  [OPS03-BP02 Potere di intervento dei membri del team quando i risultati sono a rischio](ops_org_culture_team_emp_take_action.md): quando vengono generati avvisi, il tuo team deve disporre dell'autorità per agire e risolvere il problema. 
+  [OPS09-BP01 Identificazione degli indicatori chiave di prestazione](ops_operations_health_define_ops_kpis.md): gli avvisi sui risultati delle operazioni iniziano con l'identificazione dei KPI delle operazioni. 
+  [OPS09-BP02 Definizione dei parametri delle operazioni](ops_operations_health_design_ops_metrics.md): adotta questa best practice prima di iniziare a generare avvisi. 
+  [OPS09-BP03 Raccolta e analisi dei parametri delle operazioni](ops_operations_health_collect_analyze_ops_metrics.md): la raccolta centralizzata dei parametri delle operazioni è necessaria per creare gli avvisi. 
+  [OPS09-BP04 Definizione delle baseline per i parametri delle operazioni](ops_operations_health_ops_metric_baselines.md): le linee di base dei parametri operativi offrono la possibilità di ottimizzare gli avvisi ed evitare il cosiddetto affaticamento dagli avvisi ("alert fatigue"). 
+  [OPS09-BP05 Acquisizione dei modelli di attività previsti per le operazioni](ops_operations_health_learn_ops_usage_patterns.md): puoi migliorare la precisione dei tuoi avvisi comprendendo gli schemi di attività per gli eventi operativi. 
+  [OPS09-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri](ops_operations_health_biz_level_view_ops.md): valuta il raggiungimento dei risultati delle operazioni per assicurarti che i tuoi KPI e i tuoi parametri siano validi. 
+  [OPS10-BP02 Definizione di un processo per ogni avviso](ops_event_response_process_per_alert.md): ogni avviso deve avere un runbook o un playbook associato e fornire il contesto per la persona che viene avvisata. 
+  [OPS11-BP02 Esecuzione di analisi post-incidente](ops_evolve_ops_perform_rca_process.md): conduci un'analisi post-incidente dopo l'avviso per identificare le aree di miglioramento. 

 **Documenti correlati:** 
+  [AWS Deployment Pipelines Reference Architecture: Application Pipeline Architecture (Architettura di riferimento per l'implementazione di pipeline AWS: architettura della pipeline dell'applicazione)](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Getting Started with Agile / DevOps Metrics (GitLab: Introduzione ai parametri Agile/DevOps)](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Video correlati:** 
+  [Aggregate and Resolve Operational Issues Using AWS Systems Manager OpsCenter (Aggregazione e risoluzione dei problemi operativi utilizzando AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrate AWS Systems Manager OpsCenter with Amazon CloudWatch Alarms (Integrazione degli allarmi Amazon CloudWatch in AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrate Your Data Sources into AWS Systems Manager OpsCenter Using Amazon EventBridge (Integrazione delle origini dei dati in AWS Systems Manager OpsCenter utilizzando Amazon EventBridge)](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Esempi correlati:** 
+  [Automate remediation actions for Amazon EC2 notifications and beyond using Amazon EC2 Systems Manager Automation and AWS Health (Automatizzazione delle azioni di correzioni per le notifiche Amazon Amazon EC2 e oltre utilizzando Automazione Amazon Amazon EC2 Systems Manager e AWS Health)](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS Management and Governance Tools Workshop - Operations 2022 (Workshop sugli strumenti di gestione e governanceAWS - Operazioni)](https://mng.workshop.aws/operations-2022.html) 
+  [Ingesting, analyzing, and visualizing metrics with DevOps Monitoring Dashboard on AWS (Inserimento, analisi e visualizzazione di parametri con il dashboard di monitoraggio DevOps in AWS)](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Servizi correlati:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Supporto Proactive Services - Operations KPI Workshop (Servizi proattivi di Supporto AWS - Workshop sui KPI operativi)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [CloudWatch Eventi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nelle operazioni
OPS09-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nelle operazioni

 Attiva un avviso quando vengono rilevate delle anomalie nelle operazioni in modo da poter rispondere adeguatamente, se necessario. 

 L'analisi dei parametri delle operazioni nel corso del tempo potrebbe stabilire modelli di comportamento che puoi quantificare in modo sufficiente per definire un evento o attivare un allarme in risposta. 

 Una volta addestrata, la funzionalità [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) può essere utilizzata per inviare [allarmi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) in caso di anomalie rilevate o può fornire i valori previsti sovrapposti su un [grafico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) di dati dei parametri per un confronto continuo. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) può servire per identificare comportamenti anomali tramite la correlazione di eventi, l'analisi dei registri e l'applicazione del machine learning per analizzare la telemetria del carico di lavoro. Al [informazioni](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) ottenute vengono presentate con i dati e i consigli pertinenti. 

 **Anti-pattern comuni:** 
+  Stai applicando una patch al parco istanze. La patch è stata testata correttamente nell'ambiente di test. La patch ha esito negativo per una grande percentuale di istanze nel parco istanze. Non fai nulla. 
+  Noti che le distribuzioni sono disponibili a partire da venerdì a fine giornata. L'organizzazione ha finestre di manutenzione predefinite il martedì e il giovedì. Non fai nulla. 

 **Vantaggi dell'adozione di questa best practice:** Comprendendo i modelli di comportamento delle operazioni puoi identificare comportamenti imprevisti e intervenire, se necessario. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Bassa 

## Guida all'implementazione
Guida all'implementazione
+  Attivazione di un avviso quando vengono rilevate anomalie nelle operazioni: invia un avviso quando vengono rilevate anomalie nelle operazioni, in modo da rispondere in modo appropriato, se necessario. 
  +  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Rilevare e reagire a modifiche dello stato della pipeline con Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri
OPS09-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri

 Crea una vista a livello di business delle attività operative, per stabilire se le esigenze sono soddisfatte e per identificare gli aspetti da migliorare per raggiungere gli obiettivi di business. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario. 

 AWS inoltre fornisce supporto per strumenti di business intelligence e sistemi per l'analisi di registri di terze parti attraverso API e SDK del servizio AWS (ad esempio Grafana, Kibana e Logstash). 

 **Anti-pattern comuni:** 
+  La frequenza delle distribuzioni è aumentata con l'aumento del numero di team di sviluppo. Il numero previsto di distribuzioni definito è una volta alla settimana. La distribuzione viene effettuata regolarmente ogni giorno. Quando è presente un problema con il sistema di distribuzione e le distribuzioni non sono possibili, tale problema non viene rilevato per giorni. 
+  Quando precedentemente la tua azienda ha fornito supporto solo durante le ore lavorative principali dal lunedì al venerdì. Per gli incidenti hai stabilito un obiettivo relativo al tempo di risposta che corrisponde al giorno lavorativo successivo. Di recente hai iniziato a offrire una copertura di supporto 24x7 con un obiettivo di tempo di risposta di 2 ore. Il personale notturno è sovraccarico e i clienti non sono contenti. Non vi sono indicazioni in merito all'esistenza di problemi legati ai tempi di risposta agli incidenti perché i report si riferiscono a un obiettivo specificato come "giorno lavorativo successivo". 

 **Vantaggi dell'adozione di questa best practice:** Esaminando e rivedendo i KPI e i parametri, puoi capire in che modo il carico di lavoro supporta il raggiungimento dei risultati aziendali e puoi identificare i punti di miglioramento per ottenerli. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Basso 

## Guida all'implementazione
Guida all'implementazione
+  Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri: crea una panoramica a livello aziendale delle attività operative per determinare se le esigenze sono soddisfatte e per identificare le aree che devono essere migliorate per raggiungere gli obiettivi aziendali. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario. 
  +  [Utilizzo dei pannelli di controllo Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [Che cos'è l'analisi dei log?](https://aws.amazon.com/log-analytics/) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Utilizzo dei pannelli di controllo Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [Che cos'è l'analisi dei log?](https://aws.amazon.com/log-analytics/) 

# OPS 10 In che modo gestisci gli eventi del carico di lavoro e delle operazioni?


 Prepara e convalida le procedure in risposta agli eventi per ridurre al minimo il loro impatto sul tuo carico di lavoro. 

**Topics**
+ [

# OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Definizione di un processo per ogni avviso
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Definizione dei percorsi di escalation
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Abilitazione delle notifiche push
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Automazione delle risposte agli eventi
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi
OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi

L'organizzazione dispone di processi per gestire eventi, incidenti e problemi. *Gli eventi* sono costituiti da quanto accade nel carico di lavoro che non necessita di un intervento umano. *Gli incidenti* sono invece eventi che richiedono un intervento. *I problemi* sono eventi ricorrenti che richiedono un intervento o che non possono essere risolti. È necessario disporre di processi per ridurre l'impatto degli eventi sull'azienda e accertarsi di reagire in modo tempestivo e appropriato.

Quando nel carico di lavoro si verificano problemi o incidenti, è necessario utilizzare i processi per gestirli. In che modo puoi comunicare lo stato dell'evento alle parti coinvolte? Chi supervisiona la gestione delle risposte? Quali sono gli strumenti da utilizzare per ridurre l'impatto dell'evento? Questi sono solo alcuni esempi delle domande a cui devi rispondere per creare un processo di risposta affidabile. 

I processi devono essere documentati in una posizione centralizzata, nonché essere disponibili a chiunque sia coinvolto nel carico di lavoro. Se non è presente un wiki o un archivio di documenti centralizzato, è possibile utilizzare un repository per il controllo delle versioni. In questo modo sarà possibile mantenere aggiornati i piani in modo conforme all'evoluzione dei processi. 

I problemi possono essere automatizzati. Il tempo richiesto per la gestione di questo tipo di eventi potrebbe essere altrimenti destinato all'innovazione. Comincia a creare un processo ripetibile per ridurre il più possibile l'impatto del problema. Gradualmente cerca di concentrarti sull'automazione della riduzione o risoluzione del problema sottostante. In questo modo il tempo risparmiato potrà essere dedicato a migliorare il carico di lavoro. 

**Risultato desiderato:** l'organizzazione dispone di un processo per gestire eventi, incidenti e problemi. Questi processi sono documentati e archiviati in una posizione centralizzata e vengono aggiornati in base alle modifiche apportate. 

**Anti-pattern comuni:** 
+  Un incidente si verifica durante il fine settimana e il tecnico di turno non sa cosa fare. 
+  Un cliente invia un messaggio e-mail indicando che l'applicazione non è disponibile. Riavvii il server per correggere il problema. Questo incidente si verifica di frequente. 
+  Si verifica un incidente e più team si mettono a lavorare in modo indipendente per risolvere il problema. 
+  Le implementazioni vengono eseguite nel carico di lavoro senza essere documentate. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Nel carico di lavoro è presente un itinerario di audit degli eventi. 
+  Viene ridotto il tempo necessario per il ripristino in seguito a un incidente. 
+  I membri dei team riescono a risolvere incidenti e problemi in modo coerente. 
+  Durante l'analisi di un incidente, l'approccio è condiviso e più consolidato. 

 **Livello di rischio associato se questa best practice non fosse adottata:** alto 

## Guida all'implementazione
Guida all'implementazione

L'implementazione di questa best practice prevede la registrazione degli eventi dei carichi di lavoro. Per la gestione di incidenti e problemi, è necessario ricorrere ai processi. I processi sono documentati, condivisi e aggiornati con frequenza. I problemi vengono identificati, classificati in base alla priorità e corretti. 

 **Esempio del cliente** 

AnyCompany Retail ha dedicato una parte del proprio wiki interno ai processi destinati alla gestione di eventi, incidenti e problemi. Tutti gli eventi vengono inviati ad [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html). I problemi vengono classificati come OpsItems (elementi di lavoro operativi) in [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) e classificati in base alla loro priorità al fine della loro risoluzione, in modo da ridurre eventuali attività indifferenziate. Quando i processi subiscono variazioni, vengono aggiornati nel wiki interno. Viene utilizzato [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) per gestire gli incidenti e coordinare le attività di riduzione dell'impatto. 

## Passaggi dell'implementazione
Passaggi dell'implementazione

1.  Eventi 
   +  Tieni traccia degli eventi che si verificano nel carico di lavoro, anche se non è richiesto alcun intervento umano. 
   +  Collabora con le parti coinvolte a livello di piano di lavoro per redigere un elenco di eventi di cui tenere traccia, ad esempio implementazioni completate o applicazioni di patch riuscite. 
   +  Puoi utilizzare servizi come [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) oppure [Amazon Simple Notification Service](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) per generare eventi personalizzati per il monitoraggio. 

1.  Incidenti 
   +  Per prima cosa, definisci il piano di comunicazione per gli incidenti. Quali parti coinvolte devono essere informate? In che modo le tieni costantemente aggiornate? Chi supervisiona il coordinamento di tutte queste attività? È consigliabile creare un canale di chat per le comunicazioni e il coordinamento. 
   +  Definisci un percorso di escalation per i team di supporto del carico di lavoro, soprattutto se il team non dispone di turni di rotazione della disponibilità. A seconda del livello di supporto, è possibile segnalare un caso anche mediante il Supporto. 
   +  Crea un playbook per l'analisi dell'incidente. È necessario includere il piano di comunicazione e, in dettaglio, i passaggi del processo di indagine. Includi il controllo del [Dashboard AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) nel processo di indagine. 
   +  Documenta il piano di risposta agli incidenti. Comunica il piano di gestione degli incidenti in modo che i clienti esterni siano consapevoli delle regole da seguire e dei comportamenti richiesti previsti. Fornisci formazione ai membri dei team su come utilizzare tale piano di gestione. 
   +  I clienti possono utilizzare [Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) per configurare e gestire il piano di risposta agli incidenti. 
   +  I clienti del supporto Enterprise possono richiedere di seguire il [workshop relativo alla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) al proprio Technical Account Manager (TAM). Questo workshop guidato consente di verificare il piano di risposta agli incidenti esistente e ti aiuta a individuare eventuali aree da migliorare. 

1.  Problemi 
   +  I problemi devono essere identificati e registrati nel sistema ITSM in uso. 
   +  Identifica tutti i problemi noti ed eseguine una catalogazione in base all'impegno necessario per correggerli e al relativo impatto sul carico di lavoro.   
![\[Matrice delle priorità delle operazioni per la catalogazione dei problemi.\]](http://docs.aws.amazon.com/it_it/wellarchitected/2022-03-31/framework/images/impact-effort-chart.png)
   +  Per prima cosa risolvi i problemi caratterizzati dall'impatto più alto e dal minore impegno. Dopodiché, passa alla risoluzione dei problemi che rientrano nel quadrante basso impatto/basso impegno. 
   +  Puoi utilizzare [Systems Manager OpsCenter](systems-manager/latest/userguide/OpsCenter.html) per identificare i problemi, associarvi runbook e tenerne traccia. 

**Livello di impegno per il piano di implementazione:** medio. Devi disporre sia di un processo che degli strumenti per implementare questa best practice. Documenta i processi e rendili disponibili a chiunque sia coinvolto nel carico di lavoro. Aggiornali con frequenza. È disponibile un processo per la gestione e la migrazione o la risoluzione dei problemi. 

## Risorse
Risorse

 **Best practice correlate:** 
+  [OPS07-BP03 Utilizzo di runbook per eseguire le procedure](ops_ready_to_support_use_runbooks.md): i problemi noti necessitano di un runbook associato in modo tale che le attività di attenuazione dell'impatto siano coerenti.
+  [OPS07-BP04 Utilizzo dei playbook per analizzare i problemi](ops_ready_to_support_use_playbooks.md): gli incidenti devono essere analizzati con il supporto di playbook. 
+  [OPS11-BP02 Esecuzione di analisi post-incidente](ops_evolve_ops_perform_rca_process.md): esegui sempre un post-mortem dopo aver eseguito un ripristino in seguito a un incidente. 

 **Documenti correlati:** 
+  [Atlassian - Incident management in the age of DevOps (Atlassian - Gestione degli incidenti nell'era di DevOps)](https://www.atlassian.com/incident-management/devops) 
+  [AWS Security Incident Response Guide (Guida alle risposte agli incidenti di sicurezza di AWS)](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Incident Management in the Age of DevOps and SRE (Gestione degli incidenti nell'era di DevOps e SRE)](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management? (PagerDuty - Che cos'è la gestione degli incidenti?)](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Video correlati:** 
+  [AWS re:Invent 2020: Incident management in a distributed organization (Gestione degli incidenti in un'organizzazione distribuita)](https://www.youtube.com/watch?v=tyS1YDhMVos) 
+  [AWS re:Invent 2021 - Building next-gen applications with event-driven architectures (Sviluppo di applicazioni di nuova generazione con architetture basate su eventi)](https://www.youtube.com/watch?v=U5GZNt0iMZY) 
+  [AWS Supports You \$1 Exploring the Incident Management Tabletop Exercise (Esplorazione degli esercizi di simulazione relativi alla gestione degli incidenti)](https://www.youtube.com/watch?v=0m8sGDx-pRM) 
+  [Strumento di gestione degli incidenti AWS Systems Manager - AWS Virtual Workshops (Workshop virtuali AWS)](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [AWS What's Next ft. Incident Manager \$1 AWS Events (Novità di AWS e Incident Manager \$1 Eventi AWS)](https://www.youtube.com/watch?v=uZL-z7cII3k) 

 **Esempi correlati:** 
+  [AWS Management and Governance Tools Workshop - OpsCenter (Workshop sugli strumenti di gestione e governance AWS - OpsCenter)](https://mng.workshop.aws/ssm/capability_hands-on_labs/opscenter.html) 
+  [AWS Proactive Services – Incident Management Workshop (Servizi AWS proattivi – Workshop relativo alla gestione degli incidenti)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [Building an event-driven application with Amazon EventBridge (Sviluppo di un'applicazione basata su eventi con Amazon EventBridge)](https://aws.amazon.com/blogs/compute/building-an-event-driven-application-with-amazon-eventbridge/) 
+  [Building event-driven architectures on AWS (Sviluppo di architetture basate su eventi in AWS)](https://catalog.us-east-1.prod.workshops.aws/workshops/63320e83-6abc-493d-83d8-f822584fb3cb/en-US/) 

 **Servizi correlati:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) 
+  [Dashboard AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS10-BP02 Definizione di un processo per ogni avviso
OPS10-BP02 Definizione di un processo per ogni avviso

 Predisponi una risposta specifica (runbook o playbook), con un proprietario espressamente identificato, per ogni evento per cui viene generato un avviso. Questo consente di rispondere agli eventi operativi in modo rapido ed efficace, evitando che gli eventi che richiedono un'azione vengano oscurati da notifiche meno importanti. 

 **Anti-pattern comuni:** 
+  Il sistema di monitoraggio presenta un flusso di connessioni approvate insieme ad altri messaggi. Il volume di messaggi è così grande che vengono ignorati dei messaggi di errore periodici che richiedono il tuo intervento. 
+  Ricevi un avviso che informa che il sito Web è inattivo. Non esiste un processo definito per quando ciò si verifica. Sei costretto ad adottare un approccio ad hoc per diagnosticare e risolvere il problema. Lo sviluppo di questo processo durante l'esecuzione prolunga il tempo di ripristino. 

 **Vantaggi dell'adozione di questa best practice:** Generando avvisi solo quando è necessaria un'operazione, eviti che gli avvisi di basso valore nascondano quelli più importanti. Creando un processo per ogni avviso che richiede un'azione, puoi attivare una risposta coerente e immediata agli eventi nel tuo ambiente. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alta 

## Guida all'implementazione
Guida all'implementazione
+  Un processo per ogni avviso: a ogni evento per cui viene generato un avviso deve corrispondere una risposta specifica (runbook o playbook) con un responsabile specificatamente identificato (ad esempio, una persona, un team o un ruolo) a cui spetta il compito di completare correttamente l'azione. L'esecuzione della risposta può essere automatizzata o condotta da un altro team, ma il proprietario è tenuto ad assicurarsi che il processo produca i risultati previsti. Questi processi consentono di rispondere agli eventi operativi in modo rapido ed efficace, evitando che gli eventi che richiedono un'azione vengano oscurati da notifiche meno importanti. Ad esempio, è possibile applicare l'auto scaling per ridimensionare un front-end Web, ma il team operativo può essere tenuto a garantire che le regole e i limiti di auto scaling siano appropriati per le esigenze del carico di lavoro. 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Funzionalità di Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Video correlati:** 
+  [Creazione di un piano di monitoraggio](https://www.youtube.com/watch?v=OMmiGETJpfU) 

# OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business
OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business

 Quando più eventi richiedono un intervento, assicurati che quelli più significativi per il business vengano affrontati per primi. Sono esempi di effetti il decesso o l'infortunio, le perdite finanziarie o i danni alla reputazione o alla fiducia. 

 **Anti-pattern comuni:** 
+  Ricevi una richiesta di supporto per aggiungere una configurazione della stampante per un utente. Durante la risoluzione del problema, ricevi una richiesta di supporto per sito di vendita al dettaglio non disponibile. Dopo aver completato la configurazione della stampante per l'utente, inizi a lavorare sul problema del sito Web. 
+  Ti viene segnalato che il sito Web di vendita al dettaglio e il sistema delle buste paga non sono disponibili. Non sai quale deve avere la priorità. 

 **Vantaggi dell'adozione di questa best practice:** Dare priorità alle risposte agli incidenti che determinano il maggiore impatto sull'azienda consente di gestire tale impatto. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medio 

## Guida all'implementazione
Guida all'implementazione
+  Definizione della priorità degli eventi operativi in base agli effetti sul business: assicurati che quando più eventi richiedono un intervento, quelli più significativi per l'azienda vengano affrontati per primi. Sono esempi di effetti il decesso o l'infortunio, le perdite finanziarie, le violazioni alle normative o i danni alla reputazione o alla fiducia. 

# OPS10-BP04 Definizione dei percorsi di escalation
OPS10-BP04 Definizione dei percorsi di escalation

 Definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi che attivano l'escalation e le procedure di escalation. In particolare, identifica i proprietari per ogni azione per assicurare risposte rapide ed efficaci agli eventi operativi. 

 Stabilisci in quali circostanze serve una decisione umana prima che venga intrapresa un'azione. Collabora con i responsabili delle decisioni affinché questa decisione venga presa in anticipo e l'operazione sia preapprovata, in modo che la MTTR non si prolunghi in attesa di una risposta. 

 **Anti-pattern comuni:** 
+  Il sito di vendita al dettaglio non è disponibile. Il runbook per il ripristino del sito non è chiaramente comprensibile. Inizi a chiamare i colleghi sperando che qualcuno possa aiutarti. 
+  Ricevi un caso di supporto per un'applicazione irraggiungibile. Non disponi delle autorizzazioni per amministrare il sistema. Non sai a chi compete questo compito. Tenti di contattare il proprietario del sistema che ha aperto il caso ma non ricevi risposta. Né tu né i tuoi colleghi sapete chi bisogna contattare per il sistema. 

 **Vantaggi dell'adozione di questa best practice:** Definendo le escalation e i trigger e le procedure per l'escalation, abiliti l'aggiunta sistematica di risorse a un incidente con una rapidità adeguata all'impatto. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
Guida all'implementazione
+  Definizione di percorsi di escalation: definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi che attivano l'escalation e le relative procedure. Ad esempio, l'escalation di un problema dai tecnici del supporto ai tecnici del supporto senior quando i runbook non riescono a risolvere il problema o quando è trascorso un determinato periodo di tempo. Un altro esempio di percorso di escalation appropriato è l'inoltro dai tecnici del supporto senior al team di sviluppo per un carico di lavoro quando i playbook non sono in grado di identificare un percorso di correzione o quando è trascorso un determinato periodo di tempo. In particolare, identifica i proprietari per ogni azione per assicurare risposte rapide ed efficaci agli eventi operativi. Le escalation possono includere terze parti, ad esempio un provider di connettività di rete o un produttore di software. Possono anche includere i responsabili decisionali autorizzati identificati per i sistemi interessati. 

# OPS10-BP05 Abilitazione delle notifiche push
OPS10-BP05 Abilitazione delle notifiche push

 Informa direttamente gli utenti (ad esempio tramite e-mail o SMS) quando i servizi che utilizzano sono interessati e quando vengono ripristinate le normali condizioni operative, per consentire loro di adottare le misure appropriate. 

 **Anti-pattern comuni:** 
+  La tua applicazione sta sperimentando un Denial of Service distribuito e non risponde da giorni. Non è presente alcun messaggio di errore. Non hai inviato un'e-mail di notifica. Non hai inviato notifiche testuali. Non hai condiviso le informazioni sui social media. I clienti sono frustrati e sono alla ricerca di altri fornitori in grado di supportarli. 
+  Lunedì la tua applicazione ha avuto problemi dopo una patch ed è rimasta fuori uso per un paio d'ore. Martedì la tua applicazione ha avuto problemi dopo la distribuzione del codice e per un paio d'ore ha mostrato segni di instabilità. Mercoledì l'applicazione ha avuto problemi a seguito di una distribuzione del codice per mitigare una vulnerabilità di sicurezza associata alla patch non riuscita e non è stata disponibile per un paio d'ore. Giovedì i tuoi clienti, infastiditi, hanno iniziato a cercare un altro fornitore che potesse supportarli. 
+  Per il fine settimana avevi già previsto interventi di manutenzione che avrebbero reso irraggiungibile l'applicazione. Non ne dai comunicazione ai tuoi clienti. Alcuni dei tuoi clienti avevano pianificato attività che comportavano l'uso della tua applicazione. Sono molto frustrati dal fatto che la tua applicazione non è disponibile. 

 **Vantaggi dell'adozione di questa best practice:** Definendo le notifiche e i trigger e le procedure per le notifiche, i clienti vengono informati e possono rispondere nel caso siano interessati dai problemi riguardanti il carico di lavoro. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
Guida all'implementazione
+  Abilitazione delle notifiche push: informa direttamente gli utenti (ad esempio tramite e-mail o SMS) quando i servizi che utilizzano sono interessati e quando vengono ripristinate le normali condizioni operative, per consentire loro di adottare le misure appropriate. 
  +  [Caratteristiche di Amazon SES](https://aws.amazon.com/ses/details/) 
  +  [Che cos'è Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 
  +  [Impostazione delle notifiche Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Caratteristiche di Amazon SES](https://aws.amazon.com/ses/details/) 
+  [Impostazione delle notifiche Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 
+  [Che cos'è Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 

# OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo
OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo

 Fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i team tecnici interni, la dirigenza e i clienti, per comunicare lo stato operativo corrente del business e fornire i parametri desiderati. 

 Puoi creare pannelli di controllo utilizzando [Amazon CloudWatch Dashboards](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) sulle home page personalizzabili nella console di CloudWatch. Utilizzando servizi di business intelligence come [Quick](https://aws.amazon.com/quicksight/) è possibile creare e pubblicare pannelli di controllo interattivi sullo stato del carico di lavoro e delle operazioni (ad esempio tassi di ordinazione, utenti connessi e tempi di transazione). Crea pannelli di controllo che mostrino visualizzazioni dei parametri a livello di sistema e a livello di azienda. 

 **Anti-pattern comuni:** 
+  Su richiesta, esegui un report sull'utilizzo corrente dell'applicazione per la gestione. 
+  Durante un incidente, vieni contattato ogni 20 minuti da un responsabile di sistema preoccupato, che desidera sapere se il problema è stato risolto. 

 **Vantaggi dell'adozione di questa best practice:** Creando pannelli di controllo, abiliti l'accesso self-service alle informazioni consentendo ai clienti di informarsi autonomamente e decidere se devono intervenire. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medio 

## Guida all'implementazione
Guida all'implementazione
+  Comunicazione dello stato tramite pannelli di controllo: fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i team tecnici, la leadership e i clienti, per comunicare l'attuale stato operativo del business e fornire i parametri rilevanti. Offrire un'opzione self-service per le informazioni di stato riduce le interruzioni derivanti dalla gestione delle richieste di stato da parte dei team operativi. Ne sono esempi i pannelli di controllo di Amazon CloudWatch e Dashboard AWS Health. 
  +  [I pannelli di controllo di CloudWatch creano e utilizzano visualizzazioni dei parametri personalizzate](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [I pannelli di controllo di CloudWatch creano e utilizzano visualizzazioni dei parametri personalizzate](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

# OPS10-BP07 Automazione delle risposte agli eventi
OPS10-BP07 Automazione delle risposte agli eventi

 Automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali e assicurare risposte rapide e coerenti. 

 I modi per automatizzare le azioni di runbook o playbook su AWS sono molteplici. Per rispondere a un evento dovuto a una modifica dello stato nelle risorse AWS o a eventi personalizzati, è necessario creare [regole CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) per attivare risposte tramite destinazioni CloudWatch (ad esempio funzioni Lambda, argomenti Amazon Simple Notification Service (Amazon SNS), attività Amazon ECS e AWS Systems Manager Automation). 

 Per rispondere a un determinato parametro che supera una soglia per una certa risorsa (ad es. il tempo di attesa), è consigliabile creare [avvisi CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) per eseguire una o più azioni utilizzando azioni Amazon EC2 e azioni Auto Scaling o per inviare una notifica a un argomento Amazon SNS. Se è necessario eseguire azioni personalizzate in risposta a un avviso, richiama Lambda con una notifica Amazon SNS. Utilizza Amazon SNS per pubblicare notifiche di eventi e messaggi di escalation, in modo tale che le persone ne siano informate. 

 AWS supporta, inoltre, sistemi di terze parti attraverso API e SDK del servizio AWS. Esistono numerosi strumenti forniti da partner AWS e da terze parti che consentono di monitorare e inviare notifiche e risposte. Alcuni di questi strumenti sono New Relic, Splunk, Loggly, SumoLogic e Datadog. 

 Rendi disponibili le procedure manuali cruciali in modo tale che possano essere utilizzate quando le procedure automatiche non riescono. 

 **Anti-pattern comuni:** 
+  Uno sviluppatore controlla il proprio codice. Questo evento avrebbe potuto essere utilizzato per avviare una compilazione e quindi eseguire il test, ma non accade nulla. 
+  L'applicazione registra un errore specifico prima di smettere di funzionare. La procedura per riavviare l'applicazione è ben nota e può essere creata con script. Puoi utilizzare l'evento di log per richiamare uno script e riavviare l'applicazione. Ricevi, invece, una chiamata alle 3 di domenica mattina, quando si verifica l'errore, perché sei reperibile come risorsa responsabile della correzione del sistema. 

 **Vantaggi dell'adozione di questa best practice:** Utilizzando le risposte automatizzate agli eventi, riduci il tempo necessario per rispondere e limiti l'introduzione di errori da attività manuali. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Bassa 

## Guida all'implementazione
Guida all'implementazione
+  Automazione delle risposte agli eventi: automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali e per assicurare risposte rapide e coerenti. 
  +  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creazione di una regola di CloudWatch Events che si attiva al verificarsi di un evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
  +  [Creazione di una regola di CloudWatch Events che si attiva con una chiamata API AWS tramite AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
  +  [Esempi di eventi CloudWatch Events dai servizi supportati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 

## Risorse
Risorse

 **Documenti correlati:** 
+  [Funzionalità di Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Esempi di eventi CloudWatch Events dai servizi supportati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 
+  [Creazione di una regola di CloudWatch Events che si attiva con una chiamata API AWS tramite AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
+  [Creazione di una regola di CloudWatch Events che si attiva al verificarsi di un evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Video correlati:** 
+  [Creazione di un piano di monitoraggio](https://www.youtube.com/watch?v=OMmiGETJpfU) 

 **Esempi correlati:**