# OPS 9 Come fai a comprendere lo stato delle operazioni?
<a name="w2aac19b5b9b7"></a>

 Definisci, acquisisci e analizza i parametri delle operazioni per ottenere visibilità sugli eventi delle operazioni, in modo da intraprendere le azioni appropriate. 

**Topics**
+ [OPS09-BP01 Identificazione degli indicatori chiave di prestazione](ops_operations_health_define_ops_kpis.md)
+ [OPS09-BP02 Definizione dei parametri delle operazioni](ops_operations_health_design_ops_metrics.md)
+ [OPS09-BP03 Raccolta e analisi dei parametri delle operazioni](ops_operations_health_collect_analyze_ops_metrics.md)
+ [OPS09-BP04 Definizione delle baseline per i parametri delle operazioni](ops_operations_health_ops_metric_baselines.md)
+ [OPS09-BP05 Acquisizione dei modelli di attività previsti per le operazioni](ops_operations_health_learn_ops_usage_patterns.md)
+ [OPS09-BP06 Attivazione di un avviso quando i risultati delle operazioni sono a rischio](ops_operations_health_ops_outcome_alerts.md)
+ [OPS09-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nelle operazioni](ops_operations_health_ops_anomaly_alerts.md)
+ [OPS09-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri](ops_operations_health_biz_level_view_ops.md)

# OPS09-BP01 Identificazione degli indicatori chiave di prestazione
<a name="ops_operations_health_define_ops_kpis"></a>

 Identifica gli indicatori chiave di prestazione (KPI) in base all'obiettivo desiderato (ad esempio, fornitura di nuove caratteristiche) e ai risultati dei clienti (ad esempio, casi del servizio clienti). Valuta i KPI per determinare il successo delle operazioni. 

 **Anti-pattern comuni:** 
+  I dirigenti aziendali ti chiedono in che si raggiungono gli obiettivi aziendali con operazioni di successo, ma non disponi di un quadro di riferimento per determinare il successo. 
+  Non sei in grado di determinare se le finestre di manutenzione hanno un impatto sui risultati aziendali. 

 **Vantaggi dell'adozione di questa best practice:** Identificando indicatori chiave delle prestazioni, puoi ottenere risultati aziendali da utilizzare come test dello stato e del successo delle tue operazioni. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alta 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Identificazione degli indicatori chiave di prestazione: identifica gli indicatori chiave di prestazione (KPI) basati su risultati attesi in termini di business e clienti. Valuta i KPI per determinare il successo delle operazioni. 

# OPS09-BP02 Definizione dei parametri delle operazioni
<a name="ops_operations_health_design_ops_metrics"></a>

 Definisci i parametri delle operazioni per misurare il raggiungimento dei KPI (ad esempio, distribuzioni riuscite e distribuzioni non riuscite). Definisci i parametri delle operazioni per misurare lo stato delle attività operative (ad esempio, tempo medio per rilevare un incidente (MTTD) e tempo medio per il ripristino (MTTR) in seguito a un incidente). Valuta i parametri per stabilire se le operazioni raggiungono i risultati previsti e per comprendere lo stato delle loro attività. 

 **Anti-pattern comuni:** 
+  I parametri delle operazioni sono basati su ciò che il team ritiene ragionevole. 
+  Si verificano errori nei calcoli dei parametri che produrranno risultati non validi. 
+  Non disponi di parametri definiti per le attività operative. 

 **Vantaggi dell'adozione di questa best practice:** Definendo e valutando i parametri delle operazioni, puoi determinare lo stato delle tue attività operative e misurare i risultati aziendali ottenuti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alto 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Definizione dei parametri delle operazioni: definisci i parametri delle operazioni per misurare il raggiungimento dei KPI. Definisci i parametri delle operazioni per misurare lo stato delle operazioni e delle relative attività. Valuta i parametri per stabilire se le operazioni raggiungono i risultati previsti e comprendere lo stato delle operazioni. 
  +  [Pubblicazione di parametri personalizzati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Ricerca e filtraggio dei dati di log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [AWS Answers: Centralized Logging (AWS Answers: registrazione centralizzata)](https://aws.amazon.com/answers/logging/centralized-logging/) 
+  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Rilevare e reagire a modifiche dello stato della pipeline con Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Pubblicazione di parametri personalizzati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Ricerca e filtraggio dei dati di log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Video correlati:** 
+  Creazione di un piano di monitoraggio 

# OPS09-BP03 Raccolta e analisi dei parametri delle operazioni
<a name="ops_operations_health_collect_analyze_ops_metrics"></a>

 Esegui regolarmente revisioni proattive dei parametri per identificare le tendenze e stabilire dove sono necessarie risposte adeguate. 

 È consigliabile aggregare i dati di registro relativi all'esecuzione delle attività e delle chiamate API operative in un servizio come CloudWatch Logs. Genera parametri dalle osservazioni dei contenuti di log necessari per ottenere informazioni dettagliate sulle prestazioni delle attività operative. 

 In AWS è possibile [esporta i dati di log in Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) oppure [inviare log direttamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) a [Amazon S3](https://aws.amazon.com/s3/) per lo storage a lungo termine. Utilizzando [AWS Glue](https://aws.amazon.com/glue/), è possibile individuare e preparare i dati di log in Amazon S3 per l'analisi, archiviando i metadati associati nel [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), grazie all'integrazione nativa con AWS Glue, quindi, può essere utilizzato per analizzare i dati di log, eseguendo query tramite SQL standard. Utilizzando uno strumento di business intelligence come [Quick](https://aws.amazon.com/quicksight/) puoi visualizzare, esplorare e analizzare i tuoi dati. 

 **Anti-pattern comuni:** 
+  La distribuzione coerente di nuove funzionalità è considerata un indicatore chiave delle prestazioni. Non disponi di un metodo per misurare la frequenza delle distribuzioni. 
+  Registri le distribuzioni, le distribuzioni sottoposte a rollback, le patch e le patch di rollback per tenere traccia delle attività operative, ma nessuno esamina i parametri. 
+  L'obiettivo RTO (Recovery Time Objective) per ripristinare il database perso è di al massimo 15 minuti, definiti quando il sistema è stato distribuito ed era privo di utenti. Ora hai 10.000 utenti e sei in attività da due anni. Un ripristino recente ha richiesto più di due ore. Questo non è stato registrato e nessuno lo sa. 

 **Vantaggi dell'adozione di questa best practice:** Raccogliendo e analizzando i parametri delle operazioni, puoi comprenderne lo stato e ottenere informazioni sulle tendenze che possono avere un impatto di esse o sul raggiungimento dei risultati aziendali. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alto 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Raccolta e analisi dei parametri delle operazioni: esegui regolarmente revisioni proattive dei parametri per identificare le tendenze e determinare dove occorrono risposte adeguate. 
  +  [Utilizzare i parametri Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Raccolta di parametri e registri da istanze Amazon EC2 e da server on-premise con l'agente di CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Raccolta di parametri e registri da istanze Amazon EC2 e da server on-premise con l'agente di CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Utilizzare i parametri Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS09-BP04 Definizione delle baseline per i parametri delle operazioni
<a name="ops_operations_health_ops_metric_baselines"></a>

 Definisci le baseline per i parametri in modo da fornire i valori previsti di base per il confronto e l'identificazione delle attività operative con prestazioni basse e alte. 

 **Anti-pattern comuni:** 
+  Ti è stato chiesto di indicare il tempo previsto per la distribuzione. Non hai misurato il tempo necessario per la distribuzione e non sei in grado di determinare i tempi previsti. 
+  Ti è stato chiesto di indicare il tempo necessario per risolvere un problema con i server applicazioni. Non disponi di informazioni sul tempo necessario per il ripristino dal primo contatto del cliente. Non disponi di informazioni sul tempo necessario per il ripristino dalla prima identificazione di un problema tramite il monitoraggio. 
+  Ti è stato chiesto il numero del personale di supporto necessario durante il fine settimana. Non hai idea del numero di casi di supporto tipici durante un fine settimana e non puoi fornire una stima. 
+  L'obiettivo del tempo di ripristino per recuperare i database persi è di al massimo 15 minuti, definiti quando il sistema è stato implementato ed era privo di utenti. Ora hai 10.000 utenti e sei in attività da due anni. Non disponi di alcuna informazione su come il tempo di ripristino è cambiato per il database. 

 **Vantaggi dell'adozione di questa best practice:** Definendo i valori dei parametri di base, è possibile valutare i valori dei parametri correnti e le tendenze dei parametri per determinare se è necessaria un'azione. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Studio di modelli di attività previsti per le operazioni: definisci modelli di attività operative per stabilire quando un comportamento non rientra nei valori previsti, in modo da poter rispondere adeguatamente se necessario. 

# OPS09-BP05 Acquisizione dei modelli di attività previsti per le operazioni
<a name="ops_operations_health_learn_ops_usage_patterns"></a>

 Definisci modelli di attività operative per identificare comportamenti anomali in modo da rispondere in modo appropriato, se necessario. 

 **Anti-pattern comuni:** 
+  La percentuale di errori di distribuzione è aumentata sostanzialmente di recente. Gli errori vengono risolti in modo indipendente. Non ti accorgi che gli errori corrispondono alle distribuzioni di un nuovo dipendente che non ha familiarità con il sistema di gestione della distribuzione. 

 **Vantaggi dell'adozione di questa best practice:** Studiando i modelli di comportamento, puoi riconoscere comportamenti imprevisti e intervenire, se necessario. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Studio di modelli di attività previsti per le operazioni: definisci modelli di attività operative per stabilire quando un comportamento non rientra nei valori previsti, in modo da poter rispondere adeguatamente se necessario. 

# OPS09-BP06 Attivazione di un avviso quando i risultati delle operazioni sono a rischio
<a name="ops_operations_health_ops_outcome_alerts"></a>

 Ogni volta che i risultati delle operazioni sono a rischio, è necessario attivare un avviso e determinare le azioni da intraprendere. I risultati delle operazioni sono costituiti da qualsiasi attività che supporta un carico di lavoro in produzione. Sono incluse tutte le operazioni, dall'implementazione di nuove versioni delle applicazioni al ripristino da interruzione. I risultati delle operazioni devono essere trattati con la stessa importanza dei risultati aziendali. 

I team del software devono identificare i parametri e le attività delle operazioni chiave e creare i relativi avvisi. Gli avvisi devono essere tempestivi e fruibili. Se viene generato un avviso, è necessario includere un riferimento a un runbook o un playbook corrispondente. Gli avvisi senza un'azione corrispondente possono portare al cosiddetto affaticamento dagli avvisi ("alert fatigue").

 **Risultato desiderato:** quando le attività operative sono a rischio, vengono inviati avvisi per individuare l'azione da intraprendere. Gli avvisi spiegano il motivo per cui sono stati generati e includono il riferimento a un playbook per analizzare o a un runbook per mitigare. Ove possibile, i runbook vengono automatizzati e vengono inviate le notifiche. 

 **Anti-pattern comuni:** 
+ Si analizza un incidente e vengono compilati i casi di supporto. I casi di supporto stanno violando l'Accordo sul livello di servizio (SLA) ma non vengono generati avvisi. 
+ Un'implementazione in produzione pianificata per mezzanotte è stata ritardata a causa di modifiche del codice dell'ultimo minuto. Non viene generato alcun avviso e l'implementazione si blocca.
+ Si verifica un'interruzione della produzione ma non vengono inviati avvisi.
+  Il tempo di implementazione è costantemente al di sotto delle stime. Non viene intrapresa alcuna azione per analizzare. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Gli avvisi per i risultati delle operazioni a rischio aumentano la tua capacità di supportare il carico di lavoro anticipando i problemi. 
+  I risultati aziendali sono migliorati grazie all'integrità delle operazioni. 
+  Il rilevamento e la risoluzione dei problemi operativi sono migliorati. 
+  L'integrità operativa complessiva è aumentata. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 I risultati delle operazioni devono essere definiti prima di poter inviare gli avvisi. Inizia stabilendo quali attività operative sono più importanti per l'organizzazione: eseguire l'implementazione in produzione in meno di due ore o rispondere a una richiesta di supporto entro un determinato periodo di tempo? L'organizzazione deve definire le attività operative chiave e come vengono misurate in modo che possano essere monitorate, migliorate e segnalate. È necessaria una posizione centrale in cui archiviare e analizzare la telemetria del carico di lavoro e delle operazioni. Lo stesso meccanismo deve essere in grado di attivare un avviso quando l'esito di un'operazione è a rischio. 

 **Esempio del cliente** 

 È stato attivato un allarme CloudWatch durante un'implementazione di routine presso AnyCompany Retail. Il lead time per l'implementazione è stato violato. Amazon EventBridge ha creato un OpsItem in AWS Systems Manager OpsCenter. Il team delle operazioni cloud utilizza un playbook per analizzare il problema e nota che una modifica dello schema richiede più tempo del previsto. Avvisa lo sviluppatore di turno e continua a monitorare l'implementazione. Una volta completata l'implementazione, il team delle operazioni cloud risolve OpsItem. Il team esamina l'incidente per l'analisi dopo il completamento. 

## Passaggi dell'implementazione
<a name="implementation-steps"></a>

1. Se non hai identificato KPI, parametri e attività delle operazioni, lavora sull'implementazione delle best practice precedenti per questa domanda (da OPS09-BP01 a OPS09-BP05). 
   +  I clienti Supporto con [Supporto Enterprise](https://aws.amazon.com/premiumsupport/plans/enterprise/) possono richiedere il [workshop sui KPI operativi](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) al proprio Technical Account Manager (TAM). Questo workshop collaborativo ti aiuta a definire i KPI e i parametri delle operazioni allineati agli obiettivi di business, senza costi aggiuntivi. Contatta il Technical Account Manager per ulteriori informazioni. 

1.  Dopo aver stabilito le attività operative, i KPI e i parametri, configura gli avvisi nella piattaforma di osservabilità. Gli avvisi devono avere un'azione associata, come un playbook o un runbook. Gli avvisi senza un'azione devono essere evitati. 

1.  Occorre valutare nel tempo i parametri, i KPI e le attività delle operazioni per identificare le aree di miglioramento. Acquisisci i feedback in runbook e playbook dagli operatori per identificare le aree di miglioramento nella risposta agli avvisi. 

1.  Gli avvisi devono includere un meccanismo per contrassegnarli come falsi positivi che porta alla revisione delle soglie dei parametri. 

 **Livello di impegno per il piano di implementazione:** medio. Prima di implementare questa best practice, ne esistono diverse altre che devono essere applicate. Una volta identificate le attività operative e stabiliti i KPI operativi, è necessario definire gli avvisi. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS02-BP03 Assegnazione di proprietari identificati alle operazioni che siano responsabili delle relative prestazioni](ops_ops_model_def_activity_owners.md): ogni attività e risultato dell'operazione deve avere un proprietario identificato che è il responsabile e deve essere avvisato quando i risultati sono a rischio. 
+  [OPS03-BP02 Potere di intervento dei membri del team quando i risultati sono a rischio](ops_org_culture_team_emp_take_action.md): quando vengono generati avvisi, il tuo team deve disporre dell'autorità per agire e risolvere il problema. 
+  [OPS09-BP01 Identificazione degli indicatori chiave di prestazione](ops_operations_health_define_ops_kpis.md): gli avvisi sui risultati delle operazioni iniziano con l'identificazione dei KPI delle operazioni. 
+  [OPS09-BP02 Definizione dei parametri delle operazioni](ops_operations_health_design_ops_metrics.md): adotta questa best practice prima di iniziare a generare avvisi. 
+  [OPS09-BP03 Raccolta e analisi dei parametri delle operazioni](ops_operations_health_collect_analyze_ops_metrics.md): la raccolta centralizzata dei parametri delle operazioni è necessaria per creare gli avvisi. 
+  [OPS09-BP04 Definizione delle baseline per i parametri delle operazioni](ops_operations_health_ops_metric_baselines.md): le linee di base dei parametri operativi offrono la possibilità di ottimizzare gli avvisi ed evitare il cosiddetto affaticamento dagli avvisi ("alert fatigue"). 
+  [OPS09-BP05 Acquisizione dei modelli di attività previsti per le operazioni](ops_operations_health_learn_ops_usage_patterns.md): puoi migliorare la precisione dei tuoi avvisi comprendendo gli schemi di attività per gli eventi operativi. 
+  [OPS09-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri](ops_operations_health_biz_level_view_ops.md): valuta il raggiungimento dei risultati delle operazioni per assicurarti che i tuoi KPI e i tuoi parametri siano validi. 
+  [OPS10-BP02 Definizione di un processo per ogni avviso](ops_event_response_process_per_alert.md): ogni avviso deve avere un runbook o un playbook associato e fornire il contesto per la persona che viene avvisata. 
+  [OPS11-BP02 Esecuzione di analisi post-incidente](ops_evolve_ops_perform_rca_process.md): conduci un'analisi post-incidente dopo l'avviso per identificare le aree di miglioramento. 

 **Documenti correlati:** 
+  [AWS Deployment Pipelines Reference Architecture: Application Pipeline Architecture (Architettura di riferimento per l'implementazione di pipeline AWS: architettura della pipeline dell'applicazione)](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Getting Started with Agile / DevOps Metrics (GitLab: Introduzione ai parametri Agile/DevOps)](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Video correlati:** 
+  [Aggregate and Resolve Operational Issues Using AWS Systems Manager OpsCenter (Aggregazione e risoluzione dei problemi operativi utilizzando AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrate AWS Systems Manager OpsCenter with Amazon CloudWatch Alarms (Integrazione degli allarmi Amazon CloudWatch in AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrate Your Data Sources into AWS Systems Manager OpsCenter Using Amazon EventBridge (Integrazione delle origini dei dati in AWS Systems Manager OpsCenter utilizzando Amazon EventBridge)](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Esempi correlati:** 
+  [Automate remediation actions for Amazon EC2 notifications and beyond using Amazon EC2 Systems Manager Automation and AWS Health (Automatizzazione delle azioni di correzioni per le notifiche Amazon Amazon EC2 e oltre utilizzando Automazione Amazon Amazon EC2 Systems Manager e AWS Health)](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS Management and Governance Tools Workshop - Operations 2022 (Workshop sugli strumenti di gestione e governanceAWS - Operazioni)](https://mng.workshop.aws/operations-2022.html) 
+  [Ingesting, analyzing, and visualizing metrics with DevOps Monitoring Dashboard on AWS (Inserimento, analisi e visualizzazione di parametri con il dashboard di monitoraggio DevOps in AWS)](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Servizi correlati:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Supporto Proactive Services - Operations KPI Workshop (Servizi proattivi di Supporto AWS - Workshop sui KPI operativi)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [CloudWatch Eventi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nelle operazioni
<a name="ops_operations_health_ops_anomaly_alerts"></a>

 Attiva un avviso quando vengono rilevate delle anomalie nelle operazioni in modo da poter rispondere adeguatamente, se necessario. 

 L'analisi dei parametri delle operazioni nel corso del tempo potrebbe stabilire modelli di comportamento che puoi quantificare in modo sufficiente per definire un evento o attivare un allarme in risposta. 

 Una volta addestrata, la funzionalità [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) può essere utilizzata per inviare [allarmi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) in caso di anomalie rilevate o può fornire i valori previsti sovrapposti su un [grafico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) di dati dei parametri per un confronto continuo. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) può servire per identificare comportamenti anomali tramite la correlazione di eventi, l'analisi dei registri e l'applicazione del machine learning per analizzare la telemetria del carico di lavoro. Al [informazioni](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) ottenute vengono presentate con i dati e i consigli pertinenti. 

 **Anti-pattern comuni:** 
+  Stai applicando una patch al parco istanze. La patch è stata testata correttamente nell'ambiente di test. La patch ha esito negativo per una grande percentuale di istanze nel parco istanze. Non fai nulla. 
+  Noti che le distribuzioni sono disponibili a partire da venerdì a fine giornata. L'organizzazione ha finestre di manutenzione predefinite il martedì e il giovedì. Non fai nulla. 

 **Vantaggi dell'adozione di questa best practice:** Comprendendo i modelli di comportamento delle operazioni puoi identificare comportamenti imprevisti e intervenire, se necessario. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Bassa 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Attivazione di un avviso quando vengono rilevate anomalie nelle operazioni: invia un avviso quando vengono rilevate anomalie nelle operazioni, in modo da rispondere in modo appropriato, se necessario. 
  +  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Rilevare e reagire a modifiche dello stato della pipeline con Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri
<a name="ops_operations_health_biz_level_view_ops"></a>

 Crea una vista a livello di business delle attività operative, per stabilire se le esigenze sono soddisfatte e per identificare gli aspetti da migliorare per raggiungere gli obiettivi di business. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario. 

 AWS inoltre fornisce supporto per strumenti di business intelligence e sistemi per l'analisi di registri di terze parti attraverso API e SDK del servizio AWS (ad esempio Grafana, Kibana e Logstash). 

 **Anti-pattern comuni:** 
+  La frequenza delle distribuzioni è aumentata con l'aumento del numero di team di sviluppo. Il numero previsto di distribuzioni definito è una volta alla settimana. La distribuzione viene effettuata regolarmente ogni giorno. Quando è presente un problema con il sistema di distribuzione e le distribuzioni non sono possibili, tale problema non viene rilevato per giorni. 
+  Quando precedentemente la tua azienda ha fornito supporto solo durante le ore lavorative principali dal lunedì al venerdì. Per gli incidenti hai stabilito un obiettivo relativo al tempo di risposta che corrisponde al giorno lavorativo successivo. Di recente hai iniziato a offrire una copertura di supporto 24x7 con un obiettivo di tempo di risposta di 2 ore. Il personale notturno è sovraccarico e i clienti non sono contenti. Non vi sono indicazioni in merito all'esistenza di problemi legati ai tempi di risposta agli incidenti perché i report si riferiscono a un obiettivo specificato come "giorno lavorativo successivo". 

 **Vantaggi dell'adozione di questa best practice:** Esaminando e rivedendo i KPI e i parametri, puoi capire in che modo il carico di lavoro supporta il raggiungimento dei risultati aziendali e puoi identificare i punti di miglioramento per ottenerli. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Basso 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri: crea una panoramica a livello aziendale delle attività operative per determinare se le esigenze sono soddisfatte e per identificare le aree che devono essere migliorate per raggiungere gli obiettivi aziendali. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario. 
  +  [Utilizzo dei pannelli di controllo Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [Che cos'è l'analisi dei log?](https://aws.amazon.com/log-analytics/) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Utilizzo dei pannelli di controllo Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [Che cos'è l'analisi dei log?](https://aws.amazon.com/log-analytics/)