

# Gestione
<a name="a-operate"></a>

**Topics**
+ [

# OPS 8. Come utilizzi l'osservabilità del carico di lavoro nella tua organizzazione?
](ops-08.md)
+ [

# OPS 9. Come fai a comprendere lo stato delle operazioni?
](ops-09.md)
+ [

# OPS 10. In che modo gestisci gli eventi del carico di lavoro e delle operazioni?
](ops-10.md)

# OPS 8. Come utilizzi l'osservabilità del carico di lavoro nella tua organizzazione?
<a name="ops-08"></a>

Garantire l'integrità del carico di lavoro sfruttando l'osservabilità. Utilizzare metriche, log e tracce pertinenti per ottenere una visione completa delle prestazioni del carico di lavoro e risolvere i problemi in modo efficiente.

**Topics**
+ [

# OPS08-BP01 Analizza le metriche del carico di lavoro
](ops_workload_observability_analyze_workload_metrics.md)
+ [

# OPS08-BP02 Analizza i registri dei carichi di lavoro
](ops_workload_observability_analyze_workload_logs.md)
+ [

# OPS08-BP03 Analizza le tracce del carico di lavoro
](ops_workload_observability_analyze_workload_traces.md)
+ [

# OPS08-BP04 Creare avvisi fruibili
](ops_workload_observability_create_alerts.md)
+ [

# OPS08-BP05 Creare dashboard
](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Analizza le metriche del carico di lavoro
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 Dopo aver implementato la telemetria dell'applicazione, analizza regolarmente le metriche raccolte. Sebbene latenza, richieste, errori e capacità (o quote) forniscano informazioni dettagliate sulle prestazioni del sistema, è fondamentale dare priorità alla revisione delle metriche relative ai risultati aziendali. Ciò ti assicura di prendere decisioni basate sui dati in linea con i tuoi obiettivi aziendali. 

 **Risultato desiderato:** informazioni dettagliate sulle prestazioni del carico di lavoro che guidano decisioni basate sui dati, garantendo l'allineamento con gli obiettivi aziendali. 

 **Anti-pattern comuni:** 
+  Analisi isolata delle metriche senza considerare il loro impatto sui risultati aziendali. 
+  Eccessiva dipendenza dalle metriche tecniche trascurando quelle aziendali. 
+  Revisione poco frequente delle metriche, perdita di opportunità di prendere decisioni in tempo reale. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Comprensione migliorata della correlazione tra prestazioni tecniche e risultati aziendali. 
+  Processo decisionale migliorato basato su dati in tempo reale. 
+  Identificazione e mitigazione proattive dei problemi prima che influiscano sui risultati aziendali. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Sfrutta strumenti come Amazon CloudWatch per eseguire analisi metriche. AWS servizi come il rilevamento delle CloudWatch anomalie e Amazon DevOps Guru possono essere utilizzati per rilevare anomalie, soprattutto quando le soglie statiche sono sconosciute o quando i modelli di comportamento sono più adatti al rilevamento delle anomalie. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Analizza e revisiona:** revisiona e interpreta regolarmente le metriche relative al carico di lavoro. 

   1.  Dai priorità alle metriche relative ai risultati aziendali rispetto a quelle puramente tecniche. 

   1.  Comprendi l'importanza di picchi, cali o schemi nei dati. 

1.  **Utilizza Amazon CloudWatch: utilizza Amazon** CloudWatch per una visualizzazione centralizzata e un'analisi approfondita. 

   1.  Configura le CloudWatch dashboard per visualizzare le tue metriche e confrontarle nel tempo. 

   1.  Usa [i percentili CloudWatch](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) per avere una visione chiara della distribuzione delle metriche, che può aiutarti a definire e comprendere i valori anomali. SLAs 

   1.  Imposta il [rilevamento delle CloudWatch anomalie](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) per identificare modelli insoliti senza fare affidamento su soglie statiche. 

   1.  Implementa l'[osservabilità CloudWatch tra più account](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) per monitorare e risolvere i problemi delle applicazioni che si estendono su più account all'interno di una regione. 

   1.  Utilizza [CloudWatch Metric Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) per interrogare e analizzare i dati metrici tra account e regioni, identificando tendenze e anomalie. 

   1.  [CloudWatch Applica Metric Math](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) per trasformare, aggregare o eseguire calcoli sulle tue metriche per ottenere informazioni più approfondite. 

1.  **Utilizza Amazon DevOps Guru: incorpora** [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) per il suo rilevamento delle anomalie potenziato dall'apprendimento automatico per identificare i primi segnali di problemi operativi per le tue applicazioni serverless e risolverli prima che abbiano un impatto sui tuoi clienti. 

1.  **Ottimizza in base agli approfondimenti:** prendi decisioni informate sulla base dell'analisi delle metriche per adeguare e migliorare i carichi di lavoro. 

 **Livello di impegno per il piano di implementazione:** medio 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Identifica gli indicatori chiave di prestazione](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementare la telemetria delle applicazioni](ops_observability_application_telemetry.md) 

 **Documenti correlati:** 
+ [ The Wheel Blog - Emphasizing the importance of continually reviewing metrics ](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [ Percentile are important ](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [Usando AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ CloudWatch osservabilità tra più account](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [Interroga le tue metriche con Metrics Insights CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Video correlati:** 
+ [Abilita l'osservabilità tra account in Amazon CloudWatch](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [Introduzione ad Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [Analizza continuamente le metriche utilizzando AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Esempi correlati:** 
+ [ One Observability Workshop ](https://catalog.workshops.aws/observability/en-US/intro)
+ [Acquisire informazioni operative AIOps con Amazon DevOps Guru](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Analizza i registri dei carichi di lavoro
<a name="ops_workload_observability_analyze_workload_logs"></a>

 L'analisi regolare dei log dei carichi di lavoro è essenziale per acquisire una comprensione più approfondita degli aspetti operativi dell'applicazione. Attraverso l'analisi, la consultazione e l'interpretazione efficiente dei dati di log, è possibile ottimizzare continuamente le prestazioni e la sicurezza delle applicazioni. 

 **Risultato desiderato:** informazioni dettagliate sul comportamento dell'applicazione e sulle operazioni derivanti da un'analisi completa dei log, che garantisce la rilevazione e la mitigazione proattiva dei problemi. 

 **Anti-pattern comuni:** 
+  Si trascura l'analisi dei log fino a quando non si verifica un problema critico. 
+  Il mancato utilizzo della suite completa degli strumenti disponibili per l'analisi dei log comporta la perdita di approfondimenti importanti. 
+  Si fa affidamento esclusivamente sulla revisione manuale dei log senza sfruttare le funzionalità di automazione e query. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Identificazione proattiva dei colli di bottiglia operativi, delle minacce alla sicurezza e di altri problemi potenziali. 
+  Utilizzo efficiente dei dati di log per l'ottimizzazione continua dell'applicazione. 
+  Comprensione migliorata del comportamento dell'applicazione, facilitando il debug e la risoluzione dei problemi. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) è un potente strumento per l'analisi dei log. Funzionalità integrate come CloudWatch Logs Insights e Contributor Insights rendono il processo di derivazione di informazioni significative dai log intuitivo ed efficiente. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Configurazione dei CloudWatch registri**: configura applicazioni e servizi per inviare i log ai registri. CloudWatch 

1.  **Usa il rilevamento delle anomalie nei log: utilizza il rilevamento delle** [anomalie di Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) per identificare e segnalare automaticamente modelli di log insoliti. Questo strumento consente di gestire in modo proattivo le anomalie nei log e di rilevare tempestivamente i potenziali problemi. 

1.  **Configura CloudWatch Logs Insights: usa CloudWatch Logs Insights** [per cercare e analizzare in modo interattivo i tuoi dati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) di log. 

   1.  Crea query per estrarre modelli, visualizzare i dati di log e ricavare approfondimenti utili. 

   1.  Usa l'analisi dei [pattern CloudWatch di Logs Insights per analizzare](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html) e visualizzare i pattern di log frequenti. Questa funzionalità consente di comprendere le tendenze operative più comuni e i potenziali valori anomali nei dati di log. 

   1.  Usa [CloudWatch Logs compare (diff)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html) per eseguire analisi differenziali tra diversi periodi di tempo o tra diversi gruppi di log. Questa funzionalità ti consente di individuare le modifiche e valutarne l'impatto sulle prestazioni o sul comportamento del sistema. 

1.  **Monitora i log in tempo reale con Live Tail:** usa [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) per visualizzare i dati dei log in tempo reale. Puoi monitorare attivamente le attività operative dell'applicazione man mano che si verificano, ottenendo una visibilità immediata sulle prestazioni del sistema e sui potenziali problemi. 

1.  **Sfrutta Contributor Insights**: utilizza [CloudWatchContributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) per identificare i migliori oratori in dimensioni ad alta cardinalità come gli indirizzi IP o gli user-agent. 

1.  **Implementa i filtri metrici CloudWatch Logs: configura i filtri metrici CloudWatch ** [Logs per convertire i dati di log in metriche](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) utilizzabili. In questo modo puoi impostare allarmi o analizzare ulteriormente i modelli. 

1.  **Implementa l'[osservabilità CloudWatch tra account](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** monitora e risolvi i problemi delle applicazioni che si estendono su più account all'interno di una regione. 

1.  **Rivedi regolarmente e perfeziona**: rivedi periodicamente le tue strategie di analisi dei log per acquisire tutte le informazioni pertinenti e ottimizzare continuamente le prestazioni delle applicazioni. 

 **Livello di impegno per il piano di implementazione:** medio 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Identifica gli indicatori chiave di prestazione](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementare la telemetria delle applicazioni](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Analizza le metriche del carico di lavoro](ops_workload_observability_analyze_workload_metrics.md) 

 **Documenti correlati:** 
+  [Analisi dei dati di registro con Logs Insights CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Utilizzo di Contributor Insights CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [Creazione e gestione di filtri CloudWatch metrici di log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Video correlati:** 
+  [Analizza i dati di log con CloudWatch Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Usa CloudWatch Contributor Insights per analizzare dati ad alta cardinalità](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Esempi correlati:** 
+  [CloudWatch Registra interrogazioni di esempio](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Analizza le tracce del carico di lavoro
<a name="ops_workload_observability_analyze_workload_traces"></a>

 L'analisi dei dati di tracciamento è fondamentale per ottenere una visione completa del percorso operativo di un'applicazione. Visualizzando e comprendendo le interazioni tra i vari componenti, consente di ottimizzare le prestazioni, identificare i colli di bottiglia e migliorare l'esperienza utente. 

 **Risultato desiderato:** ottieni una chiara visibilità sulle operazioni distribuite della tua applicazione, che si traduce in una risoluzione più rapida dei problemi e in un'esperienza utente migliorata. 

 **Anti-pattern comuni:** 
+  I dati di tracciamento vengono trascurati e ci si affida esclusivamente a log e metriche. 
+  I dati di tracciamento non sono correlati ai log associati. 
+  Vengono ignorate le metriche derivate dalle tracce, come la latenza e i tassi di errore. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Migliora la risoluzione dei problemi e riduci il tempo medio di risoluzione (). MTTR 
+  Informazioni dettagliate sulle dipendenze e sul loro impatto. 
+  Identificazione e correzione rapide dei problemi legati alle prestazioni. 
+  Vengono sfruttate le metriche derivate dalle tracce per un processo decisionale informato. 
+  Esperienze utente migliorate attraverso interazioni con i componenti ottimizzate. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) offre una suite completa per l'analisi dei dati di tracciamento, fornendo una visione olistica delle interazioni con i servizi, monitorando le attività degli utenti e rilevando i problemi di prestazioni. Funzionalità come X-Ray Insights ServiceLens, X-Ray Analytics e Amazon DevOps Guru migliorano la profondità delle informazioni fruibili derivate dai dati di tracciamento. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

 I seguenti passaggi offrono un approccio strutturato per implementare efficacemente l'analisi dei dati di traccia utilizzando i servizi: AWS 

1.  **Integrazione AWS X-Ray**: assicurati che X-Ray sia integrato con le tue applicazioni per acquisire dati di traccia. 

1.  **Analizza le metriche di X-Ray**: approfondisci le metriche ottenute dalle tracce di X-Ray, come latenza, tassi di richieste, tassi di errore e distribuzioni dei tempi di risposta, utilizzando la [mappa dei servizi](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view) per il monitoraggio dello stato delle applicazioni. 

1.  **Utilizzo ServiceLens**: sfrutta la [ServiceLensmappa](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html) per una migliore osservabilità dei tuoi servizi e delle tue applicazioni. Fornisce la visualizzazione integrata di tracce, metriche, log, allarmi e altre informazioni correlate all'integrità. 

1.  **Abilita X-Ray Insights**: 

   1.  Attiva [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) per rilevare in automatico le anomalie nelle tracce. 

   1.  Esamina gli approfondimenti per individuare i modelli e determinare le cause ultime, come l'aumento dei tassi di errore o delle latenze. 

   1.  Consulta la cronologia degli approfondimenti per un'analisi cronologica dei problemi rilevati. 

1.  **Usa X-Ray Analytics**: [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) ti consente di approfondire i dati di tracciamento, individuare modelli ed estrarre informazioni dettagliate. 

1.  **Usa i gruppi di X-Ray**: crea gruppi in X-Ray per filtrare le tracce in base a criteri come l'elevata latenza, per un'analisi più mirata. 

1.  **Incorpora Amazon DevOps Guru**: coinvolgi [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) per trarre vantaggio dai modelli di apprendimento automatico che individuano le anomalie operative nelle tracce. 

1.  **Usa CloudWatch Synthetics**: Usa Synthetics per creare [CloudWatchcanarie](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) per il monitoraggio continuo degli endpoint e dei flussi di lavoro. Questi canary possono integrarsi con X-Ray per fornire dati di tracciamento per un'analisi approfondita delle applicazioni testate. 

1.  **Usa Real User Monitoring (RUM)**: con [AWS X-Ray and CloudWatch RUM, puoi analizzare ed](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html) eseguire il debug del percorso della richiesta partendo dagli utenti finali della tua applicazione fino ai servizi gestiti a valle. AWS In questo modo, puoi identificare le tendenze e gli errori di latenza che hanno un impatto sugli utenti finali. 

1.  **Effettua le correlazioni con i log**: correla i [dati di tracciamento con i log correlati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) all'interno della relativa vista di X-Ray per una prospettiva granulare sul comportamento delle applicazioni. Ciò consente di visualizzare gli eventi del log associati direttamente alle transazioni tracciate. 

1.  **Implementa [l'osservabilità CloudWatch tra account](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** monitora e risolvi i problemi delle applicazioni che si estendono su più account all'interno di una regione. 

 **Livello di impegno per il piano di implementazione:** medio 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS08-BP01 Analizza le metriche del carico di lavoro](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analizza i registri dei carichi di lavoro](ops_workload_observability_analyze_workload_logs.md) 

 **Documenti correlati:** 
+  [Utilizzo ServiceLens per monitorare l'integrità delle applicazioni](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Esplorazione dei dati delle tracce con X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Individuazione delle anomalie nelle tracce con X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Monitoraggio continuo con CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **Video correlati:** 
+  [Analizza ed esegui il debug di applicazioni con Amazon CloudWatch Synthetics & AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Use AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Esempi correlati:** 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Implementazione di X-Ray con AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [CloudWatchModelli Synthetics Canary](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Creare avvisi fruibili
<a name="ops_workload_observability_create_alerts"></a>

 Rilevare e rispondere tempestivamente alle deviazioni di comportamento dell'applicazione è fondamentale. È importante riconoscere quando i risultati basati sugli indicatori chiave di prestazione (KPI) sono a rischio o quando si verificano anomalie impreviste. Basare gli avvisi sui KPI garantisce che i segnali ricevuti siano direttamente correlati all'impatto aziendale od operativo. Questo approccio verso avvisi fruibili promuove risposte proattive e aiuta a mantenere le prestazioni e l'affidabilità del sistema. 

 **Risultati desiderati:** si ricevono avvisi tempestivi, pertinenti e fruibili per l'identificazione e la mitigazione rapida di potenziali problemi, soprattutto quando i risultati dei KPI sono a rischio. 

 **Anti-pattern comuni:** 
+  Si impostano troppi avvisi non critici, con conseguente affaticamento da avvisi ("alert fatigue"). 
+  Non viene data priorità agli avvisi in base ai KPI, il che rende difficile comprendere l'impatto dei problemi sull'azienda. 
+  Non si affrontano le cause principali porta a ricevere avvisi ripetuti per lo stesso problema. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Riduzione dell'affaticamento da avvisi ("alert fatigue") concentrandosi su avvisi pertinenti e fruibili. 
+  Maggiore operatività e affidabilità del sistema grazie al rilevamento e alla mitigazione proattiva dei problemi. 
+  Migliore collaborazione tra team e risoluzione più rapida dei problemi grazie all'integrazione con i più diffusi strumenti di avviso e comunicazione. 

 **Livello di rischio associato se questa best practice non fosse adottata:** elevato 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Per creare un meccanismo di avviso efficace, è fondamentale utilizzare metriche, log e dati di tracciamento che segnalino quando i risultati basati sui KPI sono a rischio o vengono rilevate anomalie. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Determina gli indicatori chiave di prestazione (KPI):**: identifica gli indicatori chiave di prestazione (KPI) dell'applicazione. Gli avvisi devono essere correlati a questi KPI per riflettere accuratamente l'impatto aziendale. 

1.  **Implementa il rilevamento delle anomalie**: 
   +  **Usa il rilevamento delle anomalie di Amazon CloudWatch**: configura il [rilevamento delle anomalie di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) in modo da rilevare in automatico modelli insoliti, così da generare avvisi solo per anomalie reali. 
   +  **Utilizza AWS X-Ray Insights**: 

     1.  Configura [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) per la rilevazione delle anomalie nei dati di tracciamento. 

     1.  Configura le [notifiche per X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) così da ricevere avvisi sui problemi rilevati. 
   +  **Esegui l'integrazione con Amazon DevOps Guru**: 

     1.  Sfrutta [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) e le sue capacità di machine learning nel rilevare anomalie operative con i dati esistenti. 

     1.  Accedi alle [impostazioni di notifica](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) in DevOps Guru per la configurazione degli avvisi per le anomalie. 

1.  **Implementa avvisi fruibili**: progetta avvisi che forniscano informazioni adeguate per intraprendere un'azione immediata. 

   1.  Monitora gli [eventi AWS Health con le regole di Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o effettua l'integrazione a livello di programmazione dell'API AWS Health per automatizzare le azioni in caso di ricezione di eventi AWS Health. Può trattarsi di azioni generali, come l'invio di tutti i messaggi pianificati sugli eventi del ciclo di vita a un'interfaccia di chat, oppure azioni specifiche, come l'avvio di un flusso di lavoro in uno strumento di gestione dei servizi IT. 

1.  **Riduci l'affaticamento dagli avvisi**: riduci al minimo gli avvisi non critici. Quando i team sono sovraccaricati da numerosi avvisi insignificanti, possono trascurare i problemi critici, riducendo l'efficacia complessiva del meccanismo di avviso. 

1.  **Configura allarmi compositi**: utilizza gli [allarmi compositi di Amazon CloudWatch](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) per consolidare più allarmi. 

1.  **Integra strumenti per gli avvisi**: inserisci strumenti come [Ops Genie](https://www.atlassian.com/software/opsgenie) e [PagerDuty](https://www.pagerduty.com/). 

1.  **Impiega Amazon Q Developer nelle applicazioni di chat**: Integra [Amazon Q Developer nelle applicazioni di chat](https://aws.amazon.com/chatbot/) per inoltrare avvisi ad Amazon Chime, Microsoft Teams e Slack. 

1.  **Usa gli avvisi basati sui log**: utilizza i [filtri delle metriche dei log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) in CloudWatch per creare allarmi basati su eventi del log specifici. 

1.  **Rivedi e itera**: riesamina e ottimizza regolarmente le configurazioni degli avvisi. 

 **Livello di impegno per il piano di implementazione:** medio 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Identifica gli indicatori chiave di prestazione](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementare la telemetria delle applicazioni](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementare la telemetria dell'esperienza utente](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementazione della telemetria delle dipendenze](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementare la tracciabilità distribuita](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Analizza le metriche del carico di lavoro](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analizza i registri dei carichi di lavoro](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analizza le tracce del carico di lavoro](ops_workload_observability_analyze_workload_traces.md) 

 **Documenti correlati:** 
+  [Using Amazon CloudWatch alarms](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Create a composite alarm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Create a CloudWatch alarm based on anomaly detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [Notifiche DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [Notifiche X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Monitora, gestisci e risolvi i problemi delle tue risorse AWS con ChatOps interattive](https://aws.amazon.com/chatbot/) 
+  [Amazon CloudWatch Integration Guide \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Integrate Opsgenie with Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Video correlati:** 
+  [Create Composite Alarms in Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Panoramica di Amazon Q Developer nelle applicazioni di chat](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Mutative Commands in Amazon Q Developer nelle applicazioni di chat](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Esempi correlati:** 
+  [Alarms, incident management, and remediation in the cloud with Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutorial: Creating an Amazon EventBridge rule that sends notifications to Amazon Q Developer in chat applications](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Creare dashboard
<a name="ops_workload_observability_create_dashboards"></a>

 Le dashboard rappresentano la visualizzazione incentrata sull'utente dei dati di telemetria dei carichi di lavoro. Sebbene forniscano un'interfaccia visiva fondamentale, non dovrebbero sostituire i meccanismi di allarme, ma integrarli. Se realizzate con cura, sono in grado di fornire approfondimenti rapidi sullo stato e sulle prestazioni del sistema e possono informare le parti interessate in tempo reale riguardo ai risultati aziendali e all'impatto dei problemi. 

 **Risultato desiderato:** 

 Approfondimenti chiari e fruibili sullo stato del sistema e dell'azienda attraverso rappresentazioni visive. 

 **Anti-pattern comuni:** 
+  Dashboard eccessivamente complicate con troppe metriche. 
+  Affidarsi a dashboard senza avvisi per il rilevamento delle anomalie. 
+  Non aggiornare le dashboard man mano che i carichi di lavoro si evolvono. 

 **Vantaggi di questa best practice:** 
+  Visibilità immediata delle metriche e dei KPI critici di sistema. 
+  Miglioramento della comunicazione e della comprensione con le parti interessate. 
+  Approfondimenti rapidi sull'impatto dei problemi operativi. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 **Dashboard incentrate sull'azienda** 

 Le dashboard personalizzate in base ai KPI aziendali coinvolgono una gamma più ampia di parti interessate. Anche se queste persone potrebbero non essere interessate alle metriche di sistema, desiderano comprendere le implicazioni aziendali di questi numeri. Una dashboard incentrata sull'azienda garantisce che tutte le metriche tecniche e operative monitorate e analizzate siano allineate con gli obiettivi aziendali generali. Questo allineamento fornisce chiarezza, garantendo che tutti siano sulla stessa lunghezza d'onda per quanto riguarda ciò che è essenziale e ciò che non lo è. Inoltre, le dashboard che mettono in evidenza i KPI aziendali tendono ad essere più fruibili. Le parti interessate possono comprendere rapidamente lo stato delle operazioni, le aree che richiedono attenzione e il potenziale impatto sui risultati aziendali. 

 Con questo in mente, al momento di creare una dashboard, assicurati che ci sia un equilibrio tra metriche tecniche e KPI aziendali. Entrambi sono fondamentali, ma si rivolgono a un pubblico diverso. Idealmente, dovresti disporre di dashboard che forniscano una visione olistica dello stato e delle prestazioni del sistema, mettendo in evidenza al contempo i principali risultati aziendali e le loro implicazioni. 

 Le dashboard di Amazon CloudWatch sono home page personalizzabili nella console CloudWatch che è possibile usare per monitorare le risorse in un'unica vista, anche quando le risorse si trovano in vari account e regioni Regioni AWS. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Crea una dashboard di base:** [crea una nuova dashboard in CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html), assegnandole un nome esplicativo. 

1.  **Usa i widget Markdown:** prima di utilizzare le metriche, [usa i widget Markdown](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html) per aggiungere un contesto testuale nella parte superiore della tua dashboard. Questo contesto specifica cosa include la dashboard, qual è l'importanza delle metriche rappresentate e può contenere anche link ad altre dashboard e strumenti di risoluzione dei problemi. 

1.  **Crea le variabili della dashboard:** [integra le variabili della dashboard](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html), se necessario, in modo da offrire visualizzazioni dinamiche e flessibili della dashboard. 

1.  **Crea i widget per le metriche:** [aggiungi i widget per le metriche](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html) in modo da visualizzare varie metriche emesse dall'applicazione e personalizza questi widget in modo che rappresentino efficacemente lo stato del sistema e i risultati aziendali. 

1.  **Esegui query con Log Insights:** utilizza [Approfondimenti di CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) per ottenere metriche fruibili dai log e visualizzare tali informazioni sulla dashboard. 

1.  **Configura gli allarmi:** integra gli [allarmi CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) nella dashboard per una rapida visualizzazione di tutte le metriche che violano le relative soglie. 

1.  **Usa Contributor Insights:** integra [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) per analizzare i campi ad alta cardinalità e comprendere meglio i principali collaboratori della tua risorsa. 

1.  **Progetta widget personalizzati:** per esigenze specifiche non soddisfatte dai widget standard, prendi in considerazione la creazione di [widget personalizzati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html), che possono attingere da varie origini dati o rappresentare i dati in modi unici. 

1.  **Usa AWS Health:** AWS Health è la fonte autorevole di informazioni sull'integrità delle risorse Cloud AWS. Usa subito [Dashboard AWS Health](https://health.aws.amazon.com/health/status) o usa i dati di AWS Health nei pannelli di controllo e negli strumenti in modo da avere a disposizione le informazioni giuste per prendere decisioni informate. 

1.  **Itera e perfeziona:** man mano che la tua applicazione si evolve, riesamina regolarmente la dashboard per assicurarne la pertinenza. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Identifica gli indicatori chiave di prestazione](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Analizza le metriche del carico di lavoro](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analizza i registri dei carichi di lavoro](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analizza le tracce del carico di lavoro](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Creare avvisi fruibili](ops_workload_observability_create_alerts.md) 

 **Documenti correlati:** 
+  [Creazione di pannelli di controllo per visibilità operativa](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Using Amazon CloudWatch Dashboards](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **Video correlati:** 
+  [Create Cross Account & Cross Region CloudWatch Dashboards](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 - Gain enterprise visibility with Cloud AWS operation dashboards)](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Esempi correlati:** 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Monitoraggio delle applicazioni con Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [AWS Health Events Intelligence Dashboards and Insights](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualize AWS Health events using Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 

# OPS 9. Come fai a comprendere lo stato delle operazioni?
<a name="ops-09"></a>

 Definisci, acquisisci e analizza i parametri delle operazioni per ottenere visibilità sugli eventi delle operazioni, in modo da intraprendere le azioni appropriate. 

**Topics**
+ [

# OPS09-BP01 Misura gli obiettivi operativi e i KPI con le metriche
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Comunicare lo stato e le tendenze per garantire la visibilità delle operazioni
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Revisione delle metriche operative e assegnazione delle priorità per favorire il miglioramento
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Misura gli obiettivi operativi e i KPI con le metriche
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Ottieni obiettivi e KPI dalla tua organizzazione che definiscano il successo delle operazioni e stabilisci metriche che li riflettano. Definisci previsioni da utilizzare come riferimento e rivalutale regolarmente. Sviluppa meccanismi per raccogliere queste metriche dai team per la valutazione. Le metriche [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) forniscono un metodo popolare per misurare i progressi verso le procedure DevOps di distribuzione del software. 

 **Risultato desiderato:** 
+ L’organizzazione pubblica e condivide gli obiettivi e i KPI per i team operativi.
+ Stabilisci metriche che riflettono questi KPI. Gli esempi possono includere:
  +  Lunghezza della coda dei ticket o età media del ticket 
  +  Numero di ticket raggruppati per tipo di problema 
  +  Tempo impiegato per lavorare ai problemi con o senza una procedura operativa standardizzata (SOP) 
  +  Tempo impiegato per il ripristino dopo un push di codice non riuscito 
  +  Volume delle chiamate 

 **Anti-pattern comuni:** 
+  Le scadenze di implementazione non vengono rispettate perché gli sviluppatori sono costretti a dedicarsi alle attività di risoluzione dei problemi. I team di sviluppo chiedono più personale, ma non possono quantificarne il numero perché il tempo impiegato non può essere misurato. 
+  È stato installato un desk di livello 1 per gestire le chiamate degli utenti. Nel corso del tempo, sono aumentati i carichi di lavoro ma non il personale assegnato al desk di livello 1. La soddisfazione dei clienti ne risente a causa dell’aumento dei tempi di chiamata e di quelli per arrivare a una soluzione, ma la dirigenza non vede indicatori di questo problema e non intraprende azioni. 
+  Un carico di lavoro problematico è stato affidato a un team operativo separato per la gestione. A differenza di altri carichi di lavoro, questo non è accompagnato dalla documentazione e dai runbook adeguati. Pertanto, i team dedicano più tempo alla risoluzione dei problemi e alla gestione degli errori. Tuttavia, non esistono metriche che lo documentino, il che rende difficile comprendere le responsabilità. 

 **Vantaggi dell’adozione di questa best practice:** quando il monitoraggio del carico di lavoro mostra lo stato delle nostre applicazioni e servizi, i team operativi dedicati al monitoraggio forniscono ai proprietari informazioni dettagliate sui cambiamenti avvenuti tra i consumatori di tali carichi di lavoro, come le mutate esigenze aziendali. Misura l’efficacia di questi team e valutali rispetto agli obiettivi aziendali creando metriche in grado di riflettere lo stato delle operazioni. Le metriche possono evidenziare problemi relativi al supporto o identificare quando si verificano deviazioni rispetto a un obiettivo di livello di servizio. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all’implementazione
<a name="implementation-guidance"></a>

Fissa un appuntamento con i leader aziendali e le parti interessate per stabilire quali saranno gli obiettivi generali del servizio. Stabilisci quali devono essere i compiti dei vari team operativi e quali sfide potrebbero affrontare. Utilizza queste informazioni per un’attività di brainstorming sugli indicatori chiave di prestazione (KPI) che potrebbero riflettere questi obiettivi operativi. Questi potrebbero essere la soddisfazione del cliente, il tempo trascorso dall’ideazione della funzionalità alla sua implementazione, il tempo medio di risoluzione dei problemi o l’efficienza in termini di costi.

 Partendo dai KPI, identifica le metriche e le origini di dati che potrebbero rispecchiare al meglio questi obiettivi. La soddisfazione del cliente può essere una combinazione di diverse metriche, come i tempi di attesa o di risposta durante le chiamate, i punteggi di soddisfazione e i tipi di problemi sollevati. I tempi di implementazione possono essere la somma del tempo necessario per il test e l’implementazione, con l’aggiunta di eventuali correzioni post-implementazione. Le statistiche che mostrano il tempo dedicato a diversi tipi di problemi (o il numero di tali problemi) possono fornire indicazioni su dove è necessario un impegno mirato. 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+ [ Quick: utilizzo dei KPI ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch - Using Metrics ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Creazione di pannelli di controllo ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ How to track your cost optimization KPIs with KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [AWS DevOps Guidance ](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Esempi correlati:** 
+ [ Monitor the performance of your software delivery using native AWS monitoring and observability tools ](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [ Balance deployment speed and stability with DORA metrics ](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [ Example MLOps operational metrics in the financial services industry ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ How to track your cost optimization KPIs with the KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Comunicare lo stato e le tendenze per garantire la visibilità delle operazioni
<a name="ops_operations_health_communicate_status_trends"></a>

 Conoscere lo stato delle operazioni e la direzione verso la quale tendono a muoversi è necessario per identificare quando i risultati possono essere a rischio, se è possibile supportare o meno carichi di lavoro aggiuntivi o per verificare gli effetti che le modifiche hanno avuto sui team. Durante gli eventi operativi, disporre di pagine di stato a cui gli utenti e i team operativi possono fare riferimento per ottenere informazioni può ridurre la pressione sui canali di comunicazione e diffondere informazioni in modo proattivo. 

 **Risultato desiderato:** 
+  I responsabili delle operazioni hanno a disposizione informazioni dettagliate per conoscere il volume di chiamate che i loro team stanno gestendo e quali operazioni sono in corso, ad esempio le implementazioni. 
+  Quando si verificano eventi che possono compromettere le normali operazioni, vengono inviati avvisi alle parti interessate e alle comunità di utenti. 
+  Quando ricevono un avviso o si verifica un problema, la leadership dell'organizzazione e le parti interessate possono controllare una pagina di stato e ottenere informazioni relative a un evento operativo, come punti di contatto, informazioni sui ticket e tempi di ripristino stimati. 
+  I report messi a disposizione della leadership e delle parti interessate contengono statistiche operative come il volume delle chiamate in un periodo di tempo, i punteggi di soddisfazione degli utenti, il numero e l'età di ticket in sospeso. 

 **Anti-pattern comuni:** 
+  Se un carico di lavoro si interrompe, il servizio diventa non disponibile. Il volume delle chiamate aumenta quando gli utenti chiedono di sapere cosa sta succedendo. Le richieste dei manager di sapere chi sta risolvendo un problema comportano un ulteriore aumento del volume. Vari team operativi duplicano gli sforzi mentre effettuano indagini. 
+  La volontà di acquisire una nuova capacità porta a riassegnare gli sforzi di alcuni membri del personale verso compiti di tipo tecnico. Non viene fornito alcun backfill e i tempi di risoluzione dei problemi aumentano. Queste informazioni non vengono acquisite e i manager vengono a conoscenza del problema solo dopo diverse settimane o quando viene ricevuto il feedback negativo degli utenti. 

 **Vantaggi dell'adozione di questa best practice:** a volte, durante eventi operativi che hanno un impatto sull'azienda, si spreca molto tempo ed energia in query per ottenere informazioni da vari team nel tentativo di comprendere la situazione. Grazie alla creazione di pagine di stato e dashboard ampiamente diffuse, le parti interessate possono ottenere rapidamente informazioni, ad esempio, se è stato rilevato o meno un problema, chi è a capo delle attività di risoluzione o quando è previsto un ritorno alle normali operazioni. Ciò permette ai membri del team di avere più tempo per affrontare i problemi, perché non devono dilungarsi a comunicare lo stato agli altri. 

 Inoltre, pannelli di controllo e report forniscono informazioni ai responsabili delle decisioni e alle parti interessate in modo da scoprire se i team operativi sono in grado di rispondere alle esigenze aziendali e le modalità di allocazione delle relative risorse. Questo aspetto è fondamentale per determinare la presenza di risorse adeguate a supporto dell'azienda. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Crea pannelli di controllo che mostrino le metriche fondamentali attuali per i tuoi team operativi e rendile facilmente accessibili ai responsabili operativi e ai manager. 

 Crea pagine di stato aggiornabili rapidamente per diffondere informazioni relative a un incidente o un evento, come chi ne è responsabile e chi coordina la risposta. Condividi in questa pagina eventuali passaggi o soluzioni alternative che gli utenti dovrebbero prendere in considerazione e divulga ampiamente la posizione della pagina. Incoraggia gli utenti a controllare prima questa pagina quando si trovano di fronte a un problema sconosciuto. 

 Raccogli e fornisci report che mostrino le condizioni delle operazioni nel tempo e distribuiscili a leader e responsabili decisionali per illustrare il lavoro dei team operativi e le loro sfide ed esigenze. 

 Condividi con i team le metriche e i report che meglio riflettono gli obiettivi e i KPI e come hanno influito nel guidare il cambiamento. Dedica del tempo a queste attività per aumentare l'importanza delle operazioni nei e tra i team. 

 Usa [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) insieme ai pannelli di controllo o integra gli eventi AWS Health in essi, in modo che i team possano correlare i problemi relativi alle applicazioni allo stato del servizio AWS. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+ [ OPS09-BP01 Misura gli obiettivi operativi e i KPI con le metriche ](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Documenti correlati:** 
+ [ Measure Progress ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [ Creazione di pannelli di controllo per visibilità operativa ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Esempi correlati:** 
+ [ Data Operations ](https://aws.amazon.com/solutions/app-development/data-operations)
+ [ How to track your cost optimization KPIs with KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [ The Importance of Key Performance Indicators (KPIs) for Large-Scale Cloud Migrations ](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Revisione delle metriche operative e assegnazione delle priorità per favorire il miglioramento
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 L’assegnazione di tempo e risorse per la revisione dello stato delle operazioni garantisce che servire il settore d’attività rimanga una priorità quotidiana. Effettua regolarmente riunioni con i responsabili operativi e le parti interessate per rivedere le metriche, riconfermare o modificare traguardi e obiettivi e dare priorità ai miglioramenti. 

 **Risultato desiderato:** 
+  I responsabili operativi e il personale si incontrano regolarmente per esaminare le metriche in un determinato periodo di riferimento. Si comunicano le sfide, si celebrano le vittorie e si condividono le lezioni apprese. 
+  Parti interessate e leader aziendali vengono regolarmente informati sullo stato delle operazioni e sollecitati a fornire input su obiettivi, KPI e iniziative future. Vengono discusse e contestualizzate le scelte tra erogazione dei servizi, operazioni e manutenzione. 

 **Anti-pattern comuni:** 
+  Viene lanciato un nuovo prodotto, ma i team operativi di livello 1 e 2 non sono adeguatamente formati per fornire supporto oppure non dispongono di personale aggiuntivo. I leader non vedono le metriche che mostrano la diminuzione dei tempi di risoluzione dei ticket e l’aumento del volume degli incidenti. Si agisce settimane dopo, quando i numeri delle sottoscrizioni iniziano a diminuire a causa di utenti scontenti che abbandonano la piattaforma. 
+  Da molto tempo esiste un processo manuale per eseguire la manutenzione su un carico di lavoro. La volontà di automatizzare, seppur presente, costituiva una priorità bassa data la scarsa importanza del sistema. Nel corso del tempo, tuttavia, l’importanza del sistema è cresciuta e ora i team operativi sono impegnati per la maggior parte del tempo in questi processi manuali. Non sono previste risorse per fornire una maggiore strumentazione ai team operativi oberati dall’aumento dei carichi di lavoro, con rischi di burnout per il personale. La leadership viene a conoscenza del problema una volta segnalato da un membro del personale che lascia l’azienda per un concorrente. 

 **Vantaggi dell’adozione di questa best practice:** in alcune organizzazioni, può diventare difficile dedicare lo stesso tempo e la stessa attenzione alla fornitura di servizi e a nuovi prodotti od offerte. Quando ciò si verifica, il settore d’attività può risentirne a causa del lento deterioramento del livello di servizio atteso. Questo perché le operazioni non cambiano e non si evolvono di pari passo con la crescita del business e possono diventare presto obsolete. Senza una revisione regolare delle informazioni raccolte dai team operativi, il rischio che l’azienda corre potrebbe diventare visibile solo quando è troppo tardi. Dedicare tempo alla revisione delle metriche e delle procedure insieme al personale operativo e alla leadership, permette di mettere in luce il ruolo cruciale svolto dai team operativi nell’identificare i rischi molto prima che raggiungano livelli critici. I team operativi ottengono una visione migliore dei cambiamenti e delle iniziative aziendali imminenti, il che permette di intraprendere azioni proattive. Grazie alla visibilità delle metriche operative, la leadership è consapevole del ruolo che i team operativi svolgono nel garantire la soddisfazione dei clienti, sia interni che esterni, ed è in grado di valutare meglio le scelte in base alle priorità o di garantire che ci sia sufficiente tempo per modificare e fare evolvere operazioni e risorse attraverso nuove iniziative aziendali e di carico di lavoro. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all’implementazione
<a name="implementation-guidance"></a>

 Dedica del tempo alla revisione delle metriche operative con le parti interessate e i team operativi e alla revisione dei dati dei report. Inserisci questi report nel contesto degli scopi e degli obiettivi dell’organizzazione per stabilire se vengono raggiunti. Individua le cause di ambiguità in caso di obiettivi non chiari o potenziali conflitti tra quanto richiesto e quanto offerto. 

 Identifica come il tempo, le persone e gli strumenti possono contribuire agli esiti delle operazioni. Stabilisci quali KPI ne verrebbero influenzati e quali devono essere gli obiettivi di successo. Effettua regolarmente una revisione per assicurarti che i team operativi dispongano di risorse sufficienti per supportare il settore d’attività. 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+ [ Amazon Athena ](https://aws.amazon.com/athena/)
+ [ Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [ Amazon Quick ](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [ Raccolta di parametri e log da istanze Amazon EC2 e da server on-premises con l’agente Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [ Using Amazon CloudWatch metrics ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)

# OPS 10. In che modo gestisci gli eventi del carico di lavoro e delle operazioni?
<a name="ops-10"></a>

 Prepara e convalida le procedure in risposta agli eventi per ridurre al minimo il loro impatto sul tuo carico di lavoro. 

**Topics**
+ [

# OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Definizione di un processo per ogni avviso
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Definizione dei percorsi di escalation
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Definizione di un piano di comunicazione con i clienti per eventi che incidono sul servizio
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Automatizza le risposte agli eventi
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi
<a name="ops_event_response_event_incident_problem_process"></a>

La capacità di gestire in modo efficiente eventi, incidenti e problemi è fondamentale per mantenere l'integrità e le prestazioni del carico di lavoro. È essenziale riconoscere e comprendere le differenze tra questi elementi per sviluppare una strategia di risposta e risoluzione efficace. Stabilire e seguire un processo ben definito per ogni aspetto facilita la gestione rapida ed efficace da parte del tuo team di qualsiasi sfida operativa che si presenti.

 **Risultato desiderato:** la tua organizzazione gestisce efficacemente eventi operativi, incidenti e problemi attraverso processi ben documentati e archiviati a livello centrale. Questi processi vengono costantemente aggiornati per riflettere le modifiche, semplificando la gestione e mantenendo l'affidabilità del servizio e delle prestazioni dei carichi di lavoro elevata. 

 **Anti-pattern comuni:** 
+  Rispondi in modo reattivo, anziché proattivo, agli eventi. 
+  Vengono adottati approcci incoerenti a diversi tipi di eventi o incidenti. 
+ La tua organizzazione non effettua analisi e non impara dagli incidenti per prevenire eventi futuri.

 **Vantaggi dell'adozione di questa best practice:** 
+  Processi di risposta semplificati e standardizzati. 
+  Riduzione dell'impatto degli incidenti su servizi e clienti. 
+  Risoluzione rapida dei problemi. 
+  Miglioramento continuo dei processi operativi. 

 **Livello di rischio associato se questa best practice non fosse adottata:** elevato 

## Guida all’implementazione
<a name="implementation-guidance"></a>

 L'implementazione di questa best practice prevede la registrazione degli eventi dei carichi di lavoro. Per la gestione di incidenti e problemi, è necessario ricorrere ai processi. I processi sono documentati, condivisi e aggiornati con frequenza. I problemi vengono identificati, classificati in base alla priorità e corretti. 

 **Informazioni su eventi, incidenti e problemi** 
+  **Eventi:** un *evento* è l'adempimento di un'azione, un'occorrenza o un cambiamento di stato. Gli eventi possono essere pianificati o non pianificati e possono avere origine all'interno o all'esterno del carico di lavoro. 
+  **Incidenti:** gli *incidenti* sono eventi che richiedono una risposta, come interruzioni non pianificate o il peggioramento della qualità del servizio. Rappresentano interruzioni che richiedono un'attenzione immediata al fine di ripristinare il normale funzionamento del carico di lavoro. 
+  **Problemi:** i *problemi* sono le cause alla base di uno o più incidenti. Identificare e risolvere i problemi implica approfondire gli incidenti per prevenire eventi futuri. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

 **Eventi** 

1.  **Monitora gli eventi:** 
   +  [Implementa l'osservabilità](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) e [sfrutta l'osservabilità del carico di lavoro](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Le azioni di monitoraggio intraprese da un utente, ruolo o servizio AWS vengono registrate come eventi in [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Rispondi alle modifiche operative delle tue applicazioni in tempo reale con [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Valuta, monitora e registra continuamente le modifiche alla configurazione delle risorse con [AWS Config](https://aws.amazon.com/config/). 

1.  **Crea processi:** 
   +  Sviluppa un processo per valutare quali eventi sono significativi e richiedono di essere monitorati. Ciò comporta l'impostazione di soglie e parametri per le attività normali e anomale. 
   +  Determina i criteri in base ai quali un evento viene segnalato come un incidente, ad esempio, la gravità dell'evento, l'impatto sugli utenti o la deviazione dal comportamento previsto. 
   +  Rivedi regolarmente i processi di monitoraggio e risposta agli eventi. Ciò include l'analisi degli incidenti passati, l'adeguamento delle soglie e il perfezionamento dei meccanismi di avviso. 

 **Incidenti** 

1.  **Rispondi agli incidenti:** 
   +  Usa gli approfondimenti degli strumenti di osservabilità per identificare e rispondere rapidamente agli incidenti. 
   +  Implementa [AWS Systems Manager Ops Center](https://aws.amazon.com/systems-manager/features/#OpsCenter) per aggregare, organizzare e dare priorità agli elementi operativi e agli incidenti. 
   +  Utilizza servizi come [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) e [AWS X-Ray](https://aws.amazon.com/xray/) per analisi e risoluzione dei problemi più approfondite. 
   +  Prendi in considerazione [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) per una gestione degli incidenti avanzata, sfruttandone funzionalità proattive, preventive e investigative. AMS estende il supporto operativo con servizi come monitoraggio, rilevamento, risposta agli incidenti e gestione della sicurezza. 
   +  Per i clienti del supporto Enterprise, [AWS Incident Detection and Response](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/) offre un monitoraggio proattivo continuo e la gestione degli incidenti per i carichi di lavoro di produzione. 

1.  **Crea un processo di gestione degli incidenti:** 
   +  Definisci un processo strutturato di gestione degli incidenti, che includa ruoli, protocolli di comunicazione e passaggi per la risoluzione chiari. 
   +  Integra la gestione degli incidenti con strumenti come [Amazon Q Developer nelle applicazioni di chat](https://aws.amazon.com/chatbot/) per garantire l'efficienza nella risposta e nel coordinamento. 
   +  Suddividi in categorie gli incidenti in base alla gravità, con [piani di risposta agli incidenti](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) predefiniti per ciascuna di esse. 

1.  **Apprendi e migliora:** 
   +  Effettua [analisi post-incidente](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) per comprendere le cause principali e l'efficacia della risoluzione. 
   +  Aggiorna e migliora continuamente i piani di risposta in base alle revisioni e alle pratiche in evoluzione. 
   +  Documenta e condividi le lezioni apprese tra i team per migliorare la resilienza operativa. 
   +  I clienti del supporto Enterprise possono rivolgersi al proprio Technical Account Manager per il [workshop sulla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives). Questo workshop guidato consente di verificare il piano di risposta agli incidenti esistente e ti aiuta a individuare eventuali aree da migliorare. 

 **Problemi** 

1.  **Identifica i problemi:** 
   +  Utilizza i dati degli incidenti passati per identificare modelli ricorrenti che potrebbero indicare la presenza di problemi sistemici più profondi. 
   +  Sfrutta strumenti come [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) e [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) per l'analisi delle tendenze e l'individuazione dei problemi alla base. 
   +  Coinvolgi team interfunzionali, ad esempio i team dediti alle operazioni, allo sviluppo e i reparti aziendali, per ottenere prospettive diverse sulle cause principali. 

1.  **Crea un processo di gestione dei problemi:** 
   +  Sviluppa un processo strutturato per la gestione dei problemi, concentrandoti su soluzioni a lungo termine piuttosto che su correzioni rapide. 
   +  Incorpora tecniche di analisi delle cause principali (RCA) per indagare e comprendere le cause alla base degli incidenti. 
   +  Aggiorna policy e procedure operative e l'infrastruttura in base agli esiti per prevenire il ripetersi degli incidenti. 

1.  **Continua a migliorare:** 
   +  Promuovi una cultura di apprendimento e miglioramento continui, incoraggiando i team a identificare e affrontare in modo proattivo i problemi potenziali. 
   +  Analizza e rivedi regolarmente i processi e gli strumenti di gestione dei problemi per allinearli agli scenari aziendali e tecnologici in evoluzione. 
   +  Condividi approfondimenti e best practice in tutta l'organizzazione per creare un ambiente operativo più resiliente ed efficiente. 

1.  **Integra Supporto AWS:** 
   +  Consulta le risorse di supporto AWS, come [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), per indicazioni proattive e suggerimenti in merito all'ottimizzazione. 
   +  I clienti del supporto Enterprise hanno a disposizione programmi dedicati, come [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/), per ricevere assistenza durante gli eventi critici. 

 **Livello di impegno per il piano di implementazione:** medio 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Identifica gli indicatori chiave di prestazione](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementare la telemetria delle applicazioni](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Utilizzo di runbook per eseguire le procedure](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Utilizzo dei playbook per analizzare i problemi](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analizza le metriche del carico di lavoro](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Eseguire l'analisi post-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documenti correlati:** 
+  [AWS Security Incident Response Guide](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Rilevamento e risposta agli incidenti di AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Incident Management in the Age of DevOps and SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Video correlati:** 
+ [ Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - The Amazon Builders' Library: 25 yrs of Amazon operational excellence ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [ Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Esempi correlati:** 
+  [AWS Proactive Services: workshop sulla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [ How to Automate Incident Response with PagerDuty and Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [ Engage Incident Responders with the On-Call Schedules in Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [ Improve the Visibility and Collaboration during Incident Handling in Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [ Incident reports and service requests in AMS ](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Servizi correlati:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Definizione di un processo per ogni avviso
<a name="ops_event_response_process_per_alert"></a>

 Stabilire un processo chiaro e definito per ogni avviso nel sistema è essenziale per una gestione degli incidenti efficace ed efficiente. Questa pratica garantisce che ogni avviso porti a una risposta specifica e attuabile, migliorando l'affidabilità e la reattività delle operazioni. 

 **Risultato desiderato:** ogni avviso avvia un piano di risposta specifico e ben definito. Ove possibile, le risposte sono automatizzate e dotate di una chiara titolarità e di un percorso di escalation definito. Gli avvisi sono collegati a una base di conoscenze aggiornata, in modo che qualsiasi operatore sia in grado di rispondere in modo coerente ed efficace. Le risposte sono rapide e uniformi su tutta la linea, migliorando l'efficienza e l'affidabilità operativa. 

 **Anti-pattern comuni:** 
+  Gli avvisi non hanno un processo di risposta predefinito, il che porta a risoluzioni improvvisate e tardive. 
+  Il sovraccarico di avvisi comporta che gli avvisi importanti vengano trascurati. 
+  Gli avvisi vengono gestiti in modo incoerente a causa della mancanza di titolarità e responsabilità chiare. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Creazione solo di avvisi utilizzabili, con conseguente riduzione dell'affaticamento da avvisi. 
+  Riduzione del tempo medio di risoluzione (MTTR) per problemi operativi. 
+  Riduzione del tempo medio di indagine (MTTI), il che aiuta a ridurre l'MTTR. 
+  Migliore capacità di scalare le risposte operative. 
+  Maggiore coerenza e affidabilità nella gestione degli eventi operativi. 

 Ad esempio, disponi di un processo definito per gli eventi di AWS Health per gli account critici, compresi gli allarmi delle applicazioni, i problemi operativi e gli eventi del ciclo di vita pianificati (come l'aggiornamento delle versioni di Amazon EKS prima dell'aggiornamento automatico dei cluster) e fornisci ai team la possibilità di monitorare attivamente, comunicare e rispondere a questi eventi. Queste azioni aiutano a prevenire le interruzioni del servizio causate da modifiche lato AWS o a mitigarle più rapidamente quando si verificano problemi imprevisti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** elevato 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Avere un processo per ogni avviso implica stabilire un piano di risposta chiaro per ciascun avviso, automatizzare le risposte ove possibile e perfezionare continuamente questi processi in base al feedback operativo e all'evoluzione dei requisiti. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

 Il diagramma seguente illustra il flusso di lavoro di gestione degli incidenti all'interno di [Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). È progettato per rispondere rapidamente ai problemi operativi creando automaticamente incidenti in risposta a eventi specifici che si verificano in [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) o [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Quando viene creato automaticamente o manualmente un incidente, Incident Manager centralizza la gestione dell'incidente, organizza le informazioni pertinenti sulle risorse AWS e avvia piani di risposta predefiniti. Ciò include l'esecuzione dei runbook di automazione di Systems Manager per un'azione immediata e la creazione di un elemento di lavoro operativo principale in OpsCenter per tenere traccia delle attività e delle analisi correlate. Questo processo semplificato accelera e coordina la risposta agli incidenti in tutto l'ambiente AWS. 

![\[Diagramma di flusso che illustra il funzionamento dello strumento di gestione degli incidenti: Amazon Q Developer nelle applicazioni di chat, i piani di escalation, i contatti e i runbook confluiscono nei piani di risposta, che generano incidenti e analisi. Anche Amazon CloudWatch confluisce anche nei piani di risposta.\]](http://docs.aws.amazon.com/it_it/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


 

1.  **Utilizza allarmi compositi:** crea [allarmi compositi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) in CloudWatch per raggruppare allarmi correlati, così da ridurre il rumore e consentire risposte più significative. 

1.  **Resta aggiornato con [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html):** AWS Health è la fonte autorevole di informazioni sull'integrità delle risorse Cloud AWS. Utilizza AWS Health per visualizzare e ricevere notifiche su eventuali eventi di servizio in corso e modifiche imminenti, come gli eventi pianificati del ciclo di vita, in modo da poter adottare misure per mitigare gli impatti. 

   1.  [Crea notifiche di eventi AWS Health personalizzati](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) per i canali e-mail e chat con [Notifiche all'utente AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e integra a livello di codice con [gli strumenti di monitoraggio e avviso di Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o l'[AWS Health API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Pianifica e monitora i progressi relativi agli eventi sull'integrità che richiedono un'azione integrando con strumenti di gestione delle modifiche o ITSM (come [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) che potresti già utilizzare tramite Amazon EventBridge o l'API AWS Health. 

   1.  Se utilizzi AWS Organizations, abilita la [visualizzazione dell'organizzazione per AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) per aggregare gli eventi AWS Health tra gli account. 

1.  **Integra gli allarmi di Amazon CloudWatch con lo strumento di gestione degli incidenti:** configura gli allarmi di CloudWatch per la creazione automatica di incidenti in [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integra Amazon EventBridge con Incident Manager:** crea [regole EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) in modo da reagire agli eventi e creare incidenti mediante piani di risposta definiti. 

1.  **Preparati per gli incidenti in Incident Manager:** 
   +  Crea [piani di risposta](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) dettagliati in Incident Manager per ciascun tipo di avviso. 
   +  Stabilisci canali di chat tramite [Amazon Q Developer nelle applicazioni di chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) collegato ai piani di risposta nello strumento di gestione degli incidenti, semplificando la comunicazione in tempo reale durante gli incidenti su piattaforme come Slack, Microsoft Teams e Amazon Chime. 
   +  Integra i [runbook di Systems Manager Automation](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) in Incident Manager per fornire risposte automatiche agli incidenti. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Identifica gli indicatori chiave di prestazione](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Creare avvisi fruibili](ops_workload_observability_create_alerts.md) 

 **Documenti correlati:** 
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Using Amazon CloudWatch alarms](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Setting up Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [ Preparing for incidents in Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Video correlati:** 
+ [ Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Esempi correlati:** 
+ [Workshop AWS, Strumento di gestione degli incidenti AWS Systems Manager: Automate incident response to security events ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business
<a name="ops_event_response_prioritize_events"></a>

 Rispondere tempestivamente agli eventi operativi è fondamentale, ma non tutti gli eventi sono uguali. Quando si assegnano le priorità in base all'impatto sul business, si dà la priorità anche alla risoluzione di eventi che possono avere conseguenze significative, come la compromissione della sicurezza, perdite finanziarie, violazioni normative o danni alla reputazione. 

 **Risultato desiderato:** la priorità delle risposte agli eventi operativi si basa sul potenziale impatto dell'evento su operazioni e obiettivi di business. Ciò rende le risposte efficienti ed efficaci. 

 **Anti-pattern comuni:** 
+  Ogni evento viene trattato con lo stesso livello di urgenza, generando confusione e ritardi nell'affrontare le criticità. 
+  Non è possibile distinguere tra eventi ad alto e basso impatto, con conseguente errata allocazione delle risorse. 
+  L'organizzazione non dispone di un chiaro framework di assegnazione delle priorità, il che genera risposte incoerenti agli eventi operativi. 
+  Agli eventi viene assegnata la priorità in base all'ordine in cui vengono segnalati piuttosto che al loro impatto sui risultati aziendali. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Assicura che la risposta si concentri in primo luogo sulle funzioni aziendali critiche, riducendo al minimo i danni potenziali. 
+  Migliora l'allocazione delle risorse durante più eventi simultanei. 
+  Migliora la capacità dell'organizzazione di mantenere la fiducia e soddisfare i requisiti normativi. 

 **Livello di rischio associato se questa best practice non fosse adottata:** elevato 

## Guida all’implementazione
<a name="implementation-guidance"></a>

 Di fronte a molteplici eventi operativi, è essenziale un approccio strutturato alla definizione delle priorità basato sull'impatto e sull'urgenza. Questo approccio consente di prendere decisioni informate, indirizzare gli sforzi laddove sono più necessari e mitigare il rischio per la continuità aziendale. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Valuta l'impatto:** sviluppa un sistema di classificazione per valutare la gravità degli eventi in termini di potenziale impatto sulle operazioni e sugli obiettivi di business. L'esempio seguente mostra le categorie di impatto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Valuta l'urgenza:** definisci i livelli di urgenza in base alla rapidità con cui un evento deve ricevere una risposta, considerando fattori come la sicurezza, le implicazioni finanziarie e accordi sul livello di servizio (SLA). L'esempio seguente illustra le categorie di urgenza:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Crea una matrice di prioritizzazione:** 
   +  Usa una matrice per incrociare impatto e urgenza, assegnando livelli di priorità a diverse combinazioni. 
   +  Rendi la matrice accessibile e comprensibile da tutti i membri del team responsabili delle risposte agli eventi operativi. 
   +  La seguente matrice di esempio mostra la gravità dell'incidente in base all'urgenza e all'impatto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Predisponi formazione e comunicazione:** forma i team di risposta sulla matrice di prioritizzazione e sull'importanza di attenersi a essa durante un evento. Comunica il processo di definizione delle priorità a tutte le parti interessate per stabilire aspettative chiare. 

1.  **Integra con la risposta agli incidenti:** 
   +  Incorpora la matrice di prioritizzazione nei tuoi piani e strumenti di risposta agli incidenti. 
   +  Automatizza la classificazione e la prioritizzazione degli eventi, ove possibile, per accelerare i tempi di risposta. 
   +  I clienti del supporto Enterprise, possono sfruttare [AWS Incident Detection and Response](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/) che garantisce il monitoraggio proattivo 24 ore su 24, 7 giorni su 7, oltre alla gestione degli incidenti per i carichi di lavoro di produzione. 

1.  **Rivedi e adatta:** rivedi regolarmente l'efficacia del processo di definizione delle priorità e apporta modifiche in base al feedback e ai cambiamenti nell'ambiente aziendale. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS03-BP03 L'escalation è incoraggiata](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Creare avvisi fruibili](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Misura gli obiettivi operativi e i KPI con le metriche](ops_operations_health_measure_ops_goals_kpis.md) 

 **Documenti correlati:** 
+ [ Atlassian - Understanding incident severity levels ](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [ IT Process Map - Checklist Incident Priority ](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Definizione dei percorsi di escalation
<a name="ops_event_response_define_escalation_paths"></a>

Stabilisci percorsi di escalation chiari all'interno dei tuoi protocolli di risposta agli incidenti per facilitare un'azione tempestiva ed efficace. Ciò include la specificazione delle richieste relative all'escalation, la descrizione dettagliata del processo di escalation e la preapprovazione delle azioni per accelerare il processo decisionale e ridurre il tempo medio di risoluzione (MTTR).

 **Risultato desiderato:** un processo strutturato ed efficiente che inoltra gli incidenti al personale appropriato, riducendo al minimo i tempi di risposta e l'impatto. 

 **Anti-pattern comuni:** 
+ La mancanza di chiarezza in merito alle procedure di ripristino genera risposte improvvisate in caso di incidenti critici.
+ L'assenza di autorizzazioni e titolarità definite comporta ritardi quando è necessaria un'azione urgente.
+  Le parti interessate e i clienti non sono informati nei tempi attesi. 
+  Le decisioni importanti subiscono ritardi. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Risposta semplificata agli incidenti tramite procedure di escalation predefinite. 
+  Tempi di inattività ridotti con azioni preapprovate e titolarità chiara. 
+  Migliore allocazione delle risorse e adeguamenti del livello di supporto in base alla gravità degli incidenti. 
+  Migliore comunicazione con le parti interessate e i clienti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 I percorsi di escalation correttamente definiti sono fondamentali per una risposta rapida agli incidenti. Strumento di gestione degli incidenti AWS Systems Manager supporta l'impostazione di piani di escalation strutturati e di pianificazioni della reperibilità, che avvisano il personale pertinente preparandolo ad agire in caso di incidenti. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Configura le richieste di escalation:** imposta [allarmi CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) per la creazione di un incidente in [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  ** Imposta la pianificazione della reperibilità:** crea la [pianificazione della reperibilità](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) in Incident Manager, in linea con i tuoi percorsi di escalation. Fornisci al personale di turno le autorizzazioni e gli strumenti necessari per agire rapidamente. 

1.  ** Procedure di escalation dettagliate: ** 
   +  Determina le condizioni specifiche in base alle quali un incidente deve essere inoltrato. 
   +  Crea [piani di escalation](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) in Incident Manager. 
   +  I canali di escalation devono consistere in un contatto o in una pianificazione della reperibilità. 
   +  Definisci i ruoli e le responsabilità del team a ogni livello di escalation. 

1.  **Approva preventivamente le azioni di mitigazione:** collabora con i responsabili delle decisioni per approvare preventivamente le azioni per gli scenari previsti. Sfrutta i [runbook di Systems Manager Automation](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) integrati con Incident Manager per velocizzare la risoluzione degli incidenti. 

1.  **Specifica la proprietà:** identifica chiaramente i proprietari interni per ogni fase del percorso di escalation. 

1.  **Fornisci dettagli in merito alle escalation a terze parti:** 
   +  Documenta gli accordi sul livello di servizio (SLA) di terze parti e adeguali agli obiettivi interni. 
   +  Stabilisci protocolli chiari per la comunicazione con i fornitori durante gli incidenti. 
   +  Integra i contatti dei fornitori negli strumenti di gestione degli incidenti per l'accesso diretto. 
   +  Conduci regolarmente esercitazioni che includano scenari di risposta di terze parti. 
   +  Mantieni le informazioni sulle escalation dei fornitori ben documentate e facilmente accessibili. 

1.  **Esegui formazione e test per i piani di escalation:** forma il tuo team sul processo di escalation e conduci regolarmente esercitazioni di risposta agli incidenti o giornate di gioco. I clienti del supporto Enterprise possono richiedere un [workshop sulla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/). 

1.  **Continua a migliorare:** verifica regolarmente l'efficacia dei tuoi percorsi di escalation. Aggiorna i tuoi processi in base alle lezioni apprese dalle analisi degli incidenti e dal feedback continuo. 

 **Livello di impegno per il piano di implementazione:** moderato 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS08-BP04 Creare avvisi fruibili](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Definizione di un processo per ogni avviso](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Eseguire l'analisi post-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documenti correlati:** 
+ [Piani di escalation di Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [ Working with on-call schedules in Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [ Creating and Managing Runbooks ](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [ Temporary elevated access management with AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [ Atlassian - Escalation policies for effective incident management ](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Definizione di un piano di comunicazione con i clienti per eventi che incidono sul servizio
<a name="ops_event_response_push_notify"></a>

 Una comunicazione efficace durante gli eventi che incidono sul servizio è fondamentale per mantenere la fiducia e la trasparenza con i clienti. Un piano di comunicazione ben definito sostiene la comunicazione rapida e chiara di informazioni all'interno e all'esterno dell'organizzazione durante gli incidenti. 

 **Risultato desiderato:** 
+  Un solido piano di comunicazione che informa efficacemente i clienti e le parti interessate durante gli eventi che influiscono sul servizio. 
+  Trasparenza nella comunicazione per creare fiducia e ridurre la preoccupazione dei clienti. 
+  Riduzione al minimo dell'impatto che gli eventi che incidono sul servizio hanno sull'esperienza del cliente e sulle operazioni aziendali. 

 **Anti-pattern comuni:** 
+  Una comunicazione inadeguata o in ritardo genera confusione e insoddisfazione nei clienti. 
+  Una messaggistica eccessivamente tecnica o vaga impedisce la comunicazione dell'impatto effettivo sugli utenti. 
+  È assente una strategia di comunicazione predefinita, con conseguente messaggistica incoerente e reattiva. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Maggiore fiducia e soddisfazione dei clienti attraverso una comunicazione chiara e proattiva. 
+  Riduzione del carico operativo per i team di supporto grazie alla risoluzione preventiva delle preoccupazioni dei clienti. 
+  Maggiore efficienza di gestione e risoluzione degli incidenti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 La creazione di un piano di comunicazione completo per gli eventi che incidono sul servizio implica prendere in considerazione molteplici aspetti, dalla scelta dei canali giusti alla creazione del messaggio e del tono. Il piano deve essere adattabile, scalabile e soddisfare diversi scenari di interruzione del servizio. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Definisci ruoli e responsabilità:** 
   +  Assegna a un responsabile degli incidenti gravi la supervisione delle attività di risposta agli incidenti. 
   +  Designa un responsabile delle comunicazioni dedicato al coordinamento di tutte le comunicazioni esterne e interne. 
   +  Includi il responsabile dell'assistenza per fornire una comunicazione coerente attraverso ticket di supporto. 

1.  **Identifica i canali di comunicazione:** seleziona canali come chat aziendale, e-mail, SMS, social media, notifiche in-app e pagine di stato. Questi canali devono essere resilienti e in grado di operare in maniera indipendente durante gli eventi che incidono sul servizio. 

1.  ** Comunica in modo rapido, chiaro e regolare con i clienti: ** 
   +  Sviluppa modelli per vari scenari di compromissione del servizio, focalizzandoti sulla semplicità e sui dettagli essenziali. Includi informazioni sul problema relativo al servizio, sui tempi di risoluzione previsti e sull'impatto. 
   +  Usa Amazon Pinpoint per avvisare i clienti tramite notifiche push, notifiche in-app, e-mail, SMS, messaggi vocali e messaggi su canali personalizzati. 
   +  Usa Amazon Simple Notification Service (Amazon SNS) per avvisare gli abbonati in modo programmatico o tramite e-mail, notifiche push su dispositivi mobili e SMS. 
   +  Comunica lo stato tramite pannelli di controllo, condividendone pubblicamente uno di Amazon CloudWatch. 
   +  Incoraggia il coinvolgimento sui social media: 
     +  Monitora attivamente i social media per comprendere il sentimento dei clienti. 
     +  Pubblica post su piattaforme di social media per aggiornare il pubblico e coinvolgere la comunità. 
     +  Prepara modelli per una comunicazione coerente e chiara sui social media. 

1.  **Coordina la comunicazione interna:** implementa protocolli interni utilizzando strumenti come Amazon Q Developer per migliorare il coordinamento e la comunicazione tra i team. Usa i pannelli di controlli di CloudWatch per comunicare lo stato. 

1.  ** Orchestra la comunicazione con strumenti e servizi dedicati: ** 
   +  Usa Strumento di gestione degli incidenti AWS Systems Manager con Amazon Q Developer per configurare canali di chat dedicati per la comunicazione interna e il coordinamento in tempo reale durante gli incidenti. 
   +  Usa i runbook Strumento di gestione degli incidenti AWS Systems Manager per automatizzare le notifiche ai clienti durante gli incidenti tramite Amazon Pinpoint, Amazon SNS o strumenti di terze parti come le piattaforme di social media. 
   +  Incorpora i flussi di lavoro di approvazione all'interno dei runbook per rivedere e autorizzare tutte le comunicazioni esterne prima dell'invio. 

1.  ** Fai pratica e migliora: ** 
   +  Tieni corsi di formazione sull'uso di strumenti e strategie di comunicazione. Responsabilizza i team affinché siano in grado di prendere decisioni tempestive durante gli incidenti. 
   +  Testa il piano di comunicazione con esercitazioni regolari o giornate di gioco. Usa questi test per perfezionare la messaggistica e valutare l'efficacia dei canali. 
   +  Implementa meccanismi di feedback per valutare l'efficacia della comunicazione durante gli incidenti. Sviluppa continuamente il piano di comunicazione in base al feedback e alle esigenze mutevoli. 

 **Livello di impegno per il piano di implementazione:** elevato 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS07-BP03 Utilizzo di runbook per eseguire le procedure](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Eseguire l'analisi post-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documenti correlati:** 
+ [ Atlassian - Incident communication best practices ](https://www.atlassian.com/incident-management/incident-communication)
+ [ Atlassian - How to write a good status update ](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [ PagerDuty - A Guide to Incident Communications ](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Video correlati:** 
+ [ Atlassian - Create your own incident communication plan: Incident templates ](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Esempi correlati:** 
+  [Dashboard di AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo
<a name="ops_event_response_dashboards"></a>

 Usa i pannelli di controllo come strumento strategico per trasmettere lo stato operativo e le metriche fondamentali in tempo reale a diversi tipi di pubblico, inclusi team tecnici interni, leader e clienti. Questi pannelli di controllo offrono una rappresentazione visiva centralizzata dello stato del sistema e delle prestazioni aziendali, il che migliora la trasparenza e l’efficienza decisionale. 

 **Risultato desiderato:** 
+  I pannelli di controllo forniscono una visione completa del sistema e delle metriche aziendali rilevanti per le varie parti interessate. 
+  Le parti interessate possono accedere in modo proattivo alle informazioni operative, il che riduce la necessità di richieste di stato frequenti. 
+  Migliore processo decisionale in tempo reale durante le normali operazioni e gli incidenti. 

 **Anti-pattern comuni:** 
+ I tecnici che partecipano a una chiamata di gestione degli incidenti hanno bisogno di ricevere aggiornamenti di stato per poter agire rapidamente.
+ Affidarsi ai report manuali per la gestione comporta ritardi e potenziali imprecisioni.
+  I team operativi vengono spesso interrotti per aggiornamenti sullo stato durante gli incidenti. 

 **Vantaggi dell’adozione di questa best practice:** 
+  Consente alle parti interessate di accedere immediatamente alle informazioni critiche, promuovendo un processo decisionale informato. 
+  Riduce le inefficienze operative riducendo al minimo i report manuali e le richieste di stato frequenti. 
+  Aumenta la trasparenza e la fiducia attraverso la visibilità in tempo reale delle prestazioni del sistema e delle metriche aziendali. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all’implementazione
<a name="implementation-guidance"></a>

 I pannelli di controllo comunicano efficacemente lo stato dei sistemi e le metriche aziendali e possono essere personalizzati in base alle esigenze di diversi gruppi di destinatari. Strumenti come i pannelli di controllo di Amazon CloudWatch e Amazon Quick aiutano a creare pannelli di controllo interattivi e in tempo reale per il monitoraggio del sistema e la business intelligence. 

### Passaggi dell’implementazione
<a name="implementation-steps"></a>

1.  **Identifica le esigenze delle parti interessate:** determina le esigenze in termini di informazioni specifiche dei diversi gruppi di destinatari, come team tecnici, leader e clienti. 

1.  ** Scegli gli strumenti giusti:** seleziona gli strumenti appropriati come i [pannelli di controllo di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) per il monitoraggio del sistema e [Amazon Quick ](https://aws.amazon.com/quicksight/) per la business intelligence interattiva. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) offre un’esperienza pronta all’uso in [Dashboard AWS Health](https://health.aws.amazon.com/health/home), oppure puoi utilizzare gli eventi di stato in Amazon EventBridge o tramite l’API AWS Health per aumentare i pannelli di controllo. 

1.  **Progetta pannelli di controllo efficaci:** 
   +  Progetta pannelli di controllo per presentare in modo chiaro metriche e KPI pertinenti, assicurandoti che siano comprensibili e utilizzabili. 
   +  Incorpora visualizzazioni a livello di sistema e a livello aziendale, se necessario. 
   +  Includi pannelli di controllo di alto livello (per ampie panoramiche) e di basso livello (per analisi dettagliate). 
   +  Integra allarmi automatici all’interno dei pannelli di controllo per evidenziare i problemi critici. 
   +  Annota i pannelli di controllo con soglie e obiettivi delle metriche importanti per una visibilità immediata. 

1.  **Integra l’origine dati:** 
   +  Utilizza [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) per aggregare e visualizzare i parametri di vari servizi AWS e i [parametri delle query provenienti da altre origini dati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), creando in questo modo una visualizzazione unificata dello stato e dei parametri aziendali del tuo sistema. 
   +  Utilizza funzionalità come [Approfondimenti di CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) per le query e la visualizzazione di dati di log provenienti da vari applicazioni e servizi. 
   +  Usa gli eventi AWS Health per rimanere informato sullo stato operativo e sui problemi operativi confermati dei servizi AWS tramite l’[API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) o gli [eventi AWS Health su Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Fornisci l’accesso self-service:** 
   +  Condividi i pannelli di controllo CloudWatch con le parti interessate pertinenti per l’accesso self-service alle informazioni utilizzando la [funzionalità di condivisione dei pannelli di controllo](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Assicurati che i pannelli di controllo siano facilmente accessibili e contengano informazioni aggiornate in tempo reale. 

1.  **Aggiorna e perfeziona regolarmente:** 
   +  Aggiorna e perfeziona continuamente i panelli di controllo per allinearli alle esigenze aziendali in evoluzione e ai feedback delle parti interessate. 
   +  Rivedi regolarmente i panelli di controllo per assicurarti che siano sempre pertinenti ed efficaci nella trasmissione delle informazioni necessarie. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS08-BP05 Creare dashboard](ops_workload_observability_create_dashboards.md) 

 **Documenti correlati:** 
+ [ Creazione di pannelli di controllo per visibilità operativa ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Using Amazon CloudWatch dashboards ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Create flexible dashboards with dashboard variables ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Sharing CloudWatch dashboards ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Query metrics from other data sources ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Add a custom widget to a CloudWatch dashboard ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Esempi correlati:** 
+ [ One Observability Workshop - Dashboards ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatizza le risposte agli eventi
<a name="ops_event_response_auto_event_response"></a>

 L'automazione delle risposte agli eventi è fondamentale per una gestione operativa rapida, coerente e priva di errori. Crea processi semplificati e utilizza strumenti per gestire e rispondere automaticamente agli eventi, riducendo al minimo gli interventi manuali e migliorando l'efficacia operativa. 

 **Risultato desiderato:** 
+  Riduzione degli errori umani e tempi di risoluzione più rapidi grazie all'automazione. 
+  Gestione degli eventi operativi coerente e affidabile. 
+  Maggiore efficienza operativa e affidabilità del sistema. 

 **Anti-pattern comuni:** 
+ La gestione manuale degli eventi comporta ritardi ed errori.
+ L'automazione viene trascurata nelle attività ripetitive e critiche.
+  Le attività manuali ripetitive causano affaticamento da avvisi e la mancata identificazione di problemi critici. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Risposte agli eventi accelerate, riduzione dei tempi di inattività del sistema. 
+  Operazioni affidabili con gestione automatizzata e coerente degli eventi. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Incorpora l'automazione per creare flussi di lavoro operativi efficienti e ridurre al minimo gli interventi manuali. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  **Identifica le opportunità di automazione:** definisci le attività ripetitive da automatizzare, come la risoluzione dei problemi, l'arricchimento dei ticket, la gestione della capacità, la scalabilità, le implementazioni e i test. 

1.  **Identifica i prompt di automazione:** 
   +  Valuta e definisci condizioni o metriche specifiche che avviano risposte automatiche utilizzando le azioni di [ CloudWatch allarme di Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Usa [Amazon EventBridge](https://aws.amazon.com/eventbridge/) per rispondere agli eventi nei AWS servizi, nei carichi di lavoro personalizzati e nelle applicazioni SaaS. 
   +  [Prendi in considerazione eventi di avvio come [voci di registro specifiche](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [soglie di metriche prestazionali](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) o cambiamenti di stato nelle risorse.](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) AWS 

1.  **Implementa l'automazione basata sugli eventi:** 
   +  Utilizza i runbook di AWS Systems Manager automazione per semplificare le attività di manutenzione, implementazione e correzione. 
   +  [La creazione di incidenti in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) raccoglie e aggiunge automaticamente dettagli sulle AWS risorse coinvolte nell'incidente. 
   +  Monitora in modo proattivo le quote utilizzando [Quota Monitor for AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Regola in automatico la capacità di [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) così da mantenere disponibilità e prestazioni. 
   +  [Automatizza le pipeline di sviluppo con Amazon. CodeCatalyst](https://codecatalyst.aws/explore) 
   +  [Smoke testa o monitora continuamente gli endpoint utilizzando il monitoraggio sintetico. APIs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

1.  **Esegui la mitigazione del rischio attraverso l'automazione:** 
   +  Implementa le [risposte di sicurezza automatizzate](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) per affrontare in modo rapido i rischi. 
   +  Utilizza [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) per ridurre la deviazione delle configurazioni. 
   +  [Risolvi le risorse non conformi](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) con. Regole di AWS Config

 **Livello di impegno per il piano di implementazione:** elevato 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS08-BP04 Creare avvisi fruibili](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Definizione di un processo per ogni avviso](ops_event_response_process_per_alert.md) 

 **Documenti correlati:** 
+  [Using Systems Manager Automation runbooks with Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Creating incidents in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [AWS quote di servizio](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Monitor resource usage and send notifications when approaching quotas](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [Che cos'è Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Utilizzo degli CloudWatch allarmi Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Utilizzo delle azioni di CloudWatch allarme di Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Correzione delle risorse non conformi con Regole di AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Creating metrics from log events using filters](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Video correlati:** 
+ [Crea runbook di automazione con AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [Come automatizzare le operazioni IT su AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM regole di automazione](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Avvia rapidamente il tuo progetto software con CodeCatalyst i blueprints di Amazon](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Esempi correlati:** 
+ [ CodeCatalyst Tutorial Amazon: creazione di un progetto con il modello di applicazione Web moderno a tre livelli](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [ One Observability Workshop ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [ Respond to incidents using Incident Manager ](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)