# OPS 9. Come fai a comprendere lo stato delle operazioni?


 Definisci, acquisisci e analizza i parametri delle operazioni per ottenere visibilità sugli eventi delle operazioni, in modo da intraprendere le azioni appropriate. 

**Topics**
+ [

# OPS09-BP01 Misura gli obiettivi operativi e i KPI con le metriche
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Comunicare lo stato e le tendenze per garantire la visibilità delle operazioni
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Revisione delle metriche operative e assegnazione delle priorità per favorire il miglioramento
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Misura gli obiettivi operativi e i KPI con le metriche
OPS09-BP01 Misura gli obiettivi operativi e i KPI con le metriche

 Ottieni obiettivi e KPI dalla tua organizzazione che definiscano il successo delle operazioni e stabilisci metriche che li riflettano. Definisci previsioni da utilizzare come riferimento e rivalutale regolarmente. Sviluppa meccanismi per raccogliere queste metriche dai team per la valutazione. Le metriche [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) forniscono un metodo popolare per misurare i progressi verso le procedure DevOps di distribuzione del software. 

 **Risultato desiderato:** 
+ L’organizzazione pubblica e condivide gli obiettivi e i KPI per i team operativi.
+ Stabilisci metriche che riflettono questi KPI. Gli esempi possono includere:
  +  Lunghezza della coda dei ticket o età media del ticket 
  +  Numero di ticket raggruppati per tipo di problema 
  +  Tempo impiegato per lavorare ai problemi con o senza una procedura operativa standardizzata (SOP) 
  +  Tempo impiegato per il ripristino dopo un push di codice non riuscito 
  +  Volume delle chiamate 

 **Anti-pattern comuni:** 
+  Le scadenze di implementazione non vengono rispettate perché gli sviluppatori sono costretti a dedicarsi alle attività di risoluzione dei problemi. I team di sviluppo chiedono più personale, ma non possono quantificarne il numero perché il tempo impiegato non può essere misurato. 
+  È stato installato un desk di livello 1 per gestire le chiamate degli utenti. Nel corso del tempo, sono aumentati i carichi di lavoro ma non il personale assegnato al desk di livello 1. La soddisfazione dei clienti ne risente a causa dell’aumento dei tempi di chiamata e di quelli per arrivare a una soluzione, ma la dirigenza non vede indicatori di questo problema e non intraprende azioni. 
+  Un carico di lavoro problematico è stato affidato a un team operativo separato per la gestione. A differenza di altri carichi di lavoro, questo non è accompagnato dalla documentazione e dai runbook adeguati. Pertanto, i team dedicano più tempo alla risoluzione dei problemi e alla gestione degli errori. Tuttavia, non esistono metriche che lo documentino, il che rende difficile comprendere le responsabilità. 

 **Vantaggi dell’adozione di questa best practice:** quando il monitoraggio del carico di lavoro mostra lo stato delle nostre applicazioni e servizi, i team operativi dedicati al monitoraggio forniscono ai proprietari informazioni dettagliate sui cambiamenti avvenuti tra i consumatori di tali carichi di lavoro, come le mutate esigenze aziendali. Misura l’efficacia di questi team e valutali rispetto agli obiettivi aziendali creando metriche in grado di riflettere lo stato delle operazioni. Le metriche possono evidenziare problemi relativi al supporto o identificare quando si verificano deviazioni rispetto a un obiettivo di livello di servizio. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all’implementazione
Guida all’implementazione

Fissa un appuntamento con i leader aziendali e le parti interessate per stabilire quali saranno gli obiettivi generali del servizio. Stabilisci quali devono essere i compiti dei vari team operativi e quali sfide potrebbero affrontare. Utilizza queste informazioni per un’attività di brainstorming sugli indicatori chiave di prestazione (KPI) che potrebbero riflettere questi obiettivi operativi. Questi potrebbero essere la soddisfazione del cliente, il tempo trascorso dall’ideazione della funzionalità alla sua implementazione, il tempo medio di risoluzione dei problemi o l’efficienza in termini di costi.

 Partendo dai KPI, identifica le metriche e le origini di dati che potrebbero rispecchiare al meglio questi obiettivi. La soddisfazione del cliente può essere una combinazione di diverse metriche, come i tempi di attesa o di risposta durante le chiamate, i punteggi di soddisfazione e i tipi di problemi sollevati. I tempi di implementazione possono essere la somma del tempo necessario per il test e l’implementazione, con l’aggiunta di eventuali correzioni post-implementazione. Le statistiche che mostrano il tempo dedicato a diversi tipi di problemi (o il numero di tali problemi) possono fornire indicazioni su dove è necessario un impegno mirato. 

## Risorse
Risorse

 **Documenti correlati:** 
+ [ Quick: utilizzo dei KPI ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch - Using Metrics ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Creazione di pannelli di controllo ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ How to track your cost optimization KPIs with KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [AWS DevOps Guidance ](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Esempi correlati:** 
+ [ Monitor the performance of your software delivery using native AWS monitoring and observability tools ](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [ Balance deployment speed and stability with DORA metrics ](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [ Example MLOps operational metrics in the financial services industry ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ How to track your cost optimization KPIs with the KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Comunicare lo stato e le tendenze per garantire la visibilità delle operazioni
OPS09-BP02 Comunicare lo stato e le tendenze per garantire la visibilità delle operazioni

 Conoscere lo stato delle operazioni e la direzione verso la quale tendono a muoversi è necessario per identificare quando i risultati possono essere a rischio, se è possibile supportare o meno carichi di lavoro aggiuntivi o per verificare gli effetti che le modifiche hanno avuto sui team. Durante gli eventi operativi, disporre di pagine di stato a cui gli utenti e i team operativi possono fare riferimento per ottenere informazioni può ridurre la pressione sui canali di comunicazione e diffondere informazioni in modo proattivo. 

 **Risultato desiderato:** 
+  I responsabili delle operazioni hanno a disposizione informazioni dettagliate per conoscere il volume di chiamate che i loro team stanno gestendo e quali operazioni sono in corso, ad esempio le implementazioni. 
+  Quando si verificano eventi che possono compromettere le normali operazioni, vengono inviati avvisi alle parti interessate e alle comunità di utenti. 
+  Quando ricevono un avviso o si verifica un problema, la leadership dell'organizzazione e le parti interessate possono controllare una pagina di stato e ottenere informazioni relative a un evento operativo, come punti di contatto, informazioni sui ticket e tempi di ripristino stimati. 
+  I report messi a disposizione della leadership e delle parti interessate contengono statistiche operative come il volume delle chiamate in un periodo di tempo, i punteggi di soddisfazione degli utenti, il numero e l'età di ticket in sospeso. 

 **Anti-pattern comuni:** 
+  Se un carico di lavoro si interrompe, il servizio diventa non disponibile. Il volume delle chiamate aumenta quando gli utenti chiedono di sapere cosa sta succedendo. Le richieste dei manager di sapere chi sta risolvendo un problema comportano un ulteriore aumento del volume. Vari team operativi duplicano gli sforzi mentre effettuano indagini. 
+  La volontà di acquisire una nuova capacità porta a riassegnare gli sforzi di alcuni membri del personale verso compiti di tipo tecnico. Non viene fornito alcun backfill e i tempi di risoluzione dei problemi aumentano. Queste informazioni non vengono acquisite e i manager vengono a conoscenza del problema solo dopo diverse settimane o quando viene ricevuto il feedback negativo degli utenti. 

 **Vantaggi dell'adozione di questa best practice:** a volte, durante eventi operativi che hanno un impatto sull'azienda, si spreca molto tempo ed energia in query per ottenere informazioni da vari team nel tentativo di comprendere la situazione. Grazie alla creazione di pagine di stato e dashboard ampiamente diffuse, le parti interessate possono ottenere rapidamente informazioni, ad esempio, se è stato rilevato o meno un problema, chi è a capo delle attività di risoluzione o quando è previsto un ritorno alle normali operazioni. Ciò permette ai membri del team di avere più tempo per affrontare i problemi, perché non devono dilungarsi a comunicare lo stato agli altri. 

 Inoltre, pannelli di controllo e report forniscono informazioni ai responsabili delle decisioni e alle parti interessate in modo da scoprire se i team operativi sono in grado di rispondere alle esigenze aziendali e le modalità di allocazione delle relative risorse. Questo aspetto è fondamentale per determinare la presenza di risorse adeguate a supporto dell'azienda. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
Guida all'implementazione

 Crea pannelli di controllo che mostrino le metriche fondamentali attuali per i tuoi team operativi e rendile facilmente accessibili ai responsabili operativi e ai manager. 

 Crea pagine di stato aggiornabili rapidamente per diffondere informazioni relative a un incidente o un evento, come chi ne è responsabile e chi coordina la risposta. Condividi in questa pagina eventuali passaggi o soluzioni alternative che gli utenti dovrebbero prendere in considerazione e divulga ampiamente la posizione della pagina. Incoraggia gli utenti a controllare prima questa pagina quando si trovano di fronte a un problema sconosciuto. 

 Raccogli e fornisci report che mostrino le condizioni delle operazioni nel tempo e distribuiscili a leader e responsabili decisionali per illustrare il lavoro dei team operativi e le loro sfide ed esigenze. 

 Condividi con i team le metriche e i report che meglio riflettono gli obiettivi e i KPI e come hanno influito nel guidare il cambiamento. Dedica del tempo a queste attività per aumentare l'importanza delle operazioni nei e tra i team. 

 Usa [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) insieme ai pannelli di controllo o integra gli eventi AWS Health in essi, in modo che i team possano correlare i problemi relativi alle applicazioni allo stato del servizio AWS. 

## Risorse
Risorse

 **Best practice correlate:** 
+ [ OPS09-BP01 Misura gli obiettivi operativi e i KPI con le metriche ](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Documenti correlati:** 
+ [ Measure Progress ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [ Creazione di pannelli di controllo per visibilità operativa ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Esempi correlati:** 
+ [ Data Operations ](https://aws.amazon.com/solutions/app-development/data-operations)
+ [ How to track your cost optimization KPIs with KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [ The Importance of Key Performance Indicators (KPIs) for Large-Scale Cloud Migrations ](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Revisione delle metriche operative e assegnazione delle priorità per favorire il miglioramento
OPS09-BP03 Revisione delle metriche operative e assegnazione delle priorità per favorire il miglioramento

 L’assegnazione di tempo e risorse per la revisione dello stato delle operazioni garantisce che servire il settore d’attività rimanga una priorità quotidiana. Effettua regolarmente riunioni con i responsabili operativi e le parti interessate per rivedere le metriche, riconfermare o modificare traguardi e obiettivi e dare priorità ai miglioramenti. 

 **Risultato desiderato:** 
+  I responsabili operativi e il personale si incontrano regolarmente per esaminare le metriche in un determinato periodo di riferimento. Si comunicano le sfide, si celebrano le vittorie e si condividono le lezioni apprese. 
+  Parti interessate e leader aziendali vengono regolarmente informati sullo stato delle operazioni e sollecitati a fornire input su obiettivi, KPI e iniziative future. Vengono discusse e contestualizzate le scelte tra erogazione dei servizi, operazioni e manutenzione. 

 **Anti-pattern comuni:** 
+  Viene lanciato un nuovo prodotto, ma i team operativi di livello 1 e 2 non sono adeguatamente formati per fornire supporto oppure non dispongono di personale aggiuntivo. I leader non vedono le metriche che mostrano la diminuzione dei tempi di risoluzione dei ticket e l’aumento del volume degli incidenti. Si agisce settimane dopo, quando i numeri delle sottoscrizioni iniziano a diminuire a causa di utenti scontenti che abbandonano la piattaforma. 
+  Da molto tempo esiste un processo manuale per eseguire la manutenzione su un carico di lavoro. La volontà di automatizzare, seppur presente, costituiva una priorità bassa data la scarsa importanza del sistema. Nel corso del tempo, tuttavia, l’importanza del sistema è cresciuta e ora i team operativi sono impegnati per la maggior parte del tempo in questi processi manuali. Non sono previste risorse per fornire una maggiore strumentazione ai team operativi oberati dall’aumento dei carichi di lavoro, con rischi di burnout per il personale. La leadership viene a conoscenza del problema una volta segnalato da un membro del personale che lascia l’azienda per un concorrente. 

 **Vantaggi dell’adozione di questa best practice:** in alcune organizzazioni, può diventare difficile dedicare lo stesso tempo e la stessa attenzione alla fornitura di servizi e a nuovi prodotti od offerte. Quando ciò si verifica, il settore d’attività può risentirne a causa del lento deterioramento del livello di servizio atteso. Questo perché le operazioni non cambiano e non si evolvono di pari passo con la crescita del business e possono diventare presto obsolete. Senza una revisione regolare delle informazioni raccolte dai team operativi, il rischio che l’azienda corre potrebbe diventare visibile solo quando è troppo tardi. Dedicare tempo alla revisione delle metriche e delle procedure insieme al personale operativo e alla leadership, permette di mettere in luce il ruolo cruciale svolto dai team operativi nell’identificare i rischi molto prima che raggiungano livelli critici. I team operativi ottengono una visione migliore dei cambiamenti e delle iniziative aziendali imminenti, il che permette di intraprendere azioni proattive. Grazie alla visibilità delle metriche operative, la leadership è consapevole del ruolo che i team operativi svolgono nel garantire la soddisfazione dei clienti, sia interni che esterni, ed è in grado di valutare meglio le scelte in base alle priorità o di garantire che ci sia sufficiente tempo per modificare e fare evolvere operazioni e risorse attraverso nuove iniziative aziendali e di carico di lavoro. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all’implementazione
Guida all’implementazione

 Dedica del tempo alla revisione delle metriche operative con le parti interessate e i team operativi e alla revisione dei dati dei report. Inserisci questi report nel contesto degli scopi e degli obiettivi dell’organizzazione per stabilire se vengono raggiunti. Individua le cause di ambiguità in caso di obiettivi non chiari o potenziali conflitti tra quanto richiesto e quanto offerto. 

 Identifica come il tempo, le persone e gli strumenti possono contribuire agli esiti delle operazioni. Stabilisci quali KPI ne verrebbero influenzati e quali devono essere gli obiettivi di successo. Effettua regolarmente una revisione per assicurarti che i team operativi dispongano di risorse sufficienti per supportare il settore d’attività. 

## Risorse
Risorse

 **Documenti correlati:** 
+ [ Amazon Athena ](https://aws.amazon.com/athena/)
+ [ Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [ Amazon Quick ](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [ Raccolta di parametri e log da istanze Amazon EC2 e da server on-premises con l’agente Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [ Using Amazon CloudWatch metrics ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)