

Strumento di gestione degli incidenti AWS Systems Manager non è più aperto a nuovi clienti. I clienti esistenti possono continuare a utilizzare il servizio normalmente. Per ulteriori informazioni, vedi [modifica della Strumento di gestione degli incidenti AWS Systems Manager disponibilità](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-availability-change.html). 

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Che cos'è Strumento di gestione degli incidenti AWS Systems Manager?
<a name="what-is-incident-manager"></a>

Incident Manager, uno strumento di AWS Systems Manager, è progettato per aiutarti a mitigare e ripristinare gli *incidenti* che interessano le applicazioni ospitate su. AWS

Nel contesto di AWS, per incidente si intende qualsiasi interruzione o riduzione non pianificata della qualità dei servizi che può avere un impatto significativo sulle operazioni aziendali. Pertanto, è fondamentale che le organizzazioni stabiliscano una strategia di risposta per mitigare e recuperare in modo efficiente gli incidenti e implementare azioni per prevenire incidenti futuri.

Incident Manager aiuta a ridurre i tempi di risoluzione degli incidenti mediante:
+ Fornire piani automatizzati per coinvolgere in modo efficiente le persone responsabili della risposta agli incidenti.
+ Fornitura di dati pertinenti per la risoluzione dei problemi.
+ Abilitazione di azioni di risposta automatizzate utilizzando runbook di automazione predefiniti.
+ Fornire metodi per collaborare e comunicare con tutte le parti interessate.

Le funzionalità e i flussi di lavoro integrati in Incident Manager si basano sulle migliori pratiche per la risposta agli incidenti che Amazon ha sviluppato fin dalla sua nascita. Incident Manager si integra con Amazon CloudWatch, AWS CloudTrail AWS Systems Manager, e Amazon EventBridge. Servizi AWS 

## Componenti e funzionalità principali
<a name="features"></a>

Questa sezione descrive le funzionalità di Incident Manager utilizzate per configurare i piani di risposta agli incidenti.

**Piano di risposta**  
Un piano di risposta funziona come un modello che definisce cosa deve essere messo in atto quando si verifica un incidente. Include informazioni come:  
+ Chi è tenuto a rispondere quando si verifica un incidente.
+ La risposta automatica stabilita per mitigare l'incidente.
+ Lo strumento di collaborazione che i soccorritori devono utilizzare per comunicare e ricevere notifiche automatiche sull'incidente.

**Rilevamento degli incidenti**  
Puoi configurare Amazon CloudWatch alarms e Amazon EventBridge Events per creare incidenti quando vengono rilevate condizioni o modifiche che influiscono sulle tue AWS risorse. 

**Supporto per l'automazione Runbook**  
È possibile avviare i runbook di automazione dall'interno di Incident Manager per automatizzare la risposta critica agli incidenti e fornire passaggi dettagliati ai primi soccorritori. 

**Coinvolgimento ed escalation**  
Un *piano di coinvolgimento* specifica tutti coloro che devono notificare ogni singolo incidente. È possibile specificare i singoli contatti che sono stati aggiunti a Incident Manager o specificare una pianificazione delle chiamate creata in Incident Manager. I piani di coinvolgimento specificano anche un percorso di escalation per contribuire a garantire la visibilità tra le parti interessate e la partecipazione attiva durante il processo di risposta agli incidenti.

**Orari di chiamata**  
Una *pianificazione delle chiamate* in Incident Manager consiste in una o più rotazioni create dall'utente per la pianificazione. Per ogni rotazione, puoi includere fino a 30 contatti. Se aggiunto a un piano di escalation o a un piano di risposta, il programma di chiamata definisce chi riceve una notifica quando si verifica un incidente che richiede l'intervento del soccorritore. Gli orari di chiamata aiutano a garantire una copertura completa e ridondante 24 ore su 24, 7 giorni su 7, in base alle esigenze di risposta agli incidenti.

**Collaborazione attiva**  
I soccorritori rispondono attivamente agli incidenti attraverso l'integrazione con il client di applicazioni di chat Amazon Q Developer. Amazon Q Developer nelle applicazioni di chat supporta la creazione di canali di chat per Incident Manager che utilizzano Slack, Microsoft Teamso Amazon Chime. I soccorritori possono comunicare direttamente tra loro, ricevere notifiche automatiche sugli incidenti e, Slack e Microsoft Teams—esegue direttamente alcune operazioni dell'interfaccia a riga di comando (CLI) di Incident Manager.

**Diagnosi degli incidenti**  
I soccorritori possono visualizzare up-to-date le informazioni nella console Incident Manager durante un incidente. In base alle modifiche delle informazioni, i soccorritori possono quindi creare elementi di follow-up e porvi rimedio utilizzando i runbook di automazione.

**Risultati tratti da altri servizi**  
Per supportare la diagnosi degli incidenti da parte dei soccorritori, puoi abilitare la funzionalità Findings in Incident Manager. I risultati sono informazioni sulle AWS CodeDeploy implementazioni e sugli aggiornamenti degli AWS CloudFormation stack avvenuti nel periodo in cui si è verificato un incidente e che hanno coinvolto una o più risorse probabilmente correlate all'incidente. La disponibilità di queste informazioni riduce il tempo necessario per valutare le potenziali cause, il che può ridurre il tempo medio di ripristino (MTTR) da un incidente.

**Analisi post-incidente**  
Dopo la risoluzione di un incidente, si utilizza un'analisi post-incidente per identificare i miglioramenti apportati alla risposta all'incidente, compresi i tempi di rilevamento e mitigazione. Un'analisi può anche aiutarti a comprendere la causa principale degli incidenti. Incident Manager crea azioni di follow-up consigliate che è possibile utilizzare per migliorare la risposta agli incidenti.

## Vantaggi dell'utilizzo di Incident Manager
<a name="benefits"></a>

Scopri i vantaggi dell'utilizzo di Incident Manager nelle operazioni di rilevamento e risposta agli incidenti.

Questa sezione descrive i vantaggi che l'organizzazione può ottenere implementando un piano di risposta di Incident Manager.

**Diagnostica i problemi in modo efficiente e immediato**  
Gli CloudWatch allarmi Amazon e EventBridge gli eventi Amazon che configuri possono creare incidenti automaticamente in caso di interruzione o riduzione non pianificata della qualità dei tuoi servizi. 

CloudWatch gli allarmi rilevano e segnalano quando ci sono modifiche al valore della metrica o dell'espressione relativa a una soglia in un certo numero di periodi di tempo. EventBridge gli eventi vengono creati come risultato di modifiche in un ambiente, un'applicazione o un servizio specificato in una EventBridge regola. Quando si crea un allarme o un evento, è possibile specificare un'azione per un incidente da creare in Incident Manager e il piano di risposta appropriato per facilitare il coinvolgimento, l'intensificazione e la mitigazione dell'incidente.

Incident Manager offre la possibilità di raccogliere e tracciare automaticamente le metriche relative a un incidente, tramite l'uso di metriche. CloudWatch Oltre alle metriche automatizzate generate per l'incidente quando viene creato tramite un CloudWatch allarme, è possibile aggiungere metriche manualmente in tempo reale, per fornire contesto e dati aggiuntivi ai soccorritori in caso di incidente.

Utilizza la cronologia degli incidenti di Incident Manager per visualizzare i punti di interesse in ordine cronologico. I soccorritori possono anche utilizzare la sequenza temporale per aggiungere eventi personalizzati per descrivere cosa hanno fatto o cosa è successo. I punti di interesse automatici includono:
+ Un CloudWatch allarme o una EventBridge regola crea un incidente.
+ Le metriche degli incidenti vengono segnalate a Incident Manager.
+ I soccorritori sono coinvolti.
+ I passaggi del Runbook sono stati completati correttamente.

**Impegnati efficacemente**  
Incident Manager riunisce i soccorritori attraverso l'uso di contatti, pianificazioni delle chiamate, piani di intervento e canali di chat. È possibile definire i singoli contatti direttamente in Incident Manager e specificare le preferenze di contatto (e-mail, SMS o voce). I contatti vengono aggiunti alle rotazioni programmate durante le chiamate per determinare chi è incaricato di gestire gli incidenti durante un determinato periodo. Utilizzando i contatti definiti e gli orari di chiamata, si creano piani di emergenza per coinvolgere i soccorritori necessari al momento giusto durante un incidente. 

**Collabora in tempo reale**  
La comunicazione durante un incidente è la chiave per una risoluzione più rapida. Utilizzo di un Amazon Q Developer in un client di applicazioni di chat configurato per l'uso Slack, Microsoft Teams, o Amazon Chime, puoi riunire i soccorritori nel loro canale di chat connesso preferito, dove interagiscono direttamente con l'incidente e tra loro. Incident Manager mostra anche le azioni in tempo reale dei soccorritori nel canale di chat, fornendo un contesto agli altri.

**Automatizza il ripristino del servizio**  
*Incident Manager consente ai soccorritori di concentrarsi sulle attività chiave necessarie per risolvere un incidente tramite l'uso dei runbook di automazione.* In Incident Manager, i runbook sono una serie predefinita di azioni intraprese per risolvere un incidente. Combinano la potenza delle attività automatizzate con i passaggi manuali in base alle necessità, lasciando i soccorritori più disponibili ad analizzare e rispondere all'impatto.

**Prevenire incidenti futuri**  
Utilizzando l'analisi post-incidente di Incident Manager, il team può sviluppare piani di risposta più solidi e apportare modifiche alle applicazioni per prevenire incidenti e tempi di inattività futuri. L'analisi post-incidente consente inoltre l'apprendimento iterativo e il miglioramento dei runbook, dei piani di risposta e delle metriche.

## Servizi correlati
<a name="related-services"></a>

Incident Manager si integra con diversi servizi Servizi AWS e strumenti di terze parti per aiutarti a rilevare e risolvere gli incidenti e a interagire indirettamente con le sue operazioni API e gestire l'infrastruttura. Per informazioni, consultare [Integrazioni di prodotti e servizi con Incident Manager](integration.md).

## Accesso a Incident Manager
<a name="access"></a>

È possibile accedere a Incident Manager in uno dei seguenti modi: 
+ **La [console Incident Manager](https://console.aws.amazon.com/systems-manager/incidents/home)**
+ **AWS CLI**— Per informazioni generali, vedere Guida [introduttiva AWS CLI alla](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-getting-started.html) *Guida per l'AWS Command Line Interface utente*. Per informazioni sui comandi CLI per Incident Manager, vedere [https://docs.aws.amazon.com/cli/latest/reference/ssm-incidents/](https://docs.aws.amazon.com/cli/latest/reference/ssm-incidents/) e [https://docs.aws.amazon.com/cli/latest/reference/ssm-contacts/](https://docs.aws.amazon.com/cli/latest/reference/ssm-contacts/)nel *riferimento ai AWS CLI comandi.* 
+ **API Incident Manager**: per ulteriori informazioni, consulta l'[Strumento di gestione degli incidenti AWS Systems Manager API Reference](https://docs.aws.amazon.com/incident-manager/latest/APIReference/Welcome.html).
+ **AWS SDKs**— Per ulteriori informazioni, vedere [Strumenti su cui basarsi AWS](https://aws.amazon.com/developer/tools).

## Regioni e quote di Incident Manager
<a name="regions-quotas"></a>

Incident Manager non è supportato in tutti i Regioni AWS formati supportati da Systems Manager. 

Per visualizzare informazioni sulle regioni e sulle quote di Incident Manager, consulta [Strumento di gestione degli incidenti AWS Systems Manager endpoint e quote](https://docs.aws.amazon.com/general/latest/gr/incident-manager.html) in. *Riferimenti generali di Amazon Web Services*

## Prezzi per Incident Manager
<a name="pricing"></a>

L'utilizzo di Incident Manager è a pagamento. Per ulteriori informazioni, consulta la pagina [AWS dei prezzi di Systems Manager](https://aws.amazon.com/systems-manager/pricing/).

**Nota**  
Altri Servizi AWS contenuti e AWS contenuti di terze parti resi disponibili in relazione a questo servizio possono essere soggetti a costi separati e regolati da condizioni aggiuntive.

Per una panoramica di Trusted Advisor un servizio che consente di ottimizzare i costi, la sicurezza e le prestazioni dell' AWS ambiente, consulta [AWS Trusted Advisor](https://docs.aws.amazon.com/awssupport/latest/user/trusted-advisor.html)la *Guida per l'Supporto AWS utente*.

# Ciclo di vita degli incidenti in Incident Manager
<a name="incident-lifecycle"></a>

Strumento di gestione degli incidenti AWS Systems Manager fornisce un step-by-step framework basato sulle migliori pratiche per identificare e reagire agli incidenti, come interruzioni del servizio o minacce alla sicurezza. L'obiettivo principale di Incident Manager è aiutare a ripristinare i servizi o le applicazioni interessati alla normalità il più rapidamente possibile attraverso una soluzione completa di gestione del ciclo di vita degli incidenti. 

Come illustrato nella figura seguente, Incident Manager fornisce strumenti e best practice per ogni fase del ciclo di vita dell'incidente:
+ [Avvisi e coinvolgimento](#alerting-engagement)
+ [Triage](#triage)
+ [Indagine e mitigazione](#investigation-mitigation)
+ [Analisi post-incidente](#lifecycle-post-incident-analysis)

![\[Il ciclo di vita dell'incidente include avvisi, coinvolgimento, valutazione, indagine e analisi.\]](http://docs.aws.amazon.com/it_it/incident-manager/latest/userguide/images/incident-lifecycle.png)


## Avvisi e coinvolgimento
<a name="alerting-engagement"></a>

La fase di avviso e coinvolgimento del ciclo di vita degli incidenti si concentra sulla sensibilizzazione agli incidenti all'interno delle applicazioni e dei servizi. Questa fase inizia prima che venga rilevato un incidente e richiede una comprensione approfondita delle applicazioni. Puoi utilizzare i [ CloudWatchparametri di Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) per monitorare i dati sulle prestazioni delle tue applicazioni o utilizzare [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/) per aggregare avvisi provenienti da diverse fonti, applicazioni e servizi. Dopo aver impostato il monitoraggio delle applicazioni, puoi iniziare a inviare avvisi in caso di metriche che non rientrano nella norma storica. Per ulteriori informazioni sulle best practice di monitoraggio, consulta. [Monitoraggio](incident-response.md#incident-response-monitoring)

Per supportare la diagnosi degli incidenti da parte dei soccorritori, puoi abilitare la funzionalità Findings in Incident Manager. I risultati sono informazioni sulle AWS CodeDeploy implementazioni e sugli aggiornamenti degli AWS CloudFormation stack avvenuti nel periodo in cui si è verificato un incidente. La disponibilità di queste informazioni riduce il tempo necessario per valutare le potenziali cause, il che può ridurre il tempo medio di ripristino (MTTR) a seguito di un incidente.

Ora che state monitorando gli incidenti nelle vostre applicazioni, potete definire un *piano di risposta* agli incidenti da utilizzare durante un incidente. Per ulteriori informazioni sulla creazione di piani di risposta, consulta[Creazione e configurazione dei piani di risposta in Incident Manager](response-plans.md). Amazon EventBridge Events or CloudWatch Alarms può creare automaticamente un incidente utilizzando i piani di risposta come modello. Per ulteriori informazioni sulla creazione di incidenti, consulta[Creazione automatica o manuale di incidenti in Incident Manager](incident-creation.md).

I piani di risposta lanciano piani di *intensificazione e piani* di *coinvolgimento correlati per coinvolgere i* primi soccorritori nell'incidente. Per ulteriori informazioni sulla configurazione dei piani di escalation, vedere. [Crea un piano di escalation](escalation.md#escalation-create) Contemporaneamente, Amazon Q Developer nelle applicazioni di chat invia notifiche ai soccorritori utilizzando un *canale di chat* indirizzandoli alla pagina dei dettagli dell'incidente. Utilizzando il canale di chat e *i dettagli dell'incidente*, il team può comunicare e valutare un incidente. Per ulteriori informazioni sulla configurazione dei canali di chat in Incident Manager, consulta[Attività 2: creare un canale di chat in Amazon Q Developer nelle applicazioni di chat](chat.md#chat-create).

## Triage
<a name="triage"></a>

Il triage è il momento in cui i primi soccorritori cercano di determinare l'impatto sui clienti. La visualizzazione dei dettagli dell'incidente nella console Incident Manager fornisce ai soccorritori tempistiche e metriche per aiutarli a valutare l'incidente. La valutazione dell'impatto di un incidente pone anche le basi per i tempi di risposta, la risoluzione e la comunicazione dell'incidente. I soccorritori danno priorità agli incidenti utilizzando valutazioni di impatto da 1 (Critico) a 5 (Nessun impatto).

La tua organizzazione può definire l'ambito esatto di ogni valutazione di impatto come preferisci. La tabella seguente fornisce esempi di come ogni livello di impatto potrebbe essere generalmente definito.


| Codice di impatto | Nome dell'impatto | Esempio di ambito definito | 
| --- | --- | --- | 
| 1 | Critical |  Errore completo dell'applicazione che ha un impatto sulla maggior parte dei clienti.  | 
| 2 | High |  Errore completo dell'applicazione che ha un impatto su un sottoinsieme di clienti.  | 
| 3 | Medium |  Errore parziale dell'applicazione con ripercussioni sul cliente.  | 
| 4 | Low |  Guasti intermittenti che hanno un impatto limitato sui clienti.  | 
| 5 | No Impact |  I clienti non sono attualmente interessati, ma è necessaria un'azione urgente per evitare l'impatto.  | 

## Indagine e mitigazione
<a name="investigation-mitigation"></a>

La visualizzazione dei dettagli *degli incidenti* fornisce al team i runbook, le tempistiche e le metriche. Per scoprire come gestire un incidente, consulta il. [Visualizzazione dei dettagli degli incidenti nella console](tracking.md#tracking-details)

*I runbook* forniscono comunemente procedure di indagine e possono estrarre automaticamente dati o tentare soluzioni di uso comune. I runbook forniscono anche passaggi chiari e ripetibili che il team ha ritenuto utili per mitigare gli incidenti. La scheda Runbook si concentra sulla fase corrente del runbook e mostra le fasi passate e future.

Incident Manager si integra con Systems Manager Automation per creare runbook. Usa i runbook per eseguire una delle seguenti operazioni:
+ Gestisci istanze e risorse AWS 
+ Esegui automaticamente gli script
+ Gestisci le risorse CloudFormation 

Per ulteriori informazioni sui tipi di azioni supportati, vedere il [riferimento alle azioni di Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-actions.html) nella *Guida per l'AWS Systems Manager utente*.

La scheda **Cronologia** mostra quali azioni sono state intraprese. La timeline registra ciascuna con un timestamp e dettagli creati automaticamente. Per aggiungere eventi personalizzati alla sequenza temporale, consulta la [Sequenza temporale](tracking.md#tracking-details-timeline) sezione nella pagina dei *dettagli dell'incidente* di questa guida per l'utente.

La scheda **Diagnosi** mostra le metriche compilate automaticamente e le metriche aggiunte manualmente. Questa visualizzazione fornisce informazioni preziose sulle attività dell'applicazione durante un incidente.

La scheda **Impegni** consente di aggiungere altri contatti all'incidente e aiuta a fornire le risorse necessarie per consentire al contatto coinvolto di mettersi rapidamente al corrente una volta coinvolto nell'incidente. I contatti vengono coinvolti attraverso piani di escalation definiti o piani di coinvolgimento personali.

Utilizzando un *canale di chat*, puoi interagire direttamente con il tuo incidente e con gli altri soccorritori del tuo team. Utilizzando Amazon Q Developer nelle applicazioni di chat, puoi configurare i canali di chat in. Slack, Microsoft Teamse Amazon Chime. In Slack e Microsoft Teams canali, i soccorritori possono interagire con gli incidenti direttamente dal canale di chat utilizzando una serie di comandi. `ssm-incidents` Per ulteriori informazioni, consulta [Interagire tramite il canale di chat](chat.md#chat-interact).

## Analisi post-incidente
<a name="lifecycle-post-incident-analysis"></a>

Incident Manager fornisce un framework per riflettere su un incidente, adottare le misure necessarie per evitare che l'incidente si ripeta in futuro e per migliorare le attività di risposta agli incidenti in generale. I miglioramenti possono includere:
+ Modifiche alle applicazioni coinvolte in un incidente. Il tuo team può utilizzare questo tempo per migliorare il sistema e renderlo più tollerante ai guasti.
+ Modifiche a un piano di risposta agli incidenti. Prenditi il tempo necessario per incorporare le lezioni apprese.
+ Modifiche ai runbook. Il tuo team può approfondire i passaggi necessari per la risoluzione e i passaggi che puoi automatizzare. 
+ Modifiche agli avvisi. Dopo un incidente, il tuo team potrebbe aver notato dei punti critici nelle metriche che puoi utilizzare per avvisare il team prima di un incidente. 

Incident Manager facilita questi potenziali miglioramenti utilizzando una serie di domande di analisi post-incidente e di azioni da intraprendere insieme alla cronologia dell'incidente. Per ulteriori informazioni sul miglioramento attraverso l'analisi, vedere. [Performing a post-incident analysis in Incident Manager](analysis.md)