

Administrador de incidentes de AWS Systems Manager ya no está abierto a nuevos clientes. Los clientes existentes pueden seguir utilizando el servicio con normalidad. Para obtener más información, consulte [Cambio en la disponibilidad de Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-availability-change.html). 

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# ¿Qué es Administrador de incidentes de AWS Systems Manager?
<a name="what-is-incident-manager"></a>

Incident Manager, una herramienta incluida AWS Systems Manager, está diseñada para ayudarlo a mitigar los *incidentes* que afecten a sus aplicaciones alojadas y a recuperarse de ellos AWS. 

En este contexto AWS, un incidente es cualquier interrupción o reducción no planificada de la calidad de los servicios que puede tener un impacto significativo en las operaciones comerciales. Por lo tanto, es esencial que las organizaciones establezcan una estrategia de respuesta de mitigación y recuperación eficaz ante incidentes e implementen acciones para prevenirlos en el futuro.

Para ayudar a reducir el tiempo de resolución de incidentes, Incident Manager:
+ Proporciona planes automatizados que involucra de manera eficiente a las personas responsables de responder a los incidentes.
+ Proporciona datos relevantes para la solución de problemas.
+ Habilita acciones de respuesta automatizadas mediante manuales de procedimientos de automatización predefinidos.
+ Proporciona métodos para colaborar y comunicar con todas las partes interesadas.

Las características y los flujos de trabajo integrados en Incident Manager se basan en las prácticas recomendadas de respuesta a incidentes que Amazon ha venido desarrollando casi desde su creación. Incident Manager se integra con Amazon CloudWatch AWS CloudTrail, AWS Systems Manager, y Amazon EventBridge. Servicios de AWS 

## Componentes y características principales
<a name="features"></a>

En esta sección se describen las características de Incident Manager que usted utiliza para configurar sus planes de respuesta a incidentes.

**Plan de respuesta **  
Un plan de respuesta funciona como una plantilla que define lo que se debe establecer al producirse un incidente. Incluye información como:  
+ Quién debe responder al producirse un incidente.
+ La respuesta automatizada establecida para mitigar el incidente.
+ La herramienta de colaboración que los respondedores deben utilizar para comunicar y recibir notificaciones automáticas sobre el incidente.

**Detección de incidentes**  
Puede configurar CloudWatch las alarmas de Amazon y EventBridge los eventos de Amazon para crear incidentes cuando se detecten condiciones o cambios que afecten a sus AWS recursos. 

**Soporte de automatización de manuales de procedimientos**  
Puede iniciar manuales de procedimientos de automatización desde Incident Manager para automatizar su respuesta crítica a los incidentes y proporcionar pasos detallados a los respondedores iniciales. 

**Participación y escalada**  
Un *plan de participación* especifica a quiénes se debe enviar una notificación para cada incidente único. Puede especificar contactos individuales que haya añadido a Incident Manager o especificar un horario de guardia que haya creado en Incident Manager. Los planes de participación también especifican una ruta de escalada para ayudar a garantizar la visibilidad entre las partes interesadas y la participación activa durante el proceso de respuesta a incidentes.

**Horarios de guardia**  
Un *horario de guardia* en Incident Manager consta de una o más rotaciones que usted crea para el horario. Para cada rotación, puede incluir hasta 30 contactos. El horario de guardia, al añadirlo a un plan de escalada o de respuesta, define a quién se notifica al producirse un incidente que requiera la intervención de un respondedor. Los horarios de guardia le permiten asegurarse de que dispone de una cobertura completa, redundante e ininterrumpida (24/7) según sea necesario para su respuesta a incidentes.

**Colaboración activa**  
El personal de respuesta a incidentes responde activamente a los incidentes mediante la integración con Amazon Q Developer en el cliente de aplicaciones de chat. Amazon Q Developer en aplicaciones de chat admite la creación de canales de chat para Incident Manager que utilizan Slack, Microsoft Teams, o Amazon Chime. Los socorristas pueden comunicarse directamente entre sí, recibir notificaciones automáticas sobre los incidentes y... Slack y Microsoft Teams—ejecute directamente algunas operaciones de la interfaz de línea de comandos (CLI) de Incident Manager.

**Diagnóstico de incidentes**  
El personal de respuesta puede ver la up-to-date información en la consola de Incident Manager durante un incidente. En función de los cambios en la información, los respondedores pueden crear elementos de seguimiento y corregirlos mediante manuales de procedimientos de automatización.

**Resultados de otros servicios**  
Para apoyar el diagnóstico de incidentes de los respondedores, puede habilitar la característica Resultados en Incident Manager. Los resultados son información sobre AWS CodeDeploy las implementaciones y las actualizaciones de la AWS CloudFormation pila que se produjeron alrededor del momento de un incidente y que implicaron uno o más recursos probablemente relacionados con el incidente. Disponer de esta información reduce el tiempo necesario para evaluar las causas potenciales, lo que puede reducir el tiempo medio de recuperación (MTTR) de un incidente.

**Análisis post-incidente**  
Una vez resuelto un incidente, utilice un análisis post-incidente para identificar mejoras en su respuesta a incidentes, incluyendo el tiempo de detección y mitigación. Un análisis también puede ayudarle a comprender la causa raíz de los incidentes. Incident Manager crea elementos de acción de seguimiento recomendados que puede utilizar para mejorar su respuesta a los incidentes.

## Beneficios del uso de Incident Manager
<a name="benefits"></a>

Obtenga información sobre los beneficios que brinda Incident Manager en sus operaciones de detección y respuesta a incidentes.

En esta sección se describen los beneficios que su organización puede obtener al implementar un plan de respuesta con Incident Manager.

**Diagnóstico de problemas de manera eficaz e inmediata**  
 CloudWatch Las alarmas de Amazon y EventBridge los eventos de Amazon que configure pueden crear incidentes automáticamente cuando se produzca una interrupción no planificada o una reducción de la calidad de sus servicios. 

CloudWatch las alarmas detectan e informan cuando se producen cambios en el valor de la métrica o expresión en relación con un umbral durante varios períodos de tiempo. EventBridge los eventos se crean como resultado de un cambio en un entorno, una aplicación o un servicio que se haya especificado en una EventBridge regla. Al crear una alarma o un evento, puede especificar una acción para que se cree un incidente en Incident Manager y el plan de respuesta apropiado para facilitar el afrontamiento, la escalada y la mitigación del incidente.

El administrador de incidentes permite recopilar y rastrear automáticamente las métricas relacionadas con un incidente mediante el uso de CloudWatch métricas. Además de las métricas automatizadas que se generan para el incidente cuando se crea mediante una CloudWatch alarma, puede añadir métricas manualmente en tiempo real para proporcionar contexto y datos adicionales a los responsables de un incidente.

Utilice la línea temporal de incidentes de Incident Manager para mostrar los puntos de interés en orden cronológico. Los respondedores también pueden utilizar la línea temporal para añadir eventos personalizados que describan lo que hicieron o lo que ocurrió. Los puntos de interés automatizados incluyen:
+ Una CloudWatch alarma o EventBridge regla crea un incidente.
+ Las métricas de los incidentes se comunican a Incident Manager.
+ Los respondedores participan.
+ Los pasos del manual de procedimientos se completan con éxito.

**Participación eficaz**  
Incident Manager reúne a los respondedores de incidentes mediante el uso de contactos, horarios de guardia, planes de escalada y canales de chat. Usted define los contactos individuales directamente en Incident Manager y especifica las preferencias de contacto (correo electrónico, SMS o voz). Usted añade contactos a las rotaciones de los planes de guardia para determinar quién está encargado de atender las incidencias durante un periodo determinado. Al utilizar los contactos definidos y los horarios de guardia, usted crea planes de escalada para involucrar a los respondedores necesarios en el momento adecuado durante un incidente. 

**Colaboración en tiempo real**  
La comunicación durante un incidente es el elemento clave para una resolución más rápida. Uso de un Amazon Q Developer en un cliente de aplicaciones de chat configurado para usar Slack, Microsoft Teams, o Amazon Chime, puedes reunir a los socorristas en su canal de chat conectado preferido, donde interactúan directamente con el incidente y entre sí. Incident Manager también muestra las acciones en tiempo real de los respondedores de incidentes en el canal de chat, proporcionando contexto a los demás.

**Automatización del restablecimiento del servicio**  
Incident Manager permite a sus respondedores centrarse en las tareas clave necesarias para resolver un incidente mediante el uso de *manuales de procedimientos* automatizados. En Incident Manager, los manuales de procedimientos son una serie de acciones predefinidas para resolver un incidente. Combinan la potencia de las tareas automatizadas con pasos manuales según sea necesario, lo que da a los respondedores más disponibilidad para analizar y responder al impacto.

**Prevención de futuros incidentes**  
Mediante el análisis post-incidente de Incident Manager, su equipo puede desarrollar planes de respuesta más sólidos y efectuar cambios en todas sus aplicaciones para prevenir futuros incidentes y tiempos de inactividad. El análisis post-incidente también permite el aprendizaje iterativo y la mejora de los manuales de procedimientos, los planes de respuesta y las métricas.

## Servicios relacionados
<a name="related-services"></a>

Incident Manager se integra con varios servicios Servicios de AWS y herramientas de otros fabricantes para ayudarle a detectar y resolver incidentes, así como a interactuar indirectamente con sus operaciones de API y gestionar la infraestructura. Para obtener más información, consulte [Integraciones de productos y servicios con Incident Manager](integration.md).

## Acceso a Incident Manager
<a name="access"></a>

Puede acceder a Incident Manager de cualquiera de las siguientes formas: 
+ **La [consola de Incident Manager](https://console.aws.amazon.com/systems-manager/incidents/home)**
+ **AWS CLI**: Para obtener información general, consulte [Introducción a la AWS CLI](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-getting-started.html) en la *Guía del usuario de AWS Command Line Interface *. Para obtener información sobre los comandos de CLI para Incident Manager, consulte [https://docs.aws.amazon.com/cli/latest/reference/ssm-incidents/](https://docs.aws.amazon.com/cli/latest/reference/ssm-incidents/) y [https://docs.aws.amazon.com/cli/latest/reference/ssm-contacts/](https://docs.aws.amazon.com/cli/latest/reference/ssm-contacts/)en la *Referencia de AWS CLI comandos*. 
+ **API de Incident Manager**: Para obtener más información, consulte la [Referencia de la API de Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/APIReference/Welcome.html).
+ **AWS SDKs**— Para obtener más información, consulte [Herramientas sobre las que construir AWS](https://aws.amazon.com/developer/tools).

## Regiones y cuotas de Incident Manager
<a name="regions-quotas"></a>

Incident Manager no es compatible con todos los sistemas Regiones de AWS compatibles con Systems Manager. 

Para obtener información sobre regiones y cuotas de Incident Manager, consulte [Puntos de conexión y cuotas de Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/general/latest/gr/incident-manager.html) en *Referencia general de Amazon Web Services*.

## Precios de Incident Manager
<a name="pricing"></a>

El uso de Incident Manager tiene un costo. Para obtener más información, consulte [Precios de AWS Systems Manager](https://aws.amazon.com/systems-manager/pricing/).

**nota**  
El resto Servicios de AWS del AWS contenido y el contenido de terceros que estén disponibles en relación con este servicio pueden estar sujetos a cargos separados y regirse por condiciones adicionales.

Para obtener una descripción general de Trusted Advisor un servicio que le ayuda a optimizar los costos, la seguridad y el rendimiento de su AWS entorno, consulte [AWS Trusted Advisor](https://docs.aws.amazon.com/awssupport/latest/user/trusted-advisor.html)la *Guía del AWS Support usuario*.

# Ciclo de vida del incidente en Incident Manager
<a name="incident-lifecycle"></a>

Administrador de incidentes de AWS Systems Manager proporciona un step-by-step marco basado en las mejores prácticas para identificar incidentes y reaccionar ante ellos, como las interrupciones del servicio o las amenazas a la seguridad. El objetivo principal de Incident Manager es ayudar a restablecer la normalidad de los servicios o aplicaciones afectados lo antes posible mediante una solución completa de administración del ciclo de vida de los incidentes. 

Como se muestra en la siguiente ilustración, Incident Manager proporciona herramientas y mejores prácticas para cada fase del ciclo de vida de los incidentes:
+ [Alerta e intervención](#alerting-engagement)
+ [Triaje](#triage)
+ [Investigación y mitigación](#investigation-mitigation)
+ [Análisis post-incidente](#lifecycle-post-incident-analysis)

![\[El ciclo de vida de los incidentes incluye las alertas, la participación, la clasificación, la investigación y el análisis.\]](http://docs.aws.amazon.com/es_es/incident-manager/latest/userguide/images/incident-lifecycle.png)


## Alerta e intervención
<a name="alerting-engagement"></a>

La fase de alerta e intervención del ciclo de vida del incidente se centra en dar a conocer los incidentes dentro de sus aplicaciones y servicios. Esta fase comienza antes de que se detecte un incidente y requiere un profundo conocimiento de sus aplicaciones. Puedes usar [ CloudWatchlas métricas de Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) para monitorear los datos sobre el rendimiento de tus aplicaciones o usar [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/) para agregar alertas de diferentes fuentes, aplicaciones y servicios. Después de haber configurado el monitoreo de sus aplicaciones, puede comenzar a alertar sobre las métricas que se desvían de la norma histórica. Para obtener más información sobre las prácticas recomendadas de monitoreo, consulte [Supervisión](incident-response.md#incident-response-monitoring).

Para apoyar el diagnóstico de incidentes de los respondedores, puede habilitar la característica Resultados en Incident Manager. Los resultados son información sobre AWS CodeDeploy las implementaciones y las actualizaciones de la AWS CloudFormation pila que se produjeron en torno al momento de un incidente. Disponer de esta información reduce el tiempo necesario para evaluar las causas potenciales, lo que puede reducir el tiempo medio de recuperación (MTTR) de un incidente.

Ahora que está monitoreando los incidentes en sus aplicaciones, puede definir un *plan de respuesta* a incidentes a fin de utilizarlo durante un incidente. Para obtener más información sobre la creación de planes de respuesta, consulte [Creación y configuración de planes de respuesta en Incident Manager](response-plans.md). EventBridge Los eventos o CloudWatch alarmas de Amazon pueden crear automáticamente un incidente utilizando planes de respuesta como plantilla. Para obtener más información sobre la creación de incidentes, consulte [Crear incidentes de forma automática o manual en Incident Manager](incident-creation.md).

Los planes de respuesta lanzan *planes de escalada* y *planes de participación* relacionados para atraer a los primeros respondedores al incidente. Para obtener más información sobre la creación de planes de escalada, consulte [Creación de un plan de escalada](escalation.md#escalation-create). Simultáneamente, Amazon Q Developer en las aplicaciones de chat notifica a los socorristas mediante un *canal de chat* que los dirige a la página de detalles del incidente. Mediante el canal de chat y los *detalles del incidente*, el equipo puede comunicar y clasificar un incidente. Para obtener más información sobre la configuración de canales de chat en Incident Manager, consulte [Tarea 2: Crear un canal de chat en Amazon Q Developer en aplicaciones de chat](chat.md#chat-create).

## Triaje
<a name="triage"></a>

El triaje es cuando los primeros respondedores intentan determinar el impacto para los clientes. La vista de detalles del incidente en la consola de Incident Manager proporciona a los respondedores líneas temporales y métricas para ayudarles a evaluar el incidente. La evaluación del impacto de un incidente también sienta las bases para el tiempo de respuesta, la resolución y la comunicación del incidente. Los respondedores priorizan los incidentes utilizando clasificaciones de impacto del 1 (Crítico) al 5 (Sin impacto).

Su organización puede definir el alcance exacto de cada clasificación de impacto como prefiera. En la tabla siguiente se ofrecen ejemplos de cómo podría definirse normalmente cada nivel de impacto.


| Código del impacto | Nombre del impacto | Ejemplo de alcance definido | 
| --- | --- | --- | 
| 1 | Critical |  Fallo total de una aplicación que repercute en la mayoría de los clientes.  | 
| 2 | High |  Fallo total de una aplicación que repercute en un subconjunto de clientes.  | 
| 3 | Medium |  Fallo parcial de una aplicación que repercute en los clientes.  | 
| 4 | Low |  Fallos intermitentes que tienen un impacto limitado en los clientes.  | 
| 5 | No Impact |  Los clientes no se ven actualmente afectados, pero es necesario tomar medidas urgentes para evitar el impacto.  | 

## Investigación y mitigación
<a name="investigation-mitigation"></a>

La vista de detalles del *incidente* proporciona a su equipo manuales de procedimientos, líneas temporales y métricas. Para obtener información sobre cómo puede trabajar con un incidente, consulte [Visualización de los detalles del incidente en la consola](tracking.md#tracking-details).

*Los manuales de procedimientos* suelen proporcionar pasos de investigación y pueden extraer datos o intentar soluciones de uso común de forma automática. Los manuales de procedimientos también proporcionan pasos claros y repetibles que su equipo ha encontrado útiles para mitigar incidentes. La pestaña “Manual de procedimientos” se centra en el paso actual del manual de procedimientos y muestra los pasos pasados y futuros.

Incident Manager se integra con Systems Manager Automation para crear manuales de procedimientos. Utilice los manuales de procedimientos para realizar cualquiera de las siguientes acciones:
+ Gestione las instancias y los recursos AWS 
+ Ejecutar scripts de forma automática
+ Administre CloudFormation los recursos

Para obtener más información sobre los tipos de acciones admitidos, consulte [Referencia de acciones de Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-actions.html) en la *Guía del usuario de AWS Systems Manager *.

La pestaña **Línea temporal** muestra las acciones que se han realizado. La línea temporal registra cada acción con una marca de tiempo y detalles creados automáticamente. Para añadir eventos personalizados a la línea temporal, consulte la sección [Plazo](tracking.md#tracking-details-timeline) en la página *Detalles del incidente* de esta guía del usuario.

La pestaña **Diagnóstico** muestra métricas introducidas tanto de forma automática como manual. Esta vista proporciona información valiosa sobre las actividades de su aplicación durante un incidente.

La pestaña **Participaciones** le permite añadir contactos adicionales al incidente y ayuda a proporcionar los recursos para que el contacto implicado se ponga al día rápidamente una vez involucrado en el incidente. Los contactos se comprometen a través de planes de escalada o planes de participación personal definidos.

Mediante un *canal de chat*, puede interactuar directamente con su incidente y con otros respondedores de su equipo. Al utilizar Amazon Q Developer en las aplicaciones de chat, puede configurar los canales de chat en. Slack, Microsoft Teamsy Amazon Chime. In Slack y Microsoft Teams canales, los socorristas pueden interactuar con los incidentes directamente desde el canal de chat mediante una serie de `ssm-incidents` comandos. Para obtener más información, consulte [Interacción a través del canal de chat](chat.md#chat-interact).

## Análisis post-incidente
<a name="lifecycle-post-incident-analysis"></a>

Incident Manager proporciona un marco para reflexionar sobre un incidente, tomar las medidas necesarias para evitar que se repita en el futuro y mejorar las actividades de respuesta a incidentes en general. Las mejoras pueden incluir:
+ Cambios en las aplicaciones implicadas en un incidente. Su equipo puede utilizar este tiempo para mejorar el sistema y hacerlo más tolerante a los fallos.
+ Cambios en un plan de respuesta a incidentes. Tómese el tiempo necesario para incorporar las lecciones aprendidas.
+ Cambios en los manuales de procedimientos. Su equipo puede profundizar en los pasos necesarios para la resolución y en los pasos que usted puede automatizar. 
+ Cambios en las alertas. Tras un incidente, su equipo podría haber observado puntos críticos en las métricas que puede utilizar para alertar con antelación al equipo sobre un incidente. 

Incident Manager facilita estas mejoras potenciales a través de un conjunto de preguntas de análisis post-incidente y elementos de acción junto con la línea temporal del incidente. Para obtener más información sobre la mejora a través del análisis, consulte [Realización de un análisis post-incidente en Incident Manager](analysis.md).