AWS Systems Manager Incident Manager 不再向新客户开放。现有客户可以继续正常使用该服务。有关更多信息，请参阅 [AWS Systems Manager Incident Manager 可用性变更](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-availability-change.html)。

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 什么是 AWS Systems Manager Incident Manager？
<a name="what-is-incident-manager"></a>

Incident Manager 是一款工具 AWS Systems Manager，旨在帮助您缓解影响托管应用程序*的事件*并从中恢复过来 AWS。

在的背景下 AWS，事件是指任何可能对业务运营产生重大影响的计划外中断或服务质量下降。因此，组织必须制定应对策略，以有效缓解并从中恢复过来，采取措施防止将来发生事件。

Incident Manager 通过以下方式帮助缩短解决事件的时间：
+ 提供自动化计划，让负责响应事件的人员高效进行互动。
+ 提供相关的故障排除数据。
+ 使用预定义的自动化运行手册，启用自动响应操作。
+ 提供与所有利益相关者合作和沟通的方法。

Incident Manager 内置的特征和工作流程基于 Amazon 自成立以来一直在开发的事件响应最佳实践。事件管理器与亚马逊 CloudWatch、 AWS CloudTrail AWS Systems Manager、和亚马逊 AWS 服务 等集成 EventBridge。

## 主要组件和特征
<a name="features"></a>

该部分介绍 Incident Manager 中用于设置事件响应计划的特征。

**响应计划**  
响应计划作为模板，用于定义事件发生时必须采取的措施。它包括以下信息：  
+ 事件发生时谁需要做出响应。
+ 为缓解事件而建立的自动化响应。
+ 响应者必须使用用于沟通和接收有关事件的自动通知的协作工具。

**事件检测**  
您可以将 Amazon CloudWatch 警报和 Amazon EventBridge 事件配置为在检测到影响您的 AWS 资源的条件或变化时创建事件。

**运行手册自动化支持**  
您可以从 Incident Manager 中启动自动化运行手册，自动对事件做出关键响应，并为第一响应者提供详细的步骤。

**互动和上报**  
*互动计划*规定了每个独特事件都要通知所有人。您可以指定已添加到 Incident Manager 的单个联系人，也可以指定在 Incident Manager 中创建的待命时间表。互动计划还规定了上报路径，以帮助确保在事件响应过程中利益相关者的可见性和积极参与。

**待命时间表**  
Incident Manager 中的*待命时间表*由您为该计划创建的一个或多个轮换组成。每次轮换最多可包括 30 个联系人。在上报计划或响应计划中加入待命时间表后，就能确定在发生需要响应者干预的事件时，谁会收到通知。待命时间表有助于确保您根据事件响应的需要获得全面、冗余的全天候服务。

**积极协作**  
事件响应者通过与聊天应用程序客户端中的 Amazon Q Developer 集成，积极响应事件。聊天应用程序中的 Amazon Q Developer 支持为使用以下内容的事件管理器创建聊天频道 Slack, Microsoft Teams，或者是 Amazon Chime。响应者可以直接相互通信，接收有关事件的自动通知，并且 Slack 以及 Microsoft Teams— 直接运行一些事件管理器命令行界面 (CLI) 操作。

**事件诊断**  
事件发生期间，响应者可以在事件管理器控制台中查看 up-to-date信息。然后，响应者可以根据信息的变化创建后续项目，并使用自动化运行手册对其进行补救。

**其他服务的调查发现**  
为了支持响应者的事件诊断，您可以在 Incident Manager 中启用调查发现特征。调查结果是有关在事件发生前后发生的 AWS CodeDeploy 部署和 AWS CloudFormation 堆栈更新的信息，这些信息涉及一个或多个可能与事件相关的资源。掌握这些信息可以减少评估潜在原因所需的时间，从而缩短从事件中恢复的平均时间 (MTTR)。

**事件后分析**  
在事件解决后，您可以使用事件后分析来确定事件响应的改进措施，包括检测和缓解时间。分析还可以帮助您了解事件的根本原因。Incident Manager 会创建建议的后续行动项目，您可以利用这些项目改进事件响应。

## 使用 Incident Manager 的好处
<a name="benefits"></a>

了解在事件检测和响应操作中使用 Incident Manager 的好处。

该部分介绍在实施 Incident Manager 响应计划时，您的组织可以获得的优势。

**即时有效地诊断问题**  
当您的服务出现任何计划外中断或降低服务质量时，您配置的 Amazon CloudWatch 警报和亚马逊 EventBridge 事件可以自动创建事件。

CloudWatch 当指标或表达式的值在多个时间段内相对于阈值发生变化时，警报会检测并报告。 EventBridge 事件是由于您在 EventBridge 规则中指定的环境、应用程序或服务发生变化而创建的。创建警报或事件时，可以指定在 Incident Manager 中创建事件的操作以及适当的响应计划，以促进事件的互动、上报和缓解。

事件管理器提供了通过使用指标自动收集和跟踪与事件相关的 CloudWatch 指标的功能。除了通过 CloudWatch 警报创建事件时为事件生成的自动指标外，您还可以实时手动添加指标，以便为事件中的响应者提供额外的背景和数据。

使用 Incident Manager 事件时间轴按时间顺序显示关注点。响应者还可以使用时间轴添加自定义事件，以描述他们所做的事情或发生的事情。自动关注点包括：
+  CloudWatch 警报或 EventBridge 规则会造成事件。
+ 事件指标将报告给 Incident Manager。
+ 响应者进行互动。
+ 运行手册步骤成功完成。

**有效互动**  
Incident Manager 通过使用联系人、待命时间表、上报计划和聊天渠道将事件响应者聚集在一起。您可以直接在 Incident Manager 中定义单个联系人，并指定联系人首选项（电子邮件、短信或语音）。您可以将联系人添加到待命时间表轮换中，以确定在特定时间段内由谁处理事件。使用已定义的联系人和待命时间表，您可以制定上报计划，以便在事件发生期间的正确时间与必要的响应者互动。

**实时协作**  
事件期间的沟通是更快解决问题的关键。在设置为使用的聊天应用程序客户端中使用 Amazon Q Developer Slack, Microsoft Teams，或者 Amazon Chime，你可以将响应者召集到他们首选的联网聊天频道中，在那里他们可以直接与事件互动，也可以相互交流。Incident Manager 还会在聊天频道中显示事件响应者的实时行动，为其他人提供上下文信息。

**自动恢复服务**  
Incident Manager 通过使用自动化*运行手册*，使您的响应者能够专注于解决事件所需的关键任务。在 Incident Manager 中，运行手册是为解决事件而预定义的一系列操作。它们根据需要将自动任务的强大功能与手动步骤相结合，使响应者有更多时间进行分析和应对影响。

**防止未来事件**  
通过使用 Incident Manager 进行事件后分析，您的团队可以制定更强大的响应计划，并在整个应用程序中进行更改，以防止未来发生事件和停机。事后分析还有助于迭代学习和改进运行手册、响应计划和指标。

## 相关服务
<a name="related-services"></a>

Incident Manager 与其他多项 AWS 服务 和第三方服务和工具集成，可帮助您检测和解决事件，并与其 API 操作进行间接交互并管理基础架构。有关信息，请参阅[产品和服务与 Incident Manager 集成](integration.md)。

## 访问 Incident Manager
<a name="access"></a>

您可以使用以下任一方式访问 Incident Manager：
+ **[Incident Manager 控制台](https://console.aws.amazon.com/systems-manager/incidents/home)**
+ **AWS CLI**——有关一般信息，请参阅《AWS Command Line Interface 用户指南》**中的[开始使用 AWS CLI](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-getting-started.html)。有关事件管理器的 CLI 命令的信息，请参阅 [https://docs.aws.amazon.com/cli/latest/reference/ssm-incidents/](https://docs.aws.amazon.com/cli/latest/reference/ssm-incidents/) 和 [https://docs.aws.amazon.com/cli/latest/reference/ssm-contacts/](https://docs.aws.amazon.com/cli/latest/reference/ssm-contacts/)在 “*AWS CLI 命令参考”* 中。
+ **Incident Manager API** – 有关更多信息，请参阅 [AWS Systems Manager Incident Manager API 参考](https://docs.aws.amazon.com/incident-manager/latest/APIReference/Welcome.html)。
+ **AWS SDKs**— 有关更多信息，请参阅[构建工具 AWS](https://aws.amazon.com/developer/tools)。

## Incident Manager 区域和配额
<a name="regions-quotas"></a>

并非所有系统管理器都 AWS 区域 支持事件管理器。

要查看有关 Incident Manager 区域和配额的信息，请参阅 *Amazon Web Services 一般参考* 中的[AWS Systems Manager Incident Manager 端点和配额](https://docs.aws.amazon.com/general/latest/gr/incident-manager.html)。

## Incident Manager 的定价
<a name="pricing"></a>

使用 Incident Manager 需要付费。有关更多信息，请参阅 [AWS Systems Manager 的定价](https://aws.amazon.com/systems-manager/pricing/)。

**注意**  
与本服务相关的其他 AWS 服务、 AWS 内容和第三方内容可能会单独收费，并受附加条款的约束。

有关可帮助您优化 AWS 环境成本、安全性和性能的服务的概述，请参阅*AWS 支持 用户指南[AWS Trusted Advisor](https://docs.aws.amazon.com/awssupport/latest/user/trusted-advisor.html)*中的。 Trusted Advisor

# 事件管理器中的事件生命周期
<a name="incident-lifecycle"></a>

AWS Systems Manager Incident Manager 提供了一个基于最佳实践的 step-by-step框架，用于识别和应对突发事件，例如服务中断或安全威胁。Incident Manager 主要侧重于通过完整的事件生命周期管理解决方案，帮助受影响的服务或应用程序尽快恢复正常。

如下图所示，事件管理器为事件生命周期的每个阶段提供了工具和最佳实践：
+ [警报和互动](#alerting-engagement)
+ [分类](#triage)
+ [调查和缓解](#investigation-mitigation)
+ [事件后分析](#lifecycle-post-incident-analysis)

![\[事件生命周期包括警报、参与、分类、调查和分析。\]](http://docs.aws.amazon.com/zh_cn/incident-manager/latest/userguide/images/incident-lifecycle.png)


## 警报和互动
<a name="alerting-engagement"></a>

事件生命周期的警报和互动阶段侧重于提高对应用程序和服务中事件的认识。该阶段在检测到事件之前就开始了，需要对您的应用程序有深入的了解。您可以使用 [Amazon CloudWatch 指标](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)来监控有关应用程序性能的数据，也可以使用 [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/) 汇总来自不同来源、应用程序和服务的警报。为应用程序设置监控后，您就可以开始对偏离历史标准的指标发出警报。要了解有关监控最佳实践的更多信息，请参阅 [监控](incident-response.md#incident-response-monitoring)。

为了支持响应者的事件诊断，您可以在 Incident Manager 中启用调查发现特征。调查结果是有关事件发生前后发生的 AWS CodeDeploy 部署和 AWS CloudFormation 堆栈更新的信息。掌握这些信息可以减少评估潜在原因所需的时间，从而缩短从事件中恢复的平均时间 (MTTR)。

现在，您可以监控应用程序中的事件，并定义在事件发生期间使用的事件*响应计划*。要了解有关制定响应计划的更多信息，请参阅 [在事件管理器中创建和配置响应计划](response-plans.md)。Amazon EventBridge 事件或 CloudWatch 警报可使用响应计划作为模板自动创建事件。要了解有关事件创建的更多信息，请参阅 [在事件管理器中自动或手动创建事件](incident-creation.md)。

响应计划启动相关的*上报计划*和*互动计划*，以便让第一响应者参与到事件中来。有关设置上报计划的更多信息，请参阅 [制定上报计划](escalation.md#escalation-create)。同时，聊天应用程序中的 Amazon Q Developer 使用*聊天频道*通知响应者，将他们引导到事件详情页面。使用聊天渠道和*事件详细信息*，团队可以对事件进行沟通和分类。有关在 Incident Manager 中设置聊天渠道的更多信息，请参阅 [任务 2：在 Amazon Q Developer 的聊天应用程序中创建聊天频道](chat.md#chat-create)。

## 分类
<a name="triage"></a>

分类是指第一响应者试图确定对客户的影响。Incident Manager 控制台中的事件详细信息视图为响应者提供了时间轴和指标，以帮助他们评估事件。评估事件的影响还可以为事件的响应时间、解决方案和沟通奠定基础。响应者根据从 1（严重）到 5（无影响）的影响评级来确定事件的优先级。

您的组织可以自行定义每个影响评级的确切范围。下表举例说明了每个影响等级通常是如何定义的。


| 影响代码 | 影响名称 | 示例定义范围 | 
| --- | --- | --- | 
| 1 | Critical |  影响大多数客户的全面应用程序故障。  | 
| 2 | High |  影响部分客户的全面应用程序故障。  | 
| 3 | Medium |  对客户造成影响的部分应用程序故障。  | 
| 4 | Low |  对客户影响有限的间歇性故障。  | 
| 5 | No Impact |  客户目前没有受到影响，但需要采取紧急行动以避免影响。  | 

## 调查和缓解
<a name="investigation-mitigation"></a>

*事件*详细信息视图为您的团队提供了运行手册、时间轴和指标。要了解如何处理事件，请参阅 [在控制台中查看事件详情](tracking.md#tracking-details)。

*运行手册*通常提供调查步骤，可以自动提取数据或尝试常用的解决方案。运行手册还提供了清晰、可重复的步骤，您的团队认为这些步骤有助于缓解事件。运行手册选项卡侧重于当前的运行手册步骤，并显示过去和未来的步骤。

Incident Manager 与 Systems Manager Automation 集成以构建运行手册。使用运行手册，执行以下任一操作：
+ 管理实例和 AWS 资源
+ 自动运行脚本
+ 管理 CloudFormation 资源

有关支持的操作类型的更多信息，请参阅《AWS Systems Manager 用户指南》[https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-actions.html](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-actions.html)中的 *Systems Manager Automation 操作参考*。

**时间轴**选项卡显示已采取的操作。时间轴会记录每个时间戳和自动创建的详细信息。要向时间轴添加自定义事件，请参阅本用户指南*事件详细信息*页面中的 [时间轴](tracking.md#tracking-details-timeline) 部分。

**诊断**选项卡显示自动填充的指标和手动添加的指标。此视图提供了有关事件期间应用程序活动的重要信息。

**互动**选项卡允许您向事件添加其他联系人，并帮助为互动的联系人提供资源，以便在参与事件后快速上手。通过定义的上报计划或个人互动计划与联系人互动。

使用*聊天渠道*，您可以直接与您的事件和团队中的其他响应者互动。在聊天应用程序中使用 Amazon Q Developer，您可以在中配置聊天频道。Slack, Microsoft Teams，还有 Amazon Chime。In Slack 以及 Microsoft Teams 频道，响应者可以使用多种`ssm-incidents`命令直接从聊天频道与事件互动。有关更多信息，请参阅 [通过聊天频道进行互动](chat.md#chat-interact)。

## 事件后分析
<a name="lifecycle-post-incident-analysis"></a>

Incident Manager 提供了一个框架，用于对事件进行反思，采取必要步骤防止事件在未来再次发生，并从整体上改进事件响应活动。改进功能可能包括：
+ 更改事件中涉及的应用程序。您的团队可以利用这段时间改进系统，提高容错能力。
+ 更改事件响应计划。花时间总结经验教训。
+ 更改运行手册。您的团队可以深入研究解决问题所需的步骤以及您可以自动执行的步骤。
+ 更改警报。事件发生后，您的团队可能已经注意到了指标中的关键点，您可以利用这些关键点来提醒团队更早地注意到事件。

Incident Manager 通过在事件时间轴旁边使用一组事后分析问题和行动项目来促进这些潜在的改进。要了解有关通过分析进行改进的更多信息，请参阅 [在 Incident Manager 中执行事件后分析](analysis.md)。