

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 监控的工作原理
<a name="how-monitoring-works"></a>

参见以下有关 AWS Managed Services (AMS) 监控架构的图片。

下图简要概述了 **AMS 多账户着陆区和 AM** **S 单账户着陆区**监控工作流程。

![\[AMS 多账户着陆区监控架构。\]](http://docs.aws.amazon.com/zh_cn/managedservices/latest/userguide/images/monitoringNew3.png)

+ 生成：在账户注册时，AMS 会为您在托管账户中创建的所有资源配置基准监控 CloudWatch （（CW）警报和 CW 事件规则的组合）。当触发 CW 警报或生成 CW 事件时，基准监控配置会生成警报。
+ 聚合：
  + **多账户登录区**：警报由您在应用程序和核心组织部门账户中的资源生成，并通过安全帐户将警报发送到 AMS 监控系统。
  + **单账户登录区**：您的资源生成的所有警报都将通过将它们定向到账户中的 SNS 主题来发送到 AMS 监控系统。
  + 您还可以配置 AMS 如何将 EC2 警报分组在一起。AMS 要么将与同一 EC2 实例相关的所有警报分组为单个事件，要么根据您的偏好为每个警报创建一个事件。您可以随时与云服务交付经理或云架构师合作更改此配置。无论您使用的是多账户着陆区还是单账户着陆区，其运作方式都是一样的。
+ 处理：AMS 分析警报并根据其潜在影响进行处理。警报按下文所述进行处理。
  + 具有已知客户影响的警报：这些警报会导致创建新的事件报告，AMS 遵循事件管理流程；有关事件管理的信息，请参阅[AMS 事件响应](sec-incident-response.md)。

    警报示例：Amazon EC2 实例未通过系统运行状况检查，AMS 尝试通过停止并重启实例来恢复该实例。
  + 对客户影响不确定的警报：对于这些类型的警报，AMS 会发送事件报告，在许多情况下，要求您在 AMS 采取行动之前验证影响。但是，如果与基础设施相关的检查通过，则 AMS 不会向您发送事件报告。

    例如：Amazon EC2 实例上 CPU 使用率超过 85% 且持续时间超过 10 分钟的警报不能立即归类为事件，因为根据使用情况，可能会出现这种行为。在此示例中，AMS Automation 对资源执行与基础设施相关的检查。如果这些检查通过，即使 CPU 使用率超过 99%，AMS 也不会发送警报通知。如果 Automation 检测到资源上与基础设施相关的检查失败，则 AMS 会发送警报通知并检查是否需要缓解措施。本节将详细讨论警报通知。AMS 在通知中提供了缓解选项。当您回复确认警报为事件的通知时，AMS 会创建新的事件报告，AMS 事件管理流程随即开始。如果服务通知收到 “对客户没有影响” 的响应，或者在三天内完全没有回复，则会标记为已解决，相应的警报被标记为已解决。
  + 不影响客户的警报：如果 AMS 在评估后确定该警报对客户没有影响，则该警报将关闭。

    例如， AWS Health 通知需要替换的 EC2 实例，但该实例此后已终止。

## EC2 实例分组通知
<a name="how-monitoring-works-alert-notes-grouping"></a>

您可以将 AMS 监控配置为将来自同一 EC2 实例的警报组合成单个事件。您的云服务交付经理或云架构师可以为您进行配置。您可以为每个 AMS 管理的账户配置四个参数。

1. **范围****：选择**账户范围**或基于标签的范围。**
   + 要指定适用于该账户中每个 EC2 实例的配置，请选择范围 = **账户**范围。
   + 要指定仅适用于该账户中带有特定标签的 EC2 实例的配置，请选择 scope = based **tag。**

1. **分组规则**：选择**经典**或**实例**。
   + **要为账户中的每个资源配置实例级分组，请选择范围 = **账户范围**和分组规则 = 实例。**
   + 要将账户中的特定资源配置为使用实例级别分组，请标记这些实例，然后选择范围 = **基于标签**和分组规则 = **实例**级别。
   + 要不对账户中的警报使用实例分组，请选择分组规则 = c **lassic**。

1. **参与**选项：选择 “**无**”、“**仅限报告**” 或 “**默认”**。
   + 要使 AMS 在配置处于活动状态时不创建事件或自动处理来自这些资源的警报，请选择 “**无**”。
   + 要让 AMS 在配置处于活动状态时不创建事件或自动处理来自这些资源的警报，也不要运行自动修复 Systems Manager 文档，但要在报告中包含这些事件的记录，请选择**仅报告**。如果您想减少与之互动的事件支持案例数量，并且某些资源中的某些事件（例如非生产账户中的事件）不需要立即关注，这可能会很有用。
   + 要让 AMS 处理您的警报、运行自动化程序并在需要时创建事件案例，请选择**默认**。

1. **之后解决**：选择 **24 小时**、**48 小时**或 **72 小时**。最后，配置何时自动关闭事件案例。如果从上次案例对应的时间达到配置的 “**解决后解决**” 值，则事件将关闭。

### 警报通知
<a name="how-mon-works-alert-notes"></a>

作为警报处理的一部分，AWS Managed Services (AMS) 会根据影响分析创建事件，并在确定影响后启动事件管理流程进行补救。如果无法确定影响，AMS 会通过服务通知向与您的账户关联的电子邮件地址发送提醒通知。在某些情况下，不会发送此警报通知。例如，如果与基础设施相关的检查通过 CPU 使用率高警报，则不会向您发送警报通知。有关更多信息，请参阅中有关警报处理过程的 AMS 监控架构图[监控的工作原理](#how-monitoring-works)。

## 基于标签的警报通知
<a name="how-mon-works-alert-notes-tags"></a>

使用标签将资源的警报通知发送到不同的电子邮件地址。最佳做法是使用基于标签的提醒通知，因为当多个开发者团队使用同一个账号时，发送到单个电子邮件地址的通知可能会造成混乱。基于标签的警报通知不受您选择的[EC2 实例分组通知](#how-monitoring-works-alert-notes-grouping)设置的影响。

使用基于标签的警报通知，您可以：
+ **向特定的电子邮件地址发送警**报：使用标记具有必须发送到特定电子邮件地址的警报的`key = OwnerTeamEmail`资源`value = EMAIL_ADDRESS`。
+ **向多个电子邮件地址发送警报**：要使用多个电子邮件地址，请指定以逗号分隔的值列表。例如 `key = OwnerTeamEmail`、`value = EMAIL_ADDRESS_1, EMAIL_ADDRESS_2, EMAIL_ADDRESS_3, ...`。值字段的字符总数不能超过 260。
+ **使用自定义标签密钥**：要使用自定义标签密钥，请在电子邮件中向您的 CSDM 提供自定义标签密钥名称，明确表示同意为基于标签的通信激活自动通知。最佳做法是对所有实例和资源的联系人标签使用相同的标记策略。

**注意**  
键值*OwnerTeamEmail*不必是驼峰大小写。但是，标签区分大小写，最佳做法是使用推荐的格式。  
必须完整指定电子邮件地址，并用 “at 符号” (@) 将本地部分与域名分开。无效电子邮件地址示例：*Team.AppATabc.xyz*或*john.doe*。有关标记策略的一般指导，请参阅[标记资源。 AWS](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html)不要在标签中添加个人身份信息 (PII)。尽可能使用通讯组列表或别名。  
以下亚马逊服务的资源支持基于标签的警报通知： EC2、弹性块存储 (EBS)、弹性负载平衡 (ELB)、应用程序负载均衡器 (ALB)、网络负载均衡器、关系数据库服务 (RDS) OpenSearch、弹性文件系统 (EFS) 和 VPN。 FSx Site-to-Site