

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 CloudWatch 指标监控亚马逊托管服务的 Prometheus 资源
<a name="AMP-CW-usage-metrics"></a>

适用于 Prometheus 的亚马逊托管服务将使用量指标提供给。 CloudWatch这些指标可让您了解您的工作区利用率。出售的指标可以在中的`AWS/Usage`和`AWS/Prometheus`命名空间中找到。 CloudWatch这些指标是免费提供 CloudWatch的。有关使用率指标的更多信息，请参阅 [CloudWatch 使用率指标。](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Usage-Metrics.html)


| CloudWatch 指标名称 | 资源名称 | CloudWatch 命名空间 | 说明 | 
| --- | --- | --- | --- | 
|  ResourceCount\$1  |  CreateAlertManagerAlertsTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `CreateAlertManagerAlerts` API 操作的最大数量。  | 
|  ResourceCount\$1  |  DeleteAlertManagerSilencesTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `DeleteAlertManagerSilences` API 操作的最大数量。  | 
|  ResourceCount\$1  |  GetAlertManagerSilenceTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `GetAlertManagerSilence` API 操作的最大数量。  | 
|  ResourceCount\$1  |  GetAlertManagerStatusTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `GetAlertManagerStatus` API 操作的最大数量。  | 
|  ResourceCount\$1  |  GetLabelsTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `GetLabels` API 操作的最大数量。  | 
|  ResourceCount\$1  |  GetMetricMetadataTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `GetMetricMetadata` API 操作的最大数量。  | 
|  ResourceCount\$1  |  GetSeriesTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `GetSeries` API 操作的最大数量。  | 
|  ResourceCount  |  InhibitionRulesInAlertManagerDefinition  |  `AWS/Usage`  |  警报管理器定义文件中最大的抑制规则数。  | 
|  ResourceCount\$1  |  ListAlertManagerAlertGroupInfosTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `ListAlertManagerAlertGroupInfos` API 操作的最大数量。  | 
|  ResourceCount\$1  |  ListAlertManagerAlertGroupsTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `ListAlertManagerAlertGroups` API 操作的最大数量。  | 
|  ResourceCount\$1  |  ListAlertManagerAlertsTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `ListAlertManagerAlerts` API 操作的最大数量。  | 
|  ResourceCount\$1  |  ListAlertManagerReceiversTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `ListAlertManagerReceivers` API 操作的最大数量。  | 
|  ResourceCount\$1  |  ListAlertManagerSilencesTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `ListAlertManagerSilences` API 操作的最大数量。  | 
|  ResourceCount\$1  |  ListAlertsTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `ListAlerts` API 操作的最大数量。  | 
|  ResourceCount\$1  |  ListRulesTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `ListRules` API 操作的最大数量。  | 
|  ResourceCount\$1  |  PutAlertManagerSilencesTPS  |  `AWS/Usage`  |  每个工作区、每秒可执行的 `PutAlertManagerSilences` API 操作的最大数量。  | 
|  ResourceCount  |  HAReplicaGroupCount  |  `AWS/Usage`  |  高可用性副本组的数量  | 
|  ResourceCount\$1  |  QueryMetricsTPS  |  `AWS/Usage`  |  每秒查询操作数  | 
|  ResourceCount\$1  |  RemoteWriteTPS  |  `AWS/Usage`  |  每秒远程写入操作数  | 
|  ResourceCount  |  ActiveAlerts  |  `AWS/Usage`  |  每个工作区的活动警报数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  ResourceCount  |  ActiveSeries  |  `AWS/Usage`  |  每个工作区的活跃系列数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  ResourceCount  |  AlertAggregationGroupSize  |  `AWS/Usage`  |  警报管理器定义文件中的警报聚合组的最大大小。`group_by` 的每个标签值组合都会创建一个聚合组。  | 
|  ResourceCount  |  AlertManagerDefinitionSizeBytes  |  `AWS/Usage`  |  警报管理器定义文件的最大大小（以字节为单位）。  | 
|  ResourceCount  |  AllSilences  |  `AWS/Usage`  |  每个工作区的最大静默数，包括已过期、活动和待处理的静默。  | 
|  ResourceCount  |  AllAlerts  |  `AWS/Usage`  |  每个工作区处于任何状态的警报数量。 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  ResourceCount  |  IngestionRate  |  `AWS/Usage`  |  样本摄取率 单位：每秒计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  ResourceCount  |  RuleEvaluationInterval  |  `AWS/Usage`  |  最小规则评估间隔  | 
|  ResourceCount  |  RuleGroupNamespaceDefinitionSizeBytes  |  `AWS/Usage`  |  一个规则组命名空间定义文件的最大大小（以字节为单位）。  | 
|  ResourceCount  |  TemplatesInAlertManagerDefinition  |  `AWS/Usage`  |  警报管理器定义文件中的最大模板数。  | 
|  ResourceCount  |  WorkspaceCount  |  `AWS/Usage`  |  每个区域、每个账户的最大工作区数量。  | 
|  ResourceCount  |  SizeOfAlerts  |  `AWS/Usage`  |  工作区中所有警报的总大小，以字节为单位 单位：字节 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  ResourceCount  |  SuppressedAlerts  |  `AWS/Usage`  |  每个工作区处于抑制状态的警报数量。可以通过静默或抑制来抑制警报。 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  ResourceCount  |  UnprocessedAlerts  |  `AWS/Usage`  |  每个工作区处于未处理状态的警报数量。警报一经接收，即处于未处理状态 AlertManager，但正在等待下一次聚合组评估。 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  ResourceCount  |  AllAlerts  |  `AWS/Usage`  |  每个工作区处于任何状态的警报数量。 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  ResourceCount  |  AllRules  |  `AWS/Usage`  |  每个工作区处于任何状态的规则数量。 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
| ActiveSeriesPerLabelSet  |   -  |  `AWS/Prometheus`  |  每个用户定义的标签集的当前活动系列使用情况 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  ActiveSeriesLimitPerLabelSet  |   -  |  `AWS/Prometheus`  |  每个用户定义的标签集的当前活动系列限制值 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  AlertManagerAlertsReceived  |   -  |  `AWS/Prometheus`  |  警报管理器收到的成功警报总数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  AlertManagerNotificationsFailed  |   -  |  `AWS/Prometheus`  |  发送失败的警报数量 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  AlertManagerNotificationsThrottled  |   -  |  `AWS/Prometheus`  |  限制的警报数量 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  AnomalyDetectors  |  WorkspaceId  |  `AWS/Prometheus`  |  给定工作区的异常检测器总数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  AnomalyDetectorEvaluations  |  WorkspaceId, AnomalyDetectorId  |  `AWS/Prometheus`  |  异常检测器评估总数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  AnomalyDetectorEvaluationFailures  |  WorkspaceId, AnomalyDetectorId  |  `AWS/Prometheus`  |  间隔内异常检测器失败的次数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  AnomalyDetectorLastEvaluationDuration  |  WorkspaceId, AnomalyDetectorId  |  `AWS/Prometheus`  |  异常检测器上次评估的持续时间 单位：秒 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  AnomalyDetectorMissedEvaluations  |  WorkspaceId, AnomalyDetectorId  |  `AWS/Prometheus`  |  间隔内错过的异常检测器评估次数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  DiscardedSamples\$1\$1  |   -  |  `AWS/Prometheus`  |  按原因划分的丢弃样本数量 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  DiscardedSeries\$1\$1  |   -  |  `AWS/Prometheus`  |  按原因包含丢弃样本的序列数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  DiscardedSamplesPerLabelSet  |   -  |  `AWS/Prometheus`  |  每个用户定义的标签集的丢弃样本计数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  DiscardedSeriesPerLabelSet  |   -  |  `AWS/Prometheus`  |  包含每个用户定义标签集的已丢弃样本的系列计数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  IngestionRatePerLabelSet  |   -  |  `AWS/Prometheus`  |  每个用户定义的标签集的摄取率 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  QuerySamplesProcessed  |   -  |  `AWS/Prometheus`  |  处理的查询样本数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  RuleEvaluations  |   -  |  `AWS/Prometheus`  |  规则评估总数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  RuleEvaluationFailures  |   -  |  `AWS/Prometheus`  |  间隔内规则评估失败的次数 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  RuleGroupIterationsMissed  |   -  |  `AWS/Prometheus`  |  间隔内错过的规则组迭代次数。 单位：计数 有效统计数据：Average、Minimum、Maximum、Sum  | 
|  RuleGroupLastEvaluationDuration  |   -  |  `AWS/Prometheus`  |  规则组的上次评估的持续时间。 单位：秒 有效统计数据：Average、Minimum、Maximum、Sum  | 

\$1TPS 指标每分钟生成一次，并且是该分钟内的每秒平均值。TPS 指标中不会捕捉到短暂的爆发期间。

\$1\$1导致样本被丢弃的一些原因如下。并非以下所有原因都出现在 DiscardedSeries 指标中。


|  Reason  |  含义  | 
| --- | --- | 
|  greater\$1than\$1max\$1sample\$1age  |  丢弃超过一小时的样本。  | 
|  new-value-for-timestamp  |  发送重复样本的时间戳与上一个样本的时间戳相同，但值不同。  | 
|  per\$1labelset\$1series\$1limit  |  用户已达到每标签集的活跃系列总数上限。  | 
|  per\$1metric\$1series\$1limit  |  用户已达到每个指标活跃系列数上限。  | 
|  per\$1user\$1series\$1limit  |  用户已达到活跃系列总数上限。  | 
|  rate\$1limited  |  摄取率受限制。  | 
|  sample-out-of-order  |  样本发送顺序混乱，无法处理。  | 
|  label\$1value\$1too\$1long  |  标签值超过支持的字符限制。  | 
|  max\$1label\$1names\$1per\$1series  |  用户已达到每个指标的标签名称数。  | 
|  missing\$1metric\$1name  |  未提供指标名称。  | 
|  metric\$1name\$1invalid  |  提供的指标名称无效。  | 
|  label\$1invalid  |  提供的标签无效。  | 
|  duplicate\$1label\$1names  |  提供的标签名称重复。  | 

**注意**  
指标不存在或缺失等同于该指标的值为 0。

**注意**  
`RuleGroupIterationsMissed`、`RuleEvaluations`、`RuleEvaluationFailures` 和 `RuleGroupLastEvaluationDuration` 具有以下结构的 `RuleGroup` 维度：  
*RuleGroupNamespace*;*RuleGroup*

## 对 Prometheus 出售的指标设置 CloudWatch 警报
<a name="AMP-CW-examples"></a>

您可以使用警报监控 Prometheus 资源的使用情况。 CloudWatch 

**在 Prometheus 中为 prometheus **ActiveSeries**中的数字设置警报**

1. 选择 “**图表化指标**” 选项卡，然后向下滚动到**ActiveSeries**标签。

   在 **Graphed 指标**视图中，只会显示当前所摄取的指标。

1. 在**操作**列中选择**通知**图标。

1. 在**指定指标和条件**中的**条件值**字段中输入阈值条件，然后选择**下一步**。

1. 在**配置操作**中，选择现有的 SNS 主题或创建一个新 SNS 主题以将通知发送到该 SNS 主题。

1. 在**添加名称和描述**中，添加警报的名称和可选描述。

1. 选择**创建警报**。