

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 CloudWatch 指標監控 Amazon Managed Service for Prometheus 資源
<a name="AMP-CW-usage-metrics"></a>

Amazon Managed Service for Prometheus 將用量指標出售給 CloudWatch。這些指標提供有關工作區使用率的可見性。您可以在 CloudWatch 中的 `AWS/Usage` 和 `AWS/Prometheus` 命名空間中找到付費指標。CloudWatch 中的這些指標可免費使用。如需有關用量指標的詳細資訊，請參閱 [ CloudWatch 用量指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Usage-Metrics.html)。


| CloudWatch 指標名稱 | 資源名稱 | CloudWatch 命名空間 | 說明 | 
| --- | --- | --- | --- | 
| ResourceCount\* | CreateAlertManagerAlertsTPS | `AWS/Usage` | 每個工作區每秒的 `CreateAlertManagerAlerts` API 操作數目上限 | 
| ResourceCount\* | DeleteAlertManagerSilencesTPS | `AWS/Usage` | 每個工作區每秒 `DeleteAlertManagerSilences` API 操作的數量上限 | 
| ResourceCount\* | GetAlertManagerSilenceTPS | `AWS/Usage` | 每個工作區每秒的 `GetAlertManagerSilence` API 操作數目上限 | 
| ResourceCount\* | GetAlertManagerStatusTPS | `AWS/Usage` | 每個工作區每秒的 `GetAlertManagerStatus` API 操作數目上限 | 
| ResourceCount\* | GetLabelsTPS | `AWS/Usage` | 每個工作區每秒的 `GetLabels` API 操作數目上限 | 
| ResourceCount\* | GetMetricMetadataTPS | `AWS/Usage` | 每個工作區每秒的 `GetMetricMetadata` API 操作數目上限 | 
| ResourceCount\* | GetSeriesTPS | `AWS/Usage` | 每個工作區每秒的 `GetSeries` API 操作數目上限 | 
| ResourceCount | InhibitionRulesInAlertManagerDefinition | `AWS/Usage` | 警示管理員定義檔案中抑制規則的數量上限。 | 
| ResourceCount\* | ListAlertManagerAlertGroupInfosTPS | `AWS/Usage` | 每個工作區每秒的 `ListAlertManagerAlertGroupInfos` API 操作數目上限 | 
| ResourceCount\* | ListAlertManagerAlertGroupsTPS | `AWS/Usage` | 每個工作區每秒的 `ListAlertManagerAlertGroups` API 操作數目上限 | 
| ResourceCount\* | ListAlertManagerAlertsTPS | `AWS/Usage` | 每個工作區每秒的 `ListAlertManagerAlerts` API 操作數目上限 | 
| ResourceCount\* | ListAlertManagerReceiversTPS | `AWS/Usage` | 每個工作區每秒的 `ListAlertManagerReceivers` API 操作數目上限 | 
| ResourceCount\* | ListAlertManagerSilencesTPS | `AWS/Usage` | 每個工作區每秒的 `ListAlertManagerSilences` API 操作數目上限 | 
| ResourceCount\* | ListAlertsTPS | `AWS/Usage` | 每個工作區每秒的 `ListAlerts` API 操作數目上限 | 
| ResourceCount\* | ListRulesTPS | `AWS/Usage` | 每個工作區每秒的 `ListRules` API 操作數目上限 | 
| ResourceCount\* | PutAlertManagerSilencesTPS | `AWS/Usage` | 每個工作區每秒的 `PutAlertManagerSilences` API 操作數目上限 | 
| ResourceCount | HAReplicaGroupCount | `AWS/Usage` | 高可用性複本群組的數量 | 
| ResourceCount\* | QueryMetricsTPS | `AWS/Usage` | 每秒查詢操作數 | 
| ResourceCount\* | RemoteWriteTPS | `AWS/Usage` | 每秒遠端寫入操作 | 
| ResourceCount | ActiveAlerts | `AWS/Usage` | 每個工作區的啟用中警示數量<br />單位：Count<br />有效統計資料：平均值、最小值、最大值 | 
| ResourceCount | ActiveSeries | `AWS/Usage` | 每個工作區的啟用中序列數量<br />單位：Count<br />有效統計資料：平均值、最小值、最大值 | 
| ResourceCount | AlertAggregationGroupSize | `AWS/Usage` | 警示管理員定義檔案中警示彙總群組的大小上限。的每個標籤值組合`group_by`都會建立彙總群組。 | 
| ResourceCount | AlertManagerDefinitionSizeBytes | `AWS/Usage` | 警示管理員定義檔案的大小上限，以位元組為單位。 | 
| ResourceCount | AllSilences | `AWS/Usage` | 每個工作區的靜音數量上限，包括過期、作用中和待定的靜音。 | 
| ResourceCount | IngestionRate | `AWS/Usage` | 範例擷取速率<br />單位：每秒計數<br />有效統計資料：平均值、最小值、最大值 | 
| ResourceCount | RuleEvaluationInterval | `AWS/Usage` | 規則評估間隔下限 | 
| ResourceCount | RuleGroupNamespaceDefinitionSizeBytes | `AWS/Usage` | 規則群組命名空間定義檔案的大小上限，以位元組為單位。 | 
| ResourceCount | TemplatesInAlertManagerDefinition | `AWS/Usage` | 警示管理員定義檔案中的範本數量上限。 | 
| ResourceCount | WorkspaceCount | `AWS/Usage` | 每個帳戶每個區域的工作區數量上限c. | 
| ResourceCount | SizeOfAlerts | `AWS/Usage` | 工作區中所有提醒的總大小，以位元組為單位<br />單位：位元組<br />有效統計資料：平均值、最小值、最大值 | 
| ResourceCount | SuppressedAlerts | `AWS/Usage` | 每個工作區處於隱藏狀態的警示數量。警示可透過靜音或抑制來隱藏。<br />單位：Count<br />有效統計資料：平均值、最小值、最大值 | 
| ResourceCount | UnprocessedAlerts | `AWS/Usage` | 每個工作區處於未處理狀態的警示數量。一旦 AlertManager 收到警示，但正在等待下一個彙總群組評估，便會處於未處理狀態。<br />單位：Count<br />有效統計資料：平均值、最小值、最大值 | 
| ResourceCount | AllAlerts | `AWS/Usage` | 每個工作區處於任何狀態的提醒數量<br />單位：Count<br />有效統計資料：平均值、最小值、最大值 | 
| ResourceCount | AllRules | `AWS/Usage` | 每個工作區處於任何狀態的規則數量<br />單位：Count<br />有效統計資料：平均值、最小值、最大值 | 
| ActiveSeriesPerLabelSet |  - | `AWS/Prometheus` | 每個使用者定義標籤集的目前作用中序列用量<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| ActiveSeriesLimitPerLabelSet |  - | `AWS/Prometheus` | 每個使用者定義標籤集的目前作用中序列限制值<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| AlertManagerAlertsReceived |  - | `AWS/Prometheus` | 提醒管理員收到的成功提醒總數<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| AlertManagerNotificationsFailed |  - | `AWS/Prometheus` | 失敗警示傳送數量<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| AlertManagerNotificationsThrottled |  - | `AWS/Prometheus` | 限流的警示數量<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| AnomalyDetectors | WorkspaceId | `AWS/Prometheus` | 指定工作區的異常偵測器總數<br />單位：Count<br />有效統計資料：平均值、最小值、最大值 | 
| AnomalyDetectorEvaluations | WorkspaceId、AnomalyDetectorId | `AWS/Prometheus` | 異常偵測器評估的總數<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| AnomalyDetectorEvaluationFailures | WorkspaceId、AnomalyDetectorId | `AWS/Prometheus` | 間隔中異常偵測器故障的數量<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| AnomalyDetectorLastEvaluationDuration | WorkspaceId、AnomalyDetectorId | `AWS/Prometheus` | 異常偵測器上次評估的持續時間<br />單位：秒<br />有效統計資訊：平均數、下限、上限、總和 | 
| AnomalyDetectorMissedEvaluations | WorkspaceId、AnomalyDetectorId | `AWS/Prometheus` | 間隔中遺漏的異常偵測器評估次數<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| DiscardedSamples\*\* |  - | `AWS/Prometheus` | 按原因排列的廢棄範例數量<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| DiscardedSeries\*\* |  - | `AWS/Prometheus` | 依原因包含捨棄範例的序列數目<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| DiscardedSamplesPerLabelSet |  - | `AWS/Prometheus` | 每個使用者定義標籤集的捨棄範例計數<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| DiscardedSeriesPerLabelSet |  - | `AWS/Prometheus` | 包含每個使用者定義標籤集捨棄範例的序列計數<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| IngestionRatePerLabelSet |  - | `AWS/Prometheus` | 每個使用者定義標籤集的擷取率<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| QuerySamplesProcessed |  - | `AWS/Prometheus` | 處理的查詢範例數量<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| RuleEvaluations |  - | `AWS/Prometheus` | 規則評估總數量<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| RuleEvaluationFailures |  - | `AWS/Prometheus` | 間隔中的規則評估失敗次數<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| RuleGroupIterationsMissed |  - | `AWS/Prometheus` | 間隔中缺少的規則群組迭代次數。<br />單位：Count<br />有效統計資訊：平均數、下限、上限、總和 | 
| RuleGroupLastEvaluationDuration |  - | `AWS/Prometheus` | 規則群組上次評估的持續時間。<br />單位：秒<br />有效統計資訊：平均數、下限、上限、總和 | 

\*TPS 指標每分鐘產生一次，是該分鐘的每秒平均值。TPS 指標中不會擷取短爆量期間。

\*\*造成捨棄樣本的一些原因如下。並非所有下列原因都會顯示在 DiscardedSeries 指標中。


|  Reason  |  意義  | 
| --- | --- | 
| greater\_than\_max\_sample\_age | 捨棄超過一小時的樣本。 | 
| new-value-for-timestamp | 重複的範例會以與先前範例相同的時間戳記傳送，但具有不同的值。 | 
| per\_labelset\_series\_limit | 使用者已達到每個標籤集的作用中系列總數限制。 | 
| per\_metric\_series\_limit | 使用者已達到每個指標的作用中序列限制。 | 
| per\_user\_series\_limit | 使用者已達到作用中序列限制的總數。 | 
| rate\_limited | 擷取速率受限。 | 
| sample-out-of-order | 範例會按順序傳送，且無法處理。 | 
| label\_value\_too\_long | 標籤值超過允許的字元限制。 | 
| max\_label\_names\_per\_series | 使用者已達到每個指標的標籤名稱。 | 
| missing\_metric\_name | 未提供指標名稱。 | 
| metric\_name\_invalid | 提供的指標名稱無效。 | 
| label\_invalid | 提供的標籤無效。 | 
| duplicate\_label\_names | 提供的標籤名稱重複。 | 

**注意**  
不存在或遺漏的指標與該指標為 0 的值相同。

**注意**  
`RuleGroupIterationsMissed`、`RuleEvaluationFailures`、 `RuleEvaluations`和 `RuleGroupLastEvaluationDuration`具有下列結構的`RuleGroup`維度：  
{{RuleGroupNamespace}}; {{RuleGroup}}

## 為 Prometheus 付款指標設定 CloudWatch 警示
<a name="AMP-CW-examples"></a>

您可以使用 CloudWatch 警示來監控 Prometheus 資源的使用量。

**在 Prometheus 中設定 **ActiveSeries** 數量的警示**

1. 選擇**圖形化指標**標籤，然後向下捲動至 **ActiveSeries** 標籤。

   在**圖形化指標**檢視中，只會顯示目前擷取的指標。

1. 在**動作**欄中選擇**通知**圖示。

1. 在**指定指標和條件**中，於**條件值**欄位中輸入門檻值條件，然後選擇**下一步**。

1. 在**設定動作**中，選取現有 SNS 主題，或建立新 SNS 主題以將通知傳送至其中。

1. 在**新增名稱和說明**中，新增警示名稱和選用說明。

1. 選擇 **Create alarm** (建立警示)。