

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# CloudWatch 多模型端点部署指标
<a name="multi-model-endpoint-cloudwatch-metrics"></a>

Amazon SageMaker AI 提供终端节点指标，因此您可以监控缓存命中率、加载的模型数量以及模型在多模型终端节点上加载、下载和上传的等待时间。CPU 和 GPU 支持的多模型终端节点的某些指标有所不同，因此以下各节描述了您可以用于每种类型的多模型终端节点的 Amazon CloudWatch 指标。

有关指标的更多信息，请参阅[亚马逊中的亚马逊 A SageMaker I 指标 CloudWatch](monitoring-cloudwatch.md) 中的**多模型端点模型加载指标**和**多模型端点模型实例指标**。不支持基于模型的指标。

## CloudWatch CPU 支持的多模型端点的指标
<a name="multi-model-endpoint-cloudwatch-metrics-cpu"></a>

您可以在 CPU 支持的多模型端点上监控以下指标。

`AWS/SageMaker`命名空间包括以下模型从对的调用加载指标[ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html)。

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标保留多长时间的信息，请参阅 *Amazon CloudWatch API 参考[GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*中的。

**多模型端点模型加载指标**


| 指标 | 说明 | 
| --- | --- | 
| ModelLoadingWaitTime  |  调用请求等待下载和/或加载目标模型以执行推理的间隔时间。 单位：微秒  有效统计数据：Average、Sum、Min、Max、Sample Count   | 
| ModelUnloadingTime  |  通过容器的 `UnloadModel` API 调用卸载模型所用的间隔时间。 单位：微秒  有效统计数据：Average、Sum、Min、Max、Sample Count   | 
| ModelDownloadingTime |  从 Amazon Simple Storage Service (Amazon S3) 下载模型所花费的时间间隔。 单位：微秒 有效统计数据：Average、Sum、Min、Max、Sample Count   | 
| ModelLoadingTime  |  通过容器的 `LoadModel` API 调用加载模型所用的间隔时间。 单位：微秒  有效统计数据：Average、Sum、Min、Max、Sample Count   | 
| ModelCacheHit  |  发送到已加载模型的多模型端点的 `InvokeEndpoint` 请求数。 “Average”统计数据显示已加载模型的请求的比率。 单位：无 有效统计数据：Average、Sum、Sample Count  | 

**多模型端点模型加载指标的维度**


| 维度 | 说明 | 
| --- | --- | 
| EndpointName, VariantName |  针对指定端点和变体的 `ProductionVariant` 筛选端点调用指标。  | 

`/aws/sagemaker/Endpoints` 命名空间包含通过调用 [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html) 获得的以下实例指标。

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标保留多长时间的信息，请参阅 *Amazon CloudWatch API 参考[GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*中的。

**多模型端点模型实例指标**


| 指标 | 说明 | 
| --- | --- | 
| LoadedModelCount  |  多模型端点的容器中加载的模型数。此指标是按实例发射的。 周期为 1 分钟的“Average”统计数据指示每个实例加载的平均模型数。 “Sum”统计数据指示在端点中的所有实例上加载的模型总数。 此指标跟踪的模型不一定是唯一的，因为可能在端点的多个容器中加载模型。 单位：无 有效统计数据：Average、Sum、Min、Max、Sample Count  | 
| CPUUtilization  |  每个 CPU 核心利用率的总和。每个核心的 CPU 利用率范围均为 0 – 100。例如，如果有四个 CPUs，则`CPUUtilization`范围为 0% — 400%。 对于端点变体，该值是实例上的主容器和辅助容器的 CPU 利用率的总和。 单位：百分比  | 
| MemoryUtilization |  实例上的容器所使用的内存的百分比。此值范围为 0% – 100%。 对于端点变体，该值是实例上的主容器和辅助容器的内存利用率的总和。 单位：百分比  | 
| DiskUtilization |  实例上容器所使用的磁盘空间的百分比。此值范围为 0%–100%。 对于端点变体，该值是实例上的主容器和辅助容器的磁盘空间利用率的总和。 单位：百分比  | 

## CloudWatch GPU 多模型端点部署的指标
<a name="multi-model-endpoint-cloudwatch-metrics-gpu"></a>

您可以在 GPU 支持的多模型端点上监控以下指标。

`AWS/SageMaker`命名空间包括以下模型从对的调用加载指标[ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html)。

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标保留多长时间的信息，请参阅 *Amazon CloudWatch API 参考[GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*中的。

**多模型端点模型加载指标**


| 指标 | 说明 | 
| --- | --- | 
| ModelLoadingWaitTime  |  调用请求等待下载和/或加载目标模型以执行推理的间隔时间。 单位：微秒  有效统计数据：Average、Sum、Min、Max、Sample Count   | 
| ModelUnloadingTime  |  通过容器的 `UnloadModel` API 调用卸载模型所用的间隔时间。 单位：微秒  有效统计数据：Average、Sum、Min、Max、Sample Count   | 
| ModelDownloadingTime |  从 Amazon Simple Storage Service (Amazon S3) 下载模型所花费的时间间隔。 单位：微秒 有效统计数据：Average、Sum、Min、Max、Sample Count   | 
| ModelLoadingTime  |  通过容器的 `LoadModel` API 调用加载模型所用的间隔时间。 单位：微秒  有效统计数据：Average、Sum、Min、Max、Sample Count   | 
| ModelCacheHit  |  发送到已加载模型的多模型端点的 `InvokeEndpoint` 请求数。 “Average”统计数据显示已加载模型的请求的比率。 单位：无 有效统计数据：Average、Sum、Sample Count  | 

**多模型端点模型加载指标的维度**


| 维度 | 说明 | 
| --- | --- | 
| EndpointName, VariantName |  针对指定端点和变体的 `ProductionVariant` 筛选端点调用指标。  | 

`/aws/sagemaker/Endpoints` 命名空间包含通过调用 [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html) 获得的以下实例指标。

指标按 1 分钟一次的频率提供。

有关 CloudWatch 指标保留多长时间的信息，请参阅 *Amazon CloudWatch API 参考[GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*中的。

**多模型端点模型实例指标**


| 指标 | 说明 | 
| --- | --- | 
| LoadedModelCount  |  多模型端点的容器中加载的模型数。此指标是按实例发射的。 周期为 1 分钟的“Average”统计数据指示每个实例加载的平均模型数。 “Sum”统计数据指示在端点中的所有实例上加载的模型总数。 此指标跟踪的模型不一定是唯一的，因为可能在端点的多个容器中加载模型。 单位：无 有效统计数据：Average、Sum、Min、Max、Sample Count  | 
| CPUUtilization  |  每个单独的 CPU 核心利用率的总和。每个核心的 CPU 利用率范围均为 0 – 100。例如，如果有四个 CPUs，则`CPUUtilization`范围为 0% — 400%。 对于端点变体，该值是实例上的主容器和辅助容器的 CPU 利用率的总和。 单位：百分比  | 
| MemoryUtilization |  实例上的容器所使用的内存的百分比。此值范围为 0% – 100%。 对于端点变体，该值是实例上的主容器和辅助容器的内存利用率的总和。 单位：百分比  | 
| GPUUtilization |  实例上的容器所使用的 GPU 单位的百分比。该值的范围介于 0-100 之间，然后乘以数字。 GPUs例如，如果有四个 GPUs，则`GPUUtilization`范围为 0% — 400%。 对于端点变体，该值是实例上的主容器和辅助容器的 GPU 利用率的总和。 单位：百分比  | 
| GPUMemoryUtilization |  实例上的容器所使用的 GPU 内存的百分比。值范围为 0-100，并乘以的数字。 GPUs例如，如果有四个 GPUs，则`GPUMemoryUtilization`范围为 0%-400%。 对于端点变体，该值是实例上的主容器和辅助容器的 GPU 内存利用率的总和。 单位：百分比  | 
| DiskUtilization |  实例上容器所使用的磁盘空间的百分比。此值范围为 0%–100%。 对于端点变体，该值是实例上的主容器和辅助容器的磁盘空间利用率的总和。 单位：百分比  | 