

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 用于跟踪异步端点指标的警报和日志
<a name="async-inference-monitor"></a>

您可以使用 Amazon CloudWatch 监控 SageMaker AI，此工具可收集原始数据并将其处理为易读的近实时指标。借助 Amazon CloudWatch，您可以访问历史信息，并能够更好地了解您的 Web 应用程序或服务的执行情况。有关 Amazon CloudWatch 的更多信息，请参阅[什么是 Amazon CloudWatch？](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)

## 使用 CloudWatch 进行监控
<a name="async-inference-monitor-cloudwatch"></a>

以下指标是 `AWS/SageMaker` 中的异步端点指标的详尽列表。如果为异步推理启用了端点，则只会发布下方列出的指标。这些指标包括（但不限于）：
+ OverheadLatency
+ Invocations
+ InvocationsPerInstance

### 常见端点指标
<a name="async-inference-monitor-cloudwatch-common"></a>

这些指标与目前为实时端点发布的指标相同。有关 Amazon CloudWatch 中其他指标的更多信息，请参阅[使用 Amazon CloudWatch 监控 SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html)。


| 指标名称 | 描述 | 单位/统计数据 | 
| --- | --- | --- | 
| `Invocation4XXErrors` | 模型在其中返回 4xx HTTP 响应代码的请求的数量。对于每个 4xx 响应，发送 1；否则，发送 0。 | 单位：无有效统计数据：Average、Sum | 
| `Invocation5XXErrors` | 模型在其中返回 5xx HTTP 响应代码的 InvokeEndpoint 请求的数量。对于每个 5xx 响应，发送 1；否则，发送 0。 | 单位：无有效统计数据：Average、Sum | 
| `ModelLatency` | 从 SageMaker AI 角度观察到的模型做出响应所需的时间间隔。此时间间隔包括发送请求以及从模型容器提取响应的本地通信时间，以及在容器中完成推理所用的时间。 | 单位：微秒 有效统计数据：Average、Sum、Min、Max、Sample Count | 

### 异步推理端点指标
<a name="async-inference-monitor-cloudwatch-async"></a>

这些指标针对为异步推理启用的端点发布。通过 `EndpointName` 维度发布以下指标：


| 指标名称 | 描述 | 单位/统计数据 | 
| --- | --- | --- | 
| `ApproximateBacklogSize` | 某个端点的队列中，当前正在处理或尚未处理的项目数。 | 单位：计数 有效统计数据：Average、Max、Min  | 
| `ApproximateBacklogSizePerInstance` | 队列中的项目数除以端点后台的实例数。此指标主要用于为启用了异步的端点设置应用程序自动缩放。 | 单位：计数有效统计数据：Average、Max、Min | 
| `ApproximateAgeOfOldestRequest` | 队列中最早请求的龄期。 | 单位：秒有效统计数据：Average、Max、Min | 
| `HasBacklogWithoutCapacity` | 当队列中有请求但端点后台没有实例时，此指标的值是 `1`。所有其他时候的值为 `0`。在队列中收到新请求时，您可以使用此指标从零个实例开始自动缩放端点。 | 单位：计数有效统计数据：平均值 | 

通过 `EndpointName` 和 `VariantName` 维度发布以下指标：


| 指标名称 | 描述 | 单位/统计数据 | 
| --- | --- | --- | 
| `RequestDownloadFailures` | 由于从 Amazon S3 下载请求时现问题，从而导致推理失败时。 | 单位：计数有效统计数据：Sum | 
| `ResponseUploadFailures` | 由于将响应上传到 Amazon S3 出现问题，从而导致推理失败时。 | 单位：计数有效统计数据：Sum | 
| `NotificationFailures` | 在出现问题时发布通知。 | 单位：计数有效统计数据：Sum | 
| `RequestDownloadLatency` | 下载请求负载的总时间。 | 单位：微秒有效统计数据：Average、Sum、Min、Max、Sample Count | 
| `ResponseUploadLatency` | 上传响应负载的总时间。 | 单位：微秒 有效统计数据：Average、Sum、Min、Max、Sample Count | 
| `ExpiredRequests` | 队列中因达到指定 TTL 而失败的请求数。 | 单位：计数有效统计数据：Sum | 
| `InvocationFailures` | 调用由于任何原因而失败时。 | 单位：计数有效统计数据：Sum | 
| `InvocationsProcesssed` | 端点处理的异步调用数量。 | 单位：计数有效统计数据：Sum | 
| `TimeInBacklog` | 请求在得到处理之前排队的总时间。这不包括实际处理时间（即下载时间、上传时间、模型延迟）。 | 单位：毫秒有效统计数据：Average、Sum、Min、Max、Sample Count | 
| `TotalProcessingTime` | SageMaker AI 收到推理请求到请求完成处理的时间。这包括积压时间以及上传和发送回复通知（如果有）的时间。 | 单位：毫秒有效统计数据：Average、Sum、Min、Max、Sample Count | 

Amazon SageMaker 异步推理还包括主机级别的指标。有关主机级别指标的信息，请参阅 [SageMaker AI 作业和端点指标](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-jobs)。

## 日志
<a name="async-inference-monitor-logs"></a>

在发布到您账户中的 Amazon CloudWatch 的[模型容器日志](https://docs.aws.amazon.com/sagemaker/latest/dg/logging-cloudwatch.html)之外，您还可以获得一个用于跟踪和调试推理请求的新平台日志。

新日志发布到端点日志组下：

```
/aws/sagemaker/Endpoints/[EndpointName]
```

日志流名称包括：

```
[production-variant-name]/[instance-id]/data-log.
```

日志行包含请求的推理 ID，以便轻松地将错误与具体请求对应起来。