本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 端点
<a name="realtime-endpoints-manage"></a>

将模型部署到端点后，您可能想要查看和管理端点。通过 SageMaker AI，您可以查看端点的状态和详细信息，检查指标和日志以监控端点的性能，更新部署到端点的模型等等。

下文将介绍如何在 Amazon SageMaker Studio 或 AWS 管理控制台 中管理端点。

下页介绍如何使用 Amazon SageMaker AI 控制台或 SageMaker Studio 以交互方式查看和更改端点。

**Topics**
+ [在 SageMaker Studio 中查看端点详情](manage-endpoints-studio.md)
+ [在 SageMaker AI 控制台中查看端点详细信息](manage-endpoints-console.md)

# 在 SageMaker Studio 中查看端点详情
<a name="manage-endpoints-studio"></a>

在 Amazon SageMaker Studio 中，您可以查看和管理 SageMaker AI 托管端点。要了解有关 Studio 的更多信息，请参阅 [Amazon SageMaker Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio.html)。

要在 SageMaker Studio 中找到端点列表，请执行以下操作：

1. 打开 Studio 应用程序。

1. 在左侧导航窗格中，选择**部署**。

1. 从下拉菜单中选择**端点**。

**端点**页面将打开，其中列出所有 SageMaker AI 托管端点。在此页面中，您可以看到端点及其**状态**。您还可以创建新端点、编辑现有端点或删除端点。

要查看特定端点的详细信息，请从列表中选择一个端点。在端点详细信息页面上，您会看到如下界面截图所示的概览。

![\[显示 Studio 中端点详细信息摘要的端点主页面界面截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/inference/studio-endpoint-details-page.png)


每个端点详细信息页面都包含以下信息选项卡：

# 查看变体（或模型）
<a name="manage-endpoints-studio-variants"></a>

**变体**选项卡（如果端点部署了多个模型，也称为**模型**选项卡）会显示当前部署到端点的[模型变体](https://docs.aws.amazon.com/sagemaker/latest/dg/model-ab-testing.html)或模型的列表。下面的界面截图显示了已部署多个模型的端点的概览和**模型**部分。

![\[端点主页面界面截图，显示已部署多个模型。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/inference/studio-goldfinch-multi-model-endpoint.png)


您可以添加或编辑每个变体或模型的设置。您还可以选择一个变体并启用默认自动扩缩策略，稍后可在**自动扩缩**选项卡中对其进行编辑。

# 查看设置
<a name="manage-endpoints-studio-settings"></a>

在**设置**选项卡上，您可以查看端点的相关 AWS IAM 角色、用于加密的 AWS KMS 密钥（如适用）、VPC 名称和网络隔离设置。

# 测试推理
<a name="manage-endpoints-studio-test"></a>

在**测试推理**选项卡上，您可以向已部署的模型发送测试推理请求。如果您想验证端点是否按预期响应请求，这将非常有用。

要检验推理，请执行以下操作：

1. 在模型的**测试推理**选项卡上，选择以下选项之一：

   1. 如果您要测试端点并通过 Studio 界面接收响应，请选择**输入请求正文**。

   1. 如果您想复制一个 适用于 Python (Boto3) 的 AWS SDK 示例代码（Python），可以用它从本地环境调用端点，并以编程方式接收响应，请选择**复制示例代码（Python）**。

1. 对于**模型**，选择要在端点上测试的模型。

1. 如果您选择了 Studio 界面测试方法，那么您还可以从下拉菜单中为响应选择所需的**内容类型**。

配置好请求后，您可以选择**发送请求**（通过 Studio 界面接收响应）或**复制**来拷贝 Python 示例。

如果您通过 Studio 界面收到响应，则会显示如下界面截图。

![\[Studio 中端点推理测试请求成功的界面截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/inference/endpoint-test-inference.png)


# 自动扩缩
<a name="manage-endpoints-studio-autoscaling"></a>

在**自动扩缩**标签上，您可以查看为端点上托管的模型配置的任何自动扩缩策略。下面的界面截图显示了**自动扩缩**选项卡。

![\[自动扩缩选项卡界面截图，显示一个活动策略。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/inference/studio-endpoint-autoscaling.png)


您可以选择**编辑自动扩缩**来更改任何策略，并打开或关闭默认自动扩缩策略。

要了解有关实时端点自动扩缩的更多信息，请参阅 [Automatically Scale Amazon SageMaker AI Models](https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html)。如果您不确定如何为端点配置自动扩缩策略，可以使用 [Inference Recommender 自动扩缩推荐作业](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender-autoscaling.html)获取自动扩缩策略建议。

# 在 SageMaker AI 控制台中查看端点详细信息
<a name="manage-endpoints-console"></a>

要在 SageMaker AI 控制台中查看端点，请执行以下操作：

1. 转到位于 [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/) 的 SageMaker AI 控制台。

1. 在左侧导航窗格中，选择**推理**。

1. 从下拉列表中，选择**端点**。

1. 在**端点**页面，选择您的端点。

端点详细信息页面应打开，显示您的端点摘要以及为端点收集的指标。

下文将介绍端点详细信息页面上的选项卡。

# 端点监测
<a name="manage-endpoints-console-monitoring"></a>

创建 SageMaker AI 托管端点之后，您可以使用 Amazon CloudWatch 监控端点，此工具可收集原始数据并将其处理为易读的近实时指标。使用这些指标，您可以访问历史信息并更好地了解端点的表现。有关更多信息，请参阅《*[Amazon CloudWatch 用户指南](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/)*》。

在端点详细信息页面的**监控**选项卡中，您可以查看从端点收集的 CloudWatch 指标数据。

**监控**选项卡包括以下部分：
+ **操作指标**：查看跟踪端点资源利用率的指标，例如 CPU 利用率和内存利用率。
+ **调用指标**：查看跟踪进入端点的 `InvokeEndpoint` 请求数量、运行状况和状态的指标，例如调用模型错误和模型延迟。
+ **运行状况指标**：查看跟踪端点整体运行状况的指标，例如调用失败和通知失败。

有关每个指标的详细描述，请参阅 [Monitor SageMaker AI with CloudWatch](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html)。

以下屏幕截图显示了无服务器端点的**操作指标**部分。

![\[端点详细信息页面操作指标部分中的指标图屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/hosting-operational-metrics.png)


对于给定部分中的指标，您可以调整要跟踪的**时间段**和**统计数据**，以及要查看指标数据的时间长度。您还可以通过选择**添加小部件**，在视图中为每个部分添加和移除指标小部件。在**添加小部件**对话框中，您可以选择和取消选择要查看的指标。

可用的指标可能取决于您的端点类型。例如，无服务器端点的一些指标不适用于实时端点。有关端点类型的更多具体指标信息，请参阅以下页面：
+ [监控无服务器端点](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints-monitoring.html)
+ [监控异步端点](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-monitor.html)
+ [多模型端点部署 CW 指标](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoint-cloudwatch-metrics.html)
+ [推理管道日志和指标](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-pipeline-logs-metrics.html)

# 设置
<a name="manage-endpoints-console-settings"></a>

您可以选择**设置**选项卡来查看有关您的端点的其他信息，例如数据捕获设置、端点配置和标签。

# 创建和查看警报
<a name="manage-endpoints-console-alarms"></a>

通过端点详细信息页面上的 **警报**选项卡，您可以查看和创建简单的静态阈值指标警报，并在其中指定指标的阈值。如果指标突破阈值，警报将进入 `ALARM` 状态。有关 CloudWatch 警报的更多信息，请参阅[使用 Amazon CloudWatch 警报](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)。

在**端点摘要**部分，您可以查看**警报**字段，该字段告诉您终端上当前有多少个活动的警报。

要查看哪些警报处于 `ALARM` 状态，请选择**警报**选项卡。**警报**选项卡显示您的端点警报的完整列表，以及有关其状态和条件的详细信息。以下屏幕截图显示了此部分中已为端点配置的警报列表。

![\[端点详细信息页面上警报选项卡的屏幕截图，其中显示了 CloudWatch 警报列表。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/hosting-alarms-tab.png)


如果没有收集到足够的指标数据，则警报的状态可以是 `In alarm`、`OK` 或 `Insufficient data`。

要为您的端点创建新的警报，请执行以下操作：

1. 在**警报**选项卡上，选择**创建警报**。

1. 这将打开**创建警报**页面。对于 **Alarm name (警报名称)**，输入警报的名称。

1. （可选）输入告警的描述。

1. 对于**指标**，请选择您希望警报跟踪的 CloudWatch 指标。

1. 对于**变体名称**，请选择要监控的端点模型变体。

1. 对于**统计数据**，请选择所选指标的可用统计数据之一。

1. 对于**时间段**，请选择用于计算每个统计值的时间段。例如，如果您选择平均统计数据和 5 分钟时间段，则警报监控的每个数据点都是该指标每隔 5 分钟的数据点的平均值。

1. 对于**评估期**，请输入在评估是否进入警报状态时，希望警报评估的数据点数量。

1. 对于**条件**，请选择要用于警报阈值的条件。

1. 对于**阈值**，请为阈值输入所需的值。

1. （可选）对于**通知**，您可以选择**添加通知**来创建或指定在警报状态发生变化时接收通知的 Amazon SNS 主题。

1. 选择**创建警报**。

创建警报后，您可以随时返回**警报**选项卡来查看其状态。在此部分中，您还可以选择警报，然后**编辑**或**删除**警报。