SageMaker 推理
自定义 Amazon Nova 模型现已在 SageMaker 推理服务中推出。借助 SageMaker 上的 Amazon Nova,您可以对已训练好的自定义 Nova 模型执行预测(即推理)操作。SageMaker 提供多种 ML 基础设施和模型部署选项,以帮助满足您的所有 ML 推理需求。使用 SageMaker 推理,您能够实现模型部署弹性扩缩、在生产环境中更高效地管理模型,并降低运维负担。
SageMaker 支持多种推理方式,例如用于低延迟推理的实时端点,以及用于批量请求的异步端点。通过利用适合您使用案例的推理选项,您可以确保高效的模型部署和推理。有关 SageMaker 推理的更多信息,请参阅部署模型用于推理。
重要
SageMaker 推理仅支持全秩自定义模型和已合并 LoRA 的模型。对于未合并 LoRA 的模型及基础模型,请使用 Amazon Bedrock。
功能
以下为 Amazon Nova 模型在 SageMaker 推理中支持的功能:
模型能力
-
文本生成
部署与扩缩
-
支持自定义实例选型的实时端点
-
自动扩缩:根据流量自动调整算力,优化成本与 GPU 利用率。有关更多信息,请参阅自动扩缩 Amazon SageMaker 模型。
-
支持流式 API,可实时生成词元
监控与优化
-
集成 Amazon CloudWatch,用于监控与提醒
-
通过 VPC 配置实现可用区域感知的时延优化
开发工具
-
支持 AWS CLI:有关更多信息,请参阅 SageMaker AWS CLI 命令参考。
-
支持通过 SDK 集成笔记本
支持的模型与实例
创建 SageMaker 推理端点时,可设置两个环境变量来配置部署:CONTEXT_LENGTH 和 MAX_CONCURRENCY。
-
CONTEXT_LENGTH:单个请求的词元最大总长(输入 + 输出) -
MAX_CONCURRENCY:端点可处理的最大并发请求数
下表列出了支持的 Amazon Nova 模型、实例类型及对应配置。MAX_CONCURRENCY 数值表示在每个 CONTEXT_LENGTH 设置下所支持的最大并发数:
| 模型 | 实例类型 | 支持的配置 |
|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16 |
| ml.g5.24xlarge | CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 | |
| ml.g6.12xlarge |
CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16 |
|
| ml.g6.24xlarge | CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 | |
| ml.g6.48xlarge | CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 | |
| ml.p5.48xlarge |
CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2 CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1 |
|
| Amazon Nova Lite | ml.g6.48xlarge |
CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16 |
| ml.p5.48xlarge |
CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2 CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1 |
|
| Nova 2 Lite | ml.p5.48xlarge |
CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2 CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1 |
注意
表格中显示的 MAX_CONCURRENCY 数值是对应 CONTEXT_LENGTH 设置的上限值。您可以在相同并发数下使用更短的上下文长度,但超出这些上限值将导致 SageMaker 端点创建失败。
以 Amazon Nova Micro 搭配 ml.g5.12xlarge 为例:
-
CONTEXT_LENGTH=2000,MAX_CONCURRENCY=32→ 有效 -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=32→ 无效(上下文长度 8000 时并发上限为 16) -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=4→ 有效 -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=16→ 有效 -
CONTEXT_LENGTH=10000→ 无效(该实例最大上下文长度为 8000)
支持的 AWS 区域
下表列出了 Amazon Nova 模型可在 SageMaker 推理中使用的 AWS 区域:
| 区域名称 | 区域代码 | 可用性 |
|---|---|---|
| 美国东部(弗吉尼亚州北部) | us-east-1 | 可用 |
| 美国西部(俄勒冈州) | us-west-2 | 可用 |
支持的区域与容器映像
下表按区域列出了 Amazon Nova 模型在 SageMaker 推理中使用的容器映像 URI。每个区域提供两种映像标签:版本化标签 (v1.0.0) 和最新标签 (SM-Inference-latest)。生产环境部署时,建议使用版本化标签。
| 区域 | 容器映像 URI |
|---|---|
| us-east-1 |
|
| us-west-2 |
|
最佳实践
有关在 SageMaker 上部署和管理模型的最佳实践,请参阅 SageMaker 最佳实践。
支持
如在 SageMaker 推理中使用 Amazon Nova 模型时遇到问题或需要支持,可通过控制台或 AWS 客户经理联系 AWS Support。