SageMaker 推理 - Amazon Nova

SageMaker 推理

自定义 Amazon Nova 模型现已在 SageMaker 推理服务中推出。借助 SageMaker 上的 Amazon Nova,您可以对已训练好的自定义 Nova 模型执行预测(即推理)操作。SageMaker 提供多种 ML 基础设施和模型部署选项,以帮助满足您的所有 ML 推理需求。使用 SageMaker 推理,您能够实现模型部署弹性扩缩、在生产环境中更高效地管理模型,并降低运维负担。

SageMaker 支持多种推理方式,例如用于低延迟推理的实时端点,以及用于批量请求的异步端点。通过利用适合您使用案例的推理选项,您可以确保高效的模型部署和推理。有关 SageMaker 推理的更多信息,请参阅部署模型用于推理

重要

SageMaker 推理仅支持全秩自定义模型和已合并 LoRA 的模型。对于未合并 LoRA 的模型及基础模型,请使用 Amazon Bedrock。

功能

以下为 Amazon Nova 模型在 SageMaker 推理中支持的功能:

模型能力

  • 文本生成

部署与扩缩

  • 支持自定义实例选型的实时端点

  • 自动扩缩:根据流量自动调整算力,优化成本与 GPU 利用率。有关更多信息,请参阅自动扩缩 Amazon SageMaker 模型

  • 支持流式 API,可实时生成词元

监控与优化

  • 集成 Amazon CloudWatch,用于监控与提醒

  • 通过 VPC 配置实现可用区域感知的时延优化

开发工具

支持的模型与实例

创建 SageMaker 推理端点时,可设置两个环境变量来配置部署:CONTEXT_LENGTHMAX_CONCURRENCY

  • CONTEXT_LENGTH:单个请求的词元最大总长(输入 + 输出)

  • MAX_CONCURRENCY:端点可处理的最大并发请求数

下表列出了支持的 Amazon Nova 模型、实例类型及对应配置。MAX_CONCURRENCY 数值表示在每个 CONTEXT_LENGTH 设置下所支持的最大并发数:

模型 实例类型 支持的配置
Amazon Nova Micro ml.g5.12xlarge

CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16

ml.g5.24xlarge CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32
ml.g6.12xlarge

CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16

ml.g6.24xlarge CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32
ml.g6.48xlarge CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32
ml.p5.48xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2

CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1

Amazon Nova Lite ml.g6.48xlarge

CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16

ml.p5.48xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2

CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1

Nova 2 Lite ml.p5.48xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2

CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1

注意

表格中显示的 MAX_CONCURRENCY 数值是对应 CONTEXT_LENGTH 设置的上限值。您可以在相同并发数下使用更短的上下文长度,但超出这些上限值将导致 SageMaker 端点创建失败。

以 Amazon Nova Micro 搭配 ml.g5.12xlarge 为例:

  • CONTEXT_LENGTH=2000MAX_CONCURRENCY=32→ 有效

  • CONTEXT_LENGTH=8000MAX_CONCURRENCY=32→ 无效(上下文长度 8000 时并发上限为 16)

  • CONTEXT_LENGTH=8000MAX_CONCURRENCY=4→ 有效

  • CONTEXT_LENGTH=8000MAX_CONCURRENCY=16→ 有效

  • CONTEXT_LENGTH=10000→ 无效(该实例最大上下文长度为 8000)

支持的 AWS 区域

下表列出了 Amazon Nova 模型可在 SageMaker 推理中使用的 AWS 区域:

区域名称 区域代码 可用性
美国东部(弗吉尼亚州北部) us-east-1 可用
美国西部(俄勒冈州) us-west-2 可用

支持的区域与容器映像

下表按区域列出了 Amazon Nova 模型在 SageMaker 推理中使用的容器映像 URI。每个区域提供两种映像标签:版本化标签 (v1.0.0) 和最新标签 (SM-Inference-latest)。生产环境部署时,建议使用版本化标签。

区域 容器映像 URI
us-east-1

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:v1.0.0

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest

us-west-2

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:v1.0.0

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

最佳实践

有关在 SageMaker 上部署和管理模型的最佳实践,请参阅 SageMaker 最佳实践

支持

如在 SageMaker 推理中使用 Amazon Nova 模型时遇到问题或需要支持,可通过控制台或 AWS 客户经理联系 AWS Support。