View a markdown version of this page

SageMaker 推理 - Amazon Nova

SageMaker 推理

自定义 Amazon Nova 模型现已在 SageMaker 推理服务中推出。借助 SageMaker 上的 Amazon Nova,您可以对已训练好的自定义 Nova 模型执行预测(即推理)操作。SageMaker 提供多种 ML 基础设施和模型部署选项,以帮助满足您的所有 ML 推理需求。使用 SageMaker 推理,您能够实现模型部署弹性扩缩、在生产环境中更高效地管理模型,并降低运维负担。

SageMaker 支持多种推理方式,例如用于低延迟推理的实时端点,以及用于批量请求的异步端点。通过利用适合您使用案例的推理选项,您可以确保高效的模型部署和推理。有关 SageMaker 推理的更多信息,请参阅部署模型用于推理

重要

SageMaker 推理仅支持全秩自定义模型和已合并 LoRA 的模型。对于未合并 LoRA 的模型及基础模型,请使用 Amazon Bedrock。

功能

以下为 Amazon Nova 模型在 SageMaker 推理中支持的功能:

模型能力

  • 文本生成

部署与扩缩

  • 支持自定义实例选型的实时端点

  • 自动扩缩:根据流量自动调整算力,优化成本与 GPU 利用率。有关更多信息,请参阅自动扩缩 Amazon SageMaker 模型

  • 支持流式 API,可实时生成词元

监控与优化

  • 集成 Amazon CloudWatch,用于监控与提醒

  • 通过 VPC 配置实现可用区域感知的时延优化

开发工具

支持的模型与实例

创建 SageMaker 推理端点时,可设置两个环境变量来配置部署:CONTEXT_LENGTHMAX_CONCURRENCY

  • CONTEXT_LENGTH:单个请求的词元最大总长(输入 + 输出)

  • MAX_CONCURRENCY:端点可处理的最大并发请求数

下表列出了支持的 Amazon Nova 模型、实例类型及对应配置。MAX_CONCURRENCY 数值表示在每个 CONTEXT_LENGTH 设置下所支持的最大并发数:

模型 实例类型 支持的配置 是否需要 FP8 量化
Amazon Nova Micro ml.g5.12xlarge

CONTEXT_LENGTH:4000,MAX_CONCURRENCY:12

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:6

ml.g5.24xlarge CONTEXT_LENGTH:8000,MAX_CONCURRENCY:8
ml.g6e.xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:2

ml.g6e.2xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:2

ml.g6e.4xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:4

ml.g6.12xlarge

CONTEXT_LENGTH:4000,MAX_CONCURRENCY:12

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:6

ml.g6.24xlarge CONTEXT_LENGTH:8000,MAX_CONCURRENCY:8
ml.g6.48xlarge CONTEXT_LENGTH:8000,MAX_CONCURRENCY:12
ml.p5.48xlarge

CONTEXT_LENGTH:16000,MAX_CONCURRENCY:128

CONTEXT_LENGTH:64000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:128000,MAX_CONCURRENCY:8

Amazon Nova Lite ml.g6.12xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:2

是 – 默认启用
ml.g6.24xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:4

是 – 默认启用
ml.g6.48xlarge

CONTEXT_LENGTH:4000,MAX_CONCURRENCY:16

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:8

ml.p5.48xlarge

CONTEXT_LENGTH:16000,MAX_CONCURRENCY:128

CONTEXT_LENGTH:60000,MAX_CONCURRENCY:8

Nova 2 Lite ml.g6.48xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:8

是 – 默认启用
ml.p5.48xlarge

CONTEXT_LENGTH:16000,MAX_CONCURRENCY:128

CONTEXT_LENGTH:64000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:128000,MAX_CONCURRENCY:8

CONTEXT_LENGTH:256000,MAX_CONCURRENCY:2

注意

对于需要 FP8 量化的实例,系统会默认启用此功能。

表格中显示的 MAX_CONCURRENCY 数值是对应 CONTEXT_LENGTH 设置的上限值。您可以在相同并发数下使用更短的上下文长度,但超出这些上限值将导致 SageMaker 端点创建失败。

以 Amazon Nova Micro 搭配 ml.g5.12xlarge 为例:

  • CONTEXT_LENGTH=2000MAX_CONCURRENCY=12→ 有效

  • CONTEXT_LENGTH=8000MAX_CONCURRENCY=12 → 无效(上下文长度 8000 时并发上限为 6)

  • CONTEXT_LENGTH=8000MAX_CONCURRENCY=4→ 有效

  • CONTEXT_LENGTH=8000MAX_CONCURRENCY=6→ 有效

  • CONTEXT_LENGTH=10000 → 无效(该实例最大上下文长度为 8000)

推理组件

您可以使用 SageMaker 推理组件部署 Amazon Nova 模型,从而在单个端点上托管多个模型并优化资源利用率。使用推理组件时,您可以指定每个模型所需的计算资源(CPU、内存、GPU),从而在共享的基础设施上实现高效的多模型托管。

使用推理组件时每个 Amazon Nova 模型的最低计算资源要求详见下表:

模型 最低 CPU 核心数 最低内存(MB) 最低 GPU 数
Amazon Nova Micro 15 25000 4
Amazon Nova Lite 20 35000 4
Nova 2 Lite 20 100000 4
注意

ComputeResourceRequirements 的值必须达到或超过上表所列对于要部署的模型的最低要求。如果使用的值低于上述最低要求,将会导致推理组件创建失败。

您可以在同一端点上部署多个推理组件,但前提是总资源需求不超过实例的容量。

您可以在单个端点上实际托管的推理组件数量,取决于实例类型的可用资源和每个模型的最低要求。例如,在一个 ml.p5.48xlarge 实例(具有 8 个 GPU、192 个 vCPU、大约 1 TB 内存)上:

  • 1 个 Amazon Nova Micro 推理组件(4 个 GPU、15 个 CPU 核心、25000 MB 内存)→ 有效

  • 2 个 Amazon Nova Micro 推理组件(总计 8 个 GPU,30 个 CPU 核心,50000 MB 内存)→ 有效(在实例容量范围内)

  • 1 个 Nova 2 Lite 推理组件(4 个 GPU、20 个 CPU 核心、100000 MB 内存)→ 有效

  • 2 个 Nova 2 Lite 推理组件(8 个 GPU、40 个 CPU 核心、200000 MB 内存)→ 有效

  • 3 个 Amazon Nova Micro 推理组件(总计 12 个 GPU)→ 拒绝(超出 8 个可用 GPU 的容量)

支持的 AWS 区域

下表列出了 Amazon Nova 模型可在 SageMaker 推理中使用的 AWS 区域:

区域名称 区域代码 可用性
美国东部(弗吉尼亚州北部) us-east-1 可用
美国西部(俄勒冈州) us-west-2 可用

支持的区域与容器映像

下表按区域列出了 Amazon Nova 模型在 SageMaker 推理中使用的容器映像 URI。SM-Inference-latest 标签当前指向 v1.4

区域 容器映像 URI
us-east-1 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest
us-west-2 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

最佳实践

有关在 SageMaker 上部署和管理模型的最佳实践,请参阅 SageMaker 最佳实践

支持

如在 SageMaker 推理中使用 Amazon Nova 模型时遇到问题或需要支持,可通过控制台或 AWS 客户经理联系 AWS Support。