功能支持的模型与实例推理组件支持的 AWS 区域支持的区域与容器映像最佳实践支持

SageMaker 推理

自定义 Amazon Nova 模型现已在 SageMaker 推理服务中推出。借助 SageMaker 上的 Amazon Nova，您可以对已训练好的自定义 Nova 模型执行预测（即推理）操作。SageMaker 提供多种 ML 基础设施和模型部署选项，以帮助满足您的所有 ML 推理需求。使用 SageMaker 推理，您能够实现模型部署弹性扩缩、在生产环境中更高效地管理模型，并降低运维负担。

SageMaker 支持多种推理方式，例如用于低延迟推理的实时端点，以及用于批量请求的异步端点。通过利用适合您使用案例的推理选项，您可以确保高效的模型部署和推理。有关 SageMaker 推理的更多信息，请参阅部署模型用于推理。

重要

SageMaker 推理仅支持全秩自定义模型和已合并 LoRA 的模型。对于未合并 LoRA 的模型及基础模型，请使用 Amazon Bedrock。

功能

以下为 Amazon Nova 模型在 SageMaker 推理中支持的功能：

模型能力

文本生成

部署与扩缩

支持自定义实例选型的实时端点
自动扩缩：根据流量自动调整算力，优化成本与 GPU 利用率。有关更多信息，请参阅自动扩缩 Amazon SageMaker 模型。
支持流式 API，可实时生成词元

监控与优化

集成 Amazon CloudWatch，用于监控与提醒
通过 VPC 配置实现可用区域感知的时延优化

开发工具

支持 AWS CLI：有关更多信息，请参阅 SageMaker AWS CLI 命令参考。
支持通过 SDK 集成笔记本

支持的模型与实例

创建 SageMaker 推理端点时，可设置两个环境变量来配置部署：CONTEXT_LENGTH 和 MAX_CONCURRENCY。

CONTEXT_LENGTH：单个请求的词元最大总长（输入 + 输出）
MAX_CONCURRENCY：端点可处理的最大并发请求数

下表列出了支持的 Amazon Nova 模型、实例类型及对应配置。MAX_CONCURRENCY 数值表示在每个 CONTEXT_LENGTH 设置下所支持的最大并发数：

模型	实例类型	支持的配置	是否需要 FP8 量化
Amazon Nova Micro	ml.g5.12xlarge	CONTEXT_LENGTH：4000，MAX_CONCURRENCY：12 CONTEXT_LENGTH：8000，MAX_CONCURRENCY：6	否
	ml.g5.24xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：8	否
	ml.g6e.xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：2	否
	ml.g6e.2xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：2	否
	ml.g6e.4xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：4	否
	ml.g6.12xlarge	CONTEXT_LENGTH：4000，MAX_CONCURRENCY：12 CONTEXT_LENGTH：8000，MAX_CONCURRENCY：6	否
	ml.g6.24xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：8	否
	ml.g6.48xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：12	否
	ml.p5.48xlarge	CONTEXT_LENGTH：16000，MAX_CONCURRENCY：128 CONTEXT_LENGTH：64000，MAX_CONCURRENCY：32 CONTEXT_LENGTH：128000，MAX_CONCURRENCY：8	否
Amazon Nova Lite	ml.g6.12xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：2	是 – 默认启用
	ml.g6.24xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：4	是 – 默认启用
	ml.g6.48xlarge	CONTEXT_LENGTH：4000，MAX_CONCURRENCY：16 CONTEXT_LENGTH：8000，MAX_CONCURRENCY：8	否
	ml.p5.48xlarge	CONTEXT_LENGTH：16000，MAX_CONCURRENCY：128 CONTEXT_LENGTH：60000，MAX_CONCURRENCY：8	否
Nova 2 Lite	ml.g6.48xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：8	是 – 默认启用
Nova 2 Lite	ml.p5.48xlarge	CONTEXT_LENGTH：16000，MAX_CONCURRENCY：128 CONTEXT_LENGTH：64000，MAX_CONCURRENCY：32 CONTEXT_LENGTH：128000，MAX_CONCURRENCY：8 CONTEXT_LENGTH：256000，MAX_CONCURRENCY：2	否

注意

对于需要 FP8 量化的实例，系统会默认启用此功能。

表格中显示的 MAX_CONCURRENCY 数值是对应 CONTEXT_LENGTH 设置的上限值。您可以在相同并发数下使用更短的上下文长度，但超出这些上限值将导致 SageMaker 端点创建失败。

以 Amazon Nova Micro 搭配 ml.g5.12xlarge 为例：

CONTEXT_LENGTH=2000，MAX_CONCURRENCY=12→ 有效
CONTEXT_LENGTH=8000，MAX_CONCURRENCY=12 → 无效（上下文长度 8000 时并发上限为 6）
CONTEXT_LENGTH=8000，MAX_CONCURRENCY=4→ 有效
CONTEXT_LENGTH=8000，MAX_CONCURRENCY=6→ 有效
CONTEXT_LENGTH=10000 → 无效（该实例最大上下文长度为 8000）

推理组件

您可以使用 SageMaker 推理组件部署 Amazon Nova 模型，从而在单个端点上托管多个模型并优化资源利用率。使用推理组件时，您可以指定每个模型所需的计算资源（CPU、内存、GPU），从而在共享的基础设施上实现高效的多模型托管。

使用推理组件时每个 Amazon Nova 模型的最低计算资源要求详见下表：

模型	最低 CPU 核心数	最低内存（MB）	最低 GPU 数
Amazon Nova Micro	15	25000	4
Amazon Nova Lite	20	35000	4
Nova 2 Lite	20	100000	4

注意

ComputeResourceRequirements 的值必须达到或超过上表所列对于要部署的模型的最低要求。如果使用的值低于上述最低要求，将会导致推理组件创建失败。

您可以在同一端点上部署多个推理组件，但前提是总资源需求不超过实例的容量。

您可以在单个端点上实际托管的推理组件数量，取决于实例类型的可用资源和每个模型的最低要求。例如，在一个 ml.p5.48xlarge 实例（具有 8 个 GPU、192 个 vCPU、大约 1 TB 内存）上：

1 个 Amazon Nova Micro 推理组件（4 个 GPU、15 个 CPU 核心、25000 MB 内存）→ 有效
2 个 Amazon Nova Micro 推理组件（总计 8 个 GPU，30 个 CPU 核心，50000 MB 内存）→ 有效（在实例容量范围内）
1 个 Nova 2 Lite 推理组件（4 个 GPU、20 个 CPU 核心、100000 MB 内存）→ 有效
2 个 Nova 2 Lite 推理组件（8 个 GPU、40 个 CPU 核心、200000 MB 内存）→ 有效
3 个 Amazon Nova Micro 推理组件（总计 12 个 GPU）→ 拒绝（超出 8 个可用 GPU 的容量）

支持的 AWS 区域

下表列出了 Amazon Nova 模型可在 SageMaker 推理中使用的 AWS 区域：

区域名称	区域代码	可用性
美国东部（弗吉尼亚州北部）	us-east-1	可用
美国西部（俄勒冈州）	us-west-2	可用

支持的区域与容器映像

下表按区域列出了 Amazon Nova 模型在 SageMaker 推理中使用的容器映像 URI。SM-Inference-latest 标签当前指向 v1.4。

区域	容器映像 URI
us-east-1	`708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest`
us-west-2	`176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest`

最佳实践

有关在 SageMaker 上部署和管理模型的最佳实践，请参阅 SageMaker 最佳实践。

支持

如在 SageMaker 推理中使用 Amazon Nova 模型时遇到问题或需要支持，可通过控制台或 AWS 客户经理联系 AWS Support。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

模型合并

开始使用