Características Modelos e instancias compatibles Componentes de inferencias Regiones de AWS compatibles Imágenes de contenedor compatibles Prácticas recomendadas Soporte

Inferencias de SageMaker

Los modelos personalizados de Amazon Nova ya están disponibles para Inferencias de SageMaker. Con Amazon Nova en SageMaker, puede empezar a obtener predicciones o inferencias a partir de sus modelos de Amazon Nova personalizados y entrenados. Sagemaker ofrece una amplia selección de opciones de implementación de modelos e infraestructuras de ML para ayudarle a satisfacer todas sus necesidades de inferencia de ML. Con Inferencias de SageMaker, puede escalar la implementación de modelos, administrar modelos de forma más eficaz en la fase de producción y reducir la carga operativa.

SageMaker le proporciona varias opciones de inferencia, como, por ejemplo, puntos de conexión en tiempo real para obtener inferencias de baja latencia y puntos de conexión asíncronos para lotes de solicitudes. Al utilizar la opción de inferencia adecuada para el caso de uso, puede garantizar una implementación e inferencia eficaces de los modelos. Para obtener más información sobre Inferencias de SageMaker, consulte Deploy models for inference.

importante

Solo los modelos personalizados de rango completo y los modelos fusionados con LoRA son compatibles con Inferencias de SageMaker. En el caso de los modelos LoRA no fusionados y los modelos base, utilice Amazon Bedrock.

Características

Las siguientes características están disponibles para los modelos de Amazon Nova en Inferencias de SageMaker:

Capacidades del modelo

Generación de texto

Implementación y escalado

Puntos de conexión en tiempo real con selección de instancias personalizada.
Escalado automático: ajuste automáticamente la capacidad en función de los patrones de tráfico para optimizar los costos y el uso de la GPU. Para obtener información, consulte Automatically Scale Amazon SageMaker Models
Compatibilidad con API de transmisión para la generación de tokens en tiempo real.

Supervisión y optimización

Integración de Amazon CloudWatch para supervisar y configurar alertas.
Optimización de la latencia con reconocimiento de zonas de disponibilidad mediante la configuración de VPC.

Herramientas de desarrollo de

Compatibilidad con AWS CLI: para obtener más información, consulte AWS CLI Command Reference for SageMaker.
Integración de cuadernos mediante la compatibilidad con el SDK.

Modelos e instancias compatibles

Al crear los puntos de conexión de Inferencias de SageMaker, puede definir dos variables de entorno para configurar su implementación: CONTEXT_LENGTH y MAX_CONCURRENCY.

CONTEXT_LENGTH: longitud máxima total del token (entrada + salida) por solicitud
MAX_CONCURRENCY: número máximo de solicitudes simultáneas que atenderá el punto de conexión

En la siguiente tabla se muestran los modelos de Amazon Nova admitidos, los tipos de instancias y las configuraciones admitidas. Los valores de MAX_CONCURRENCY representan la simultaneidad máxima admitida para cada configuración de CONTEXT_LENGTH:

Modelo	Tipo de instancia	Configuraciones admitidas	Se requiere cuantización FP8
Amazon Nova Micro	ml.g5.12xlarge	CONTEXT_LENGTH: 4.000, MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 6	No
	ml.g5.24xlarge	CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 8	No
	ml.g6e.xlarge	CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 2	No
	ml.g6e.2xlarge	CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 2	No
	ml.g6e.4xlarge	CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 4	No
	ml.g6.12xlarge	CONTEXT_LENGTH: 4.000, MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 6	No
	ml.g6.24xlarge	CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 8	No
	ml.g6.48xlarge	CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 12	No
	ml.p5.48xlarge	CONTEXT_LENGTH: 16.000, MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64 000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128 000, MAX_CONCURRENCY: 8	No
Amazon Nova Lite	ml.g6.12xlarge	CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 2	Sí - Habilitados de forma predeterminada
	ml.g6.24xlarge	CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 4	Sí - Habilitados de forma predeterminada
	ml.g6.48xlarge	CONTEXT_LENGTH: 4.000, MAX_CONCURRENCY: 16 CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 8	No
	ml.p5.48xlarge	CONTEXT_LENGTH: 16.000, MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 60 000, MAX_CONCURRENCY: 8	No
Nova 2 Lite	ml.g6.48xlarge	CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 8	Sí - Habilitados de forma predeterminada
Nova 2 Lite	ml.p5.48xlarge	CONTEXT_LENGTH: 16.000, MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64 000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128 000, MAX_CONCURRENCY: 8 CONTEXT_LENGTH: 256 000, MAX_CONCURRENCY: 2	No

nota

La cuantización FP8 estará activada de forma predeterminada cuando sea necesaria.

Los valores de MAX_CONCURRENCY que se muestran son los límites superiores de cada configuración de CONTEXT_LENGTH. Puede utilizar longitudes de contexto más bajas con la misma simultaneidad, pero si se superan estos valores, se producirá un error en la creación del punto de conexión de SageMaker.

Por ejemplo, en Amazon Nova Micro con una instancia ml.g5.12xlarge:

CONTEXT_LENGTH=2000, MAX_CONCURRENCY=12 → válido
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → rechazado (el límite de simultaneidad es 6 con una longitud de contexto de 8000)
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → válido
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → válido
CONTEXT_LENGTH=10000 → rechazado (la longitud máxima del contexto es 8000 en esta instancia)

Componentes de inferencias

Puede implementar modelos Amazon Nova mediante componentes de inferencia de SageMaker, que permiten alojar varios modelos en un único punto de conexión y optimizar el uso de los recursos. Los componentes de inferencia permiten especificar los recursos de computación (CPU, memoria y GPU) necesarios para cada modelo, lo que permite alojar varios modelos de forma eficiente en una infraestructura compartida.

La siguiente tabla enumera los requisitos mínimos de recursos de computación para cada modelo Amazon Nova al usar componentes de inferencia:

Modelo	Núcleos de CPU mínimos	Memoria mínima (MB)	Cantidad mínima de GPU
Amazon Nova Micro	15	25000	4
Amazon Nova Lite	20	35 000	4
Nova 2 Lite	20	100000	4

nota

Los valores ComputeResourceRequirements deben cumplir o superar los requisitos mínimos indicados en la tabla anterior para el modelo que implemente. El uso de valores inferiores a los mínimos hará que falle la creación del componente de inferencia.

Puede implementar varios componentes de inferencia en el mismo punto de conexión, siempre que los requisitos totales de recursos no superen la capacidad de la instancia.

La cantidad de componentes de inferencia que puede alojar en un único punto de conexión depende de los recursos disponibles del tipo de instancia y de los requisitos mínimos de cada modelo. Por ejemplo, en una ml.p5.48xlarge (8 GPU, 192 vCPU y aproximadamente 1 TB de memoria):

1 componente de inferencia Amazon Nova Micro (4 GPU, 15 núcleos de CPU y 25 000 MB) → Válido
2 componentes de inferencia Amazon Nova Micro (8 GPU en total, 30 núcleos de CPU y 50 000 MB) → Válido (se ajusta a la capacidad de la instancia)
1 componente de inferencia Nova 2 Lite (4 GPU, 20 núcleos de CPU y 100 000 MB) → Válido
2 componentes de inferencia Nova 2 Lite (8 GPU en total, 40 núcleos de CPU y 200 000 MB) → Válido
3 componentes de inferencia Amazon Nova Micro (12 GPU en total) → Rechazado (supera las 8 GPU disponibles)

Regiones de AWS compatibles

La siguiente tabla muestra las regiones de AWS en las que los modelos de Amazon Nova están disponibles para Inferencias de SageMaker:

Nombre de la región	Código de región	Disponibilidad
Este de EE. UU. (Norte de Virginia)	us-east-1	Disponible
Oeste de EE. UU. (Oregón)	us-west-2	Disponible

Imágenes de contenedor compatibles

La siguiente tabla muestra los URI de imágenes de contenedor para los modelos de Amazon Nova en Inferencias de SageMaker, organizados por región. La etiqueta SM-Inference-latest actualmente apunta a v1.4.

Región	URI de imágenes de contenedor
us-east-1	`708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest`
us-west-2	`176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest`

Prácticas recomendadas

Para obtener información sobre las prácticas recomendadas sobre la implementación y administración de modelos en SageMaker, consulte Best Practices for SageMaker.

Soporte

Si tiene problemas o necesita asistencia con los modelos de Amazon Nova en Inferencias de SageMaker, póngase en contacto con AWS Support a través de la consola o con su administrador de cuentas de AWS.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Fusión de modelos

Introducción