View a markdown version of this page

Inferencias de SageMaker - Amazon Nova

Inferencias de SageMaker

Los modelos personalizados de Amazon Nova ya están disponibles para Inferencias de SageMaker. Con Amazon Nova en SageMaker, puede empezar a obtener predicciones o inferencias a partir de sus modelos de Amazon Nova personalizados y entrenados. Sagemaker ofrece una amplia selección de opciones de implementación de modelos e infraestructuras de ML para ayudarle a satisfacer todas sus necesidades de inferencia de ML. Con Inferencias de SageMaker, puede escalar la implementación de modelos, administrar modelos de forma más eficaz en la fase de producción y reducir la carga operativa.

SageMaker le proporciona varias opciones de inferencia, como, por ejemplo, puntos de conexión en tiempo real para obtener inferencias de baja latencia y puntos de conexión asíncronos para lotes de solicitudes. Al utilizar la opción de inferencia adecuada para el caso de uso, puede garantizar una implementación e inferencia eficaces de los modelos. Para obtener más información sobre Inferencias de SageMaker, consulte Deploy models for inference.

importante

Solo los modelos personalizados de rango completo y los modelos fusionados con LoRA son compatibles con Inferencias de SageMaker. En el caso de los modelos LoRA no fusionados y los modelos base, utilice Amazon Bedrock.

Características

Las siguientes características están disponibles para los modelos de Amazon Nova en Inferencias de SageMaker:

Capacidades del modelo

  • Generación de texto

Implementación y escalado

  • Puntos de conexión en tiempo real con selección de instancias personalizada.

  • Escalado automático: ajuste automáticamente la capacidad en función de los patrones de tráfico para optimizar los costos y el uso de la GPU. Para obtener información, consulte Automatically Scale Amazon SageMaker Models

  • Compatibilidad con API de transmisión para la generación de tokens en tiempo real.

Supervisión y optimización

  • Integración de Amazon CloudWatch para supervisar y configurar alertas.

  • Optimización de la latencia con reconocimiento de zonas de disponibilidad mediante la configuración de VPC.

Herramientas de desarrollo de

Modelos e instancias compatibles

Al crear los puntos de conexión de Inferencias de SageMaker, puede definir dos variables de entorno para configurar su implementación: CONTEXT_LENGTH y MAX_CONCURRENCY.

  • CONTEXT_LENGTH: longitud máxima total del token (entrada + salida) por solicitud

  • MAX_CONCURRENCY: número máximo de solicitudes simultáneas que atenderá el punto de conexión

En la siguiente tabla se muestran los modelos de Amazon Nova admitidos, los tipos de instancias y las configuraciones admitidas. Los valores de MAX_CONCURRENCY representan la simultaneidad máxima admitida para cada configuración de CONTEXT_LENGTH:

Modelo Tipo de instancia Configuraciones admitidas Se requiere cuantización FP8
Amazon Nova Micro ml.g5.12xlarge

CONTEXT_LENGTH: 4.000, MAX_CONCURRENCY: 12

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 6

No
ml.g5.24xlarge CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 8 No
ml.g6e.xlarge

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 2

No
ml.g6e.2xlarge

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 2

No
ml.g6e.4xlarge

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 4

No
ml.g6.12xlarge

CONTEXT_LENGTH: 4.000, MAX_CONCURRENCY: 12

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 6

No
ml.g6.24xlarge CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 8 No
ml.g6.48xlarge CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 12 No
ml.p5.48xlarge

CONTEXT_LENGTH: 16.000, MAX_CONCURRENCY: 128

CONTEXT_LENGTH: 64 000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 128 000, MAX_CONCURRENCY: 8

No
Amazon Nova Lite ml.g6.12xlarge

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 2

Sí - Habilitados de forma predeterminada
ml.g6.24xlarge

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 4

Sí - Habilitados de forma predeterminada
ml.g6.48xlarge

CONTEXT_LENGTH: 4.000, MAX_CONCURRENCY: 16

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 8

No
ml.p5.48xlarge

CONTEXT_LENGTH: 16.000, MAX_CONCURRENCY: 128

CONTEXT_LENGTH: 60 000, MAX_CONCURRENCY: 8

No
Nova 2 Lite ml.g6.48xlarge

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 8

Sí - Habilitados de forma predeterminada
ml.p5.48xlarge

CONTEXT_LENGTH: 16.000, MAX_CONCURRENCY: 128

CONTEXT_LENGTH: 64 000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 128 000, MAX_CONCURRENCY: 8

CONTEXT_LENGTH: 256 000, MAX_CONCURRENCY: 2

No
nota

La cuantización FP8 estará activada de forma predeterminada cuando sea necesaria.

Los valores de MAX_CONCURRENCY que se muestran son los límites superiores de cada configuración de CONTEXT_LENGTH. Puede utilizar longitudes de contexto más bajas con la misma simultaneidad, pero si se superan estos valores, se producirá un error en la creación del punto de conexión de SageMaker.

Por ejemplo, en Amazon Nova Micro con una instancia ml.g5.12xlarge:

  • CONTEXT_LENGTH=2000, MAX_CONCURRENCY=12 → válido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → rechazado (el límite de simultaneidad es 6 con una longitud de contexto de 8000)

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → válido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → válido

  • CONTEXT_LENGTH=10000 → rechazado (la longitud máxima del contexto es 8000 en esta instancia)

Componentes de inferencias

Puede implementar modelos Amazon Nova mediante componentes de inferencia de SageMaker, que permiten alojar varios modelos en un único punto de conexión y optimizar el uso de los recursos. Los componentes de inferencia permiten especificar los recursos de computación (CPU, memoria y GPU) necesarios para cada modelo, lo que permite alojar varios modelos de forma eficiente en una infraestructura compartida.

La siguiente tabla enumera los requisitos mínimos de recursos de computación para cada modelo Amazon Nova al usar componentes de inferencia:

Modelo Núcleos de CPU mínimos Memoria mínima (MB) Cantidad mínima de GPU
Amazon Nova Micro 15 25000 4
Amazon Nova Lite 20 35 000 4
Nova 2 Lite 20 100000 4
nota

Los valores ComputeResourceRequirements deben cumplir o superar los requisitos mínimos indicados en la tabla anterior para el modelo que implemente. El uso de valores inferiores a los mínimos hará que falle la creación del componente de inferencia.

Puede implementar varios componentes de inferencia en el mismo punto de conexión, siempre que los requisitos totales de recursos no superen la capacidad de la instancia.

La cantidad de componentes de inferencia que puede alojar en un único punto de conexión depende de los recursos disponibles del tipo de instancia y de los requisitos mínimos de cada modelo. Por ejemplo, en una ml.p5.48xlarge (8 GPU, 192 vCPU y aproximadamente 1 TB de memoria):

  • 1 componente de inferencia Amazon Nova Micro (4 GPU, 15 núcleos de CPU y 25 000 MB) → Válido

  • 2 componentes de inferencia Amazon Nova Micro (8 GPU en total, 30 núcleos de CPU y 50 000 MB) → Válido (se ajusta a la capacidad de la instancia)

  • 1 componente de inferencia Nova 2 Lite (4 GPU, 20 núcleos de CPU y 100 000 MB) → Válido

  • 2 componentes de inferencia Nova 2 Lite (8 GPU en total, 40 núcleos de CPU y 200 000 MB) → Válido

  • 3 componentes de inferencia Amazon Nova Micro (12 GPU en total) → Rechazado (supera las 8 GPU disponibles)

Regiones de AWS compatibles

La siguiente tabla muestra las regiones de AWS en las que los modelos de Amazon Nova están disponibles para Inferencias de SageMaker:

Nombre de la región Código de región Disponibilidad
Este de EE. UU. (Norte de Virginia) us-east-1 Disponible
Oeste de EE. UU. (Oregón) us-west-2 Disponible

Imágenes de contenedor compatibles

La siguiente tabla muestra los URI de imágenes de contenedor para los modelos de Amazon Nova en Inferencias de SageMaker, organizados por región. La etiqueta SM-Inference-latest actualmente apunta a v1.4.

Región URI de imágenes de contenedor
us-east-1 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest
us-west-2 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

Prácticas recomendadas

Para obtener información sobre las prácticas recomendadas sobre la implementación y administración de modelos en SageMaker, consulte Best Practices for SageMaker.

Soporte

Si tiene problemas o necesita asistencia con los modelos de Amazon Nova en Inferencias de SageMaker, póngase en contacto con AWS Support a través de la consola o con su administrador de cuentas de AWS.