

# Inferencias de SageMaker
<a name="nova-model-sagemaker-inference"></a>

Los modelos personalizados de Amazon Nova ya están disponibles para Inferencias de SageMaker. Con Amazon Nova en SageMaker, puede empezar a obtener predicciones o inferencias a partir de sus modelos de Amazon Nova personalizados y entrenados. Sagemaker ofrece una amplia selección de opciones de implementación de modelos e infraestructuras de ML para ayudarle a satisfacer todas sus necesidades de inferencia de ML. Con Inferencias de SageMaker, puede escalar la implementación de modelos, administrar modelos de forma más eficaz en la fase de producción y reducir la carga operativa.

SageMaker le proporciona varias opciones de inferencia, como, por ejemplo, puntos de conexión en tiempo real para obtener inferencias de baja latencia y puntos de conexión asíncronos para lotes de solicitudes. Al utilizar la opción de inferencia adecuada para el caso de uso, puede garantizar una implementación e inferencia eficaces de los modelos. Para obtener más información sobre Inferencias de SageMaker, consulte [Deploy models for inference](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html).

**importante**  
Solo los modelos personalizados de rango completo y los modelos fusionados con LoRA son compatibles con Inferencias de SageMaker. En el caso de los modelos LoRA no fusionados y los modelos base, utilice Amazon Bedrock.

## Características
<a name="nova-sagemaker-inference-features"></a>

Las siguientes características están disponibles para los modelos de Amazon Nova en Inferencias de SageMaker:

**Capacidades del modelo**
+ Generación de texto

**Implementación y escalado**
+ Puntos de conexión en tiempo real con selección de instancias personalizada.
+ Escalado automático: ajuste automáticamente la capacidad en función de los patrones de tráfico para optimizar los costos y el uso de la GPU. Para obtener información, consulte [Automatically Scale Amazon SageMaker Models](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html)
+ Compatibilidad con API de transmisión para la generación de tokens en tiempo real.

**Supervisión y optimización**
+ Integración de Amazon CloudWatch para supervisar y configurar alertas.
+ Optimización de la latencia con reconocimiento de zonas de disponibilidad mediante la configuración de VPC.

**Herramientas de desarrollo de**
+ Compatibilidad con AWS CLI: para obtener más información, consulte [AWS CLI Command Reference for SageMaker](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/).
+  Integración de cuadernos mediante la compatibilidad con el SDK.

## Modelos e instancias compatibles
<a name="nova-sagemaker-inference-supported"></a>

Al crear los puntos de conexión de Inferencias de SageMaker, puede definir dos variables de entorno para configurar su implementación: `CONTEXT_LENGTH` y `MAX_CONCURRENCY`.
+ `CONTEXT_LENGTH`: longitud máxima total del token (entrada \+ salida) por solicitud
+ `MAX_CONCURRENCY`: número máximo de solicitudes simultáneas que atenderá el punto de conexión

En la siguiente tabla se muestran los modelos de Amazon Nova admitidos, los tipos de instancias y las configuraciones admitidas. Los valores de MAX\_CONCURRENCY representan la simultaneidad máxima admitida para cada configuración de CONTEXT\_LENGTH:


****  


- **Amazon Nova Micro**
  - **Tipo de instancia:** ml.g5.12xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 4.000, MAX\_CONCURRENCY: 12<br />CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 6 / **Se requiere cuantización FP8:** No
  - **Tipo de instancia:** ml.g5.24xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 8 / **Se requiere cuantización FP8:** No
  - **Tipo de instancia:** ml.g6e.xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 2 / **Se requiere cuantización FP8:** No
  - **Tipo de instancia:** ml.g6e.2xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 2 / **Se requiere cuantización FP8:** No
  - **Tipo de instancia:** ml.g6e.4xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 4 / **Se requiere cuantización FP8:** No
  - **Tipo de instancia:** ml.g6.12xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 4.000, MAX\_CONCURRENCY: 12<br />CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 6 / **Se requiere cuantización FP8:** No
  - **Tipo de instancia:** ml.g6.24xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 8 / **Se requiere cuantización FP8:** No
  - **Tipo de instancia:** ml.g6.48xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 12 / **Se requiere cuantización FP8:** No
  - **Tipo de instancia:** ml.p5.48xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 16.000, MAX\_CONCURRENCY: 128<br />CONTEXT\_LENGTH: 64 000, MAX\_CONCURRENCY: 32<br />CONTEXT\_LENGTH: 128 000, MAX\_CONCURRENCY: 8 / **Se requiere cuantización FP8:** No

- **Amazon Nova Lite**
  - **Tipo de instancia:** ml.g6.12xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 2 / **Se requiere cuantización FP8:** Sí - Habilitados de forma predeterminada
  - **Tipo de instancia:** ml.g6.24xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 4 / **Se requiere cuantización FP8:** Sí - Habilitados de forma predeterminada
  - **Tipo de instancia:** ml.g6.48xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 4.000, MAX\_CONCURRENCY: 16<br />CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 8 / **Se requiere cuantización FP8:** No
  - **Tipo de instancia:** ml.p5.48xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 16.000, MAX\_CONCURRENCY: 128<br />CONTEXT\_LENGTH: 60 000, MAX\_CONCURRENCY: 8 / **Se requiere cuantización FP8:** No

- **Nova 2 Lite**
  - **Tipo de instancia:** ml.g6.48xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 8.000, MAX\_CONCURRENCY: 8 / **Se requiere cuantización FP8:** Sí - Habilitados de forma predeterminada
  - **Tipo de instancia:** ml.p5.48xlarge / **Configuraciones admitidas:** CONTEXT\_LENGTH: 16.000, MAX\_CONCURRENCY: 128<br />CONTEXT\_LENGTH: 64 000, MAX\_CONCURRENCY: 32<br />CONTEXT\_LENGTH: 128 000, MAX\_CONCURRENCY: 8<br />CONTEXT\_LENGTH: 256 000, MAX\_CONCURRENCY: 2 / **Se requiere cuantización FP8:** No



**nota**  
La cuantización FP8 estará activada de forma predeterminada cuando sea necesaria.  
Los valores de MAX\_CONCURRENCY que se muestran son los límites superiores de cada configuración de CONTEXT\_LENGTH. Puede utilizar longitudes de contexto más bajas con la misma simultaneidad, pero si se superan estos valores, se producirá un error en la creación del punto de conexión de SageMaker.  
Por ejemplo, en Amazon Nova Micro con una instancia ml.g5.12xlarge:  
`CONTEXT_LENGTH=2000`, `MAX_CONCURRENCY=12` → válido
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=12` → rechazado (el límite de simultaneidad es 6 con una longitud de contexto de 8000)
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=4` → válido
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=6` → válido
`CONTEXT_LENGTH=10000` → rechazado (la longitud máxima del contexto es 8000 en esta instancia)

## Componentes de inferencias
<a name="nova-sagemaker-inference-components"></a>

Puede implementar modelos Amazon Nova mediante componentes de inferencia de SageMaker, que permiten alojar varios modelos en un único punto de conexión y optimizar el uso de los recursos. Los componentes de inferencia permiten especificar los recursos de computación (CPU, memoria y GPU) necesarios para cada modelo, lo que permite alojar varios modelos de forma eficiente en una infraestructura compartida.

La siguiente tabla enumera los requisitos mínimos de recursos de computación para cada modelo Amazon Nova al usar componentes de inferencia:


****  

| Modelo | Núcleos de CPU mínimos | Memoria mínima (MB) | Cantidad mínima de GPU | 
| --- | --- | --- | --- | 
| Amazon Nova Micro | 15 | 25000 | 4 | 
| Amazon Nova Lite | 20 | 35 000 | 4 | 
| Nova 2 Lite | 20 | 100000 | 4 | 

**nota**  
Los valores `ComputeResourceRequirements` deben cumplir o superar los requisitos mínimos indicados en la tabla anterior para el modelo que implemente. El uso de valores inferiores a los mínimos hará que falle la creación del componente de inferencia.  
Puede implementar varios componentes de inferencia en el mismo punto de conexión, siempre que los requisitos totales de recursos no superen la capacidad de la instancia.  
La cantidad de componentes de inferencia que puede alojar en un único punto de conexión depende de los recursos disponibles del tipo de instancia y de los requisitos mínimos de cada modelo. Por ejemplo, en una `ml.p5.48xlarge` (8 GPU, 192 vCPU y aproximadamente 1 TB de memoria):  
1 componente de inferencia Amazon Nova Micro (4 GPU, 15 núcleos de CPU y 25 000 MB) → Válido
2 componentes de inferencia Amazon Nova Micro (8 GPU en total, 30 núcleos de CPU y 50 000 MB) → Válido (se ajusta a la capacidad de la instancia)
1 componente de inferencia Nova 2 Lite (4 GPU, 20 núcleos de CPU y 100 000 MB) → Válido
2 componentes de inferencia Nova 2 Lite (8 GPU en total, 40 núcleos de CPU y 200 000 MB) → Válido
3 componentes de inferencia Amazon Nova Micro (12 GPU en total) → Rechazado (supera las 8 GPU disponibles)

## Regiones de AWS compatibles
<a name="nova-sagemaker-inference-regions"></a>

La siguiente tabla muestra las regiones de AWS en las que los modelos de Amazon Nova están disponibles para Inferencias de SageMaker:


****  

| Nombre de la región | Código de región | Disponibilidad | 
| --- | --- | --- | 
| Este de EE. UU. (Norte de Virginia) | us-east-1 | Disponible | 
| Oeste de EE. UU. (Oregón) | us-west-2 | Disponible | 

## Imágenes de contenedor compatibles
<a name="nova-sagemaker-inference-container-images"></a>

La siguiente tabla muestra los URI de imágenes de contenedor para los modelos de Amazon Nova en Inferencias de SageMaker, organizados por región. La etiqueta `SM-Inference-latest` actualmente apunta a `v1.4`.


****  

| Región | URI de imágenes de contenedor | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## Prácticas recomendadas
<a name="nova-sagemaker-inference-best-practices"></a>

Para obtener información sobre las prácticas recomendadas sobre la implementación y administración de modelos en SageMaker, consulte [Best Practices for SageMaker](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html).

## Soporte
<a name="nova-sagemaker-inference-support"></a>

Si tiene problemas o necesita asistencia con los modelos de Amazon Nova en Inferencias de SageMaker, póngase en contacto con AWS Support a través de la consola o con su administrador de cuentas de AWS.

**Topics**
+ [Características](#nova-sagemaker-inference-features)
+ [Modelos e instancias compatibles](#nova-sagemaker-inference-supported)
+ [Componentes de inferencias](#nova-sagemaker-inference-components)
+ [Regiones de AWS compatibles](#nova-sagemaker-inference-regions)
+ [Imágenes de contenedor compatibles](#nova-sagemaker-inference-container-images)
+ [Prácticas recomendadas](#nova-sagemaker-inference-best-practices)
+ [Soporte](#nova-sagemaker-inference-support)
+ [Introducción](nova-sagemaker-inference-getting-started.md)
+ [Características del contenedor de inferencia](nova-sagemaker-inference-container-features.md)
+ [referencia de la API](nova-sagemaker-inference-api-reference.md)
+ [Evaluación de los modelos alojados en Inferencias de SageMaker](nova-eval-on-sagemaker-inference.md)
+ [Implementación de modelos de Amazon Nova Forge en la detección de abusos de Inferencia de Amazon SageMaker](nova-sagemaker-inference-abuse-detection.md)