# Características del contenedor de inferencia
<a name="nova-sagemaker-inference-container-features"></a>

El contenedor de inferencia Amazon Nova SageMaker incluye un conjunto de características que puede habilitar para personalizar el comportamiento del modelo durante la inferencia. Cada característica se incorpora en una versión específica del contenedor y puede requerir variables de entorno, parámetros de solicitud o ambos para activarse.

Esta página enumera las características disponibles en el contenedor de inferencia, describe cómo habilitar cada una e identifica la versión del contenedor en la que se incorporó cada característica. Use esta referencia para determinar qué características están disponibles para la implementación y cómo configurarlas.

Las características que se habilitan mediante variables de entorno se configuran al crear el modelo de SageMaker o la configuración del punto de conexión. Inclúyalas en el parámetro `Environment` de la llamada a la API [CreateModel](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_CreateModel.html). Las características que se habilitan mediante parámetros de solicitud se configuran para cada invocación en el cuerpo de la solicitud.

**nota**  
Use siempre la imagen de contenedor más reciente para acceder a todas las características disponibles. La etiqueta `SM-Inference-latest` actualmente apunta a `v1.4`.

## Resumen de características
<a name="nova-sagemaker-inference-container-features-summary"></a>

La siguiente tabla proporciona una referencia rápida de todas las características compatibles con el contenedor de inferencia Amazon Nova SageMaker.


**Resumen de características del contenedor de inferencia**  

| Característica | Cómo habilitar | Predeterminado | Modelos compatibles | Presentación | 
| --- | --- | --- | --- | --- | 
| [Temperatura predeterminada](#nova-sagemaker-inference-container-feature-default-temperature) | Variable de entorno | 1.0 | Todos los modelos Amazon Nova | v1.0 | 
| [Valor predeterminado de top-p](#nova-sagemaker-inference-container-feature-default-top-p) | Variable de entorno | 1.0 | Todos los modelos Amazon Nova | v1.0 | 
| [Valor predeterminado de top-k](#nova-sagemaker-inference-container-feature-default-top-k) | Variable de entorno | -1 (deshabilitado) | Todos los modelos Amazon Nova | v1.0 | 
| [Máximo predeterminado de tokens nuevos](#nova-sagemaker-inference-container-feature-default-max-new-tokens) | Variable de entorno | Longitud máxima del contexto del modelo | Todos los modelos Amazon Nova | v1.0 | 
| [Logprobs predeterminado](#nova-sagemaker-inference-container-feature-default-logprobs) | Variable de entorno | Deshabilitado | Todos los modelos Amazon Nova | v1.0 | 
| [Decodificación especulativa Eagle3](#nova-sagemaker-inference-container-feature-speculative-decoding) | Habilitado de forma predeterminada | Habilitado | Todos los modelos Amazon Nova | v1.0 | 
| [Tipo de datos de la caché KV](#nova-sagemaker-inference-container-feature-kv-cache-dtype) | Variable de entorno | Igual que el tipo de datos del modelo | Todos los modelos Amazon Nova | v1.3 | 
| [Cuantización](#nova-sagemaker-inference-container-feature-quantization) | Variable de entorno | Desactivado\* | Todos los modelos Amazon Nova | v1.3 | 
| [Cantidad de tokens especulativos](#nova-sagemaker-inference-container-feature-num-speculative-tokens) | Variable de entorno | 3 | Todos los modelos Amazon Nova | v1.4 | 
| [Decodificación por sufijos](#nova-sagemaker-inference-container-feature-suffix-decoding) | Variable de entorno | Deshabilitado | Todos los modelos Amazon Nova | v1.4 | 

**importante**  
\* La cuantización FP8 se habilita automáticamente y no se puede desactivar para las siguientes combinaciones de modelos y tipos de instancia:  
Amazon Nova Lite en `ml.g6.12xlarge` o `ml.g6.24xlarge`
Nova 2 Lite en `ml.g6.48xlarge`
Para estas configuraciones, no es necesario establecer `QUANTIZATION_DTYPE`. Para obtener más información, consulte [Cuantización](#nova-sagemaker-inference-container-feature-quantization).

## Temperatura predeterminada
<a name="nova-sagemaker-inference-container-feature-default-temperature"></a>

Establece la temperatura de muestreo predeterminada para todas las solicitudes de inferencia enviadas al punto de conexión. La temperatura controla qué tan aleatorios o predecibles son los resultados del modelo. Un valor de `0` hace que el modelo siempre elija la siguiente palabra más probable, lo que produce resultados coherentes y reproducibles. Los valores más altos (hasta `2`) hacen que el modelo tenga mayor disposición a elegir palabras menos probables, lo que produce respuestas más creativas y variadas.

**Cuándo usarla:** reduzca la temperatura (por ejemplo, de `0.1` a `0.3`) para tareas que requieren respuestas fácticas y coherentes, como clasificación o extracción de datos. Auméntela (por ejemplo, de `0.7` a `1.0`) para tareas creativas, como redacción de historias o lluvia de ideas. La temperatura funciona junto con top-p y top-k; los tres controlan cómo el modelo selecciona tokens. Puede combinar estos parámetros para refinar el comportamiento de los resultados.

Presentación  
`v1.0`

Modelos compatibles  
Todos los modelos Amazon Nova

Cómo habilitar  
Configure la variable de entorno `DEFAULT_TEMPERATURE` al crear el modelo de SageMaker.

Predeterminado  
`1.0`

Valores válidos  
Valor decimal entre `0` y `2` (inclusive)

**Variable de entorno**

```
"Environment": {
    "DEFAULT_TEMPERATURE": "0.7"
}
```

**nota**  
Puede reemplazar este valor predeterminado para cada solicitud mediante la inclusión del parámetro `temperature` en el cuerpo de la solicitud.

## Valor predeterminado de top-p
<a name="nova-sagemaker-inference-container-feature-default-top-p"></a>

Establece el valor predeterminado de top-p para todas las solicitudes de inferencia. Top-p controla la diversidad de la salida al limitar las opciones del modelo a un subconjunto de las palabras más probables. En concreto, el modelo ordena todas las posibles palabras siguientes según su probabilidad y solo considera el grupo más pequeño cuya probabilidad combinada alcanza el valor de top-p. Por ejemplo, un valor de top-p de `0.9` significa que el modelo solo tiene en cuenta las palabras que, en conjunto, representan el 90 % de la probabilidad, sin tener en cuenta el resto de opciones poco probables.

**Cuándo usarlo:** use un valor de top-p más bajo (por ejemplo, `0.5`) para hacer que el modelo se limite a palabras de alta confianza y produzca una salida más enfocada. Use un valor más alto (por ejemplo, `0.95`) para permitir mayor variedad. Top-p se utiliza con frecuencia como alternativa a la temperatura: ambos regulan la variedad del resultado, pero top-p se adapta dinámicamente en función del nivel de confianza del modelo en cada paso. Puede usar ambos juntos; en ese caso, el modelo aplica la restricción que sea más restrictiva en cada paso.

Presentación  
`v1.0`

Modelos compatibles  
Todos los modelos Amazon Nova

Cómo habilitar  
Configure la variable de entorno `DEFAULT_TOP_P` al crear el modelo de SageMaker.

Predeterminado  
`1.0`

Valores válidos  
Valor decimal entre `1e-10` y `1` (inclusive)

**Variable de entorno**

```
"Environment": {
    "DEFAULT_TOP_P": "0.9"
}
```

**nota**  
Puede reemplazar este valor predeterminado para cada solicitud mediante la inclusión del parámetro `top_p` en el cuerpo de la solicitud.

## Valor predeterminado de top-k
<a name="nova-sagemaker-inference-container-feature-default-top-k"></a>

Establece el valor predeterminado de top-k para todas las solicitudes de inferencia. Top-k limita las opciones del modelo a un número fijo de las palabras siguientes más probables. Por ejemplo, un valor de top-k de `50` significa que el modelo solo considera las 50 palabras más probables en cada paso, independientemente de sus probabilidades individuales. Un valor de `-1` desactiva este límite y permite que el modelo considere todas las palabras posibles.

**Cuándo usarlo**: use top-k cuando desee establecer un límite estricto en la cantidad de opciones de palabras que el modelo considera. Los valores más bajos (por ejemplo, `10`) producen resultados más predecibles, mientras que los valores más altos permiten una mayor variedad. Top-k se puede combinar con la temperatura y top-p; cuando hay varios controles de muestreo activos, el modelo aplica todos estos y utiliza el que sea más restrictivo en cada paso.

Presentación  
`v1.0`

Modelos compatibles  
Todos los modelos Amazon Nova

Cómo habilitar  
Configure la variable de entorno `DEFAULT_TOP_K` al crear el modelo de SageMaker.

Predeterminado  
`-1` (deshabilitado)

Valores válidos  
Entero, `-1` o superior. Use `-1` para considerar todos los tokens.

**Variable de entorno**

```
"Environment": {
    "DEFAULT_TOP_K": "50"
}
```

**nota**  
Puede reemplazar este valor predeterminado para cada solicitud mediante la inclusión del parámetro `top_k` en el cuerpo de la solicitud.

## Máximo predeterminado de tokens nuevos
<a name="nova-sagemaker-inference-container-feature-default-max-new-tokens"></a>

Establece la cantidad máxima predeterminada de tokens (palabras o fragmentos de palabras) que el modelo genera en una respuesta. Este valor se aplica a todas las solicitudes, a menos que se reemplace. Úselo para controlar la longitud de las respuestas y administrar los costos en el punto de conexión.

**Cuándo usarlo**: establezca este valor cuando desee imponer una longitud máxima coherente para las respuestas en todas las solicitudes. Por ejemplo, configúrelo en `256` para tareas de respuestas cortas o en `2048` para la generación de contenido más extenso. El valor máximo permitido depende de la `CONTEXT_LENGTH` configurada para el punto de conexión, ya que la suma de los tokens de entrada y salida no puede superar la longitud de contexto.

Presentación  
`v1.0`

Modelos compatibles  
Todos los modelos Amazon Nova

Cómo habilitar  
Configure la variable de entorno `DEFAULT_MAX_NEW_TOKENS` al crear el modelo de SageMaker.

Predeterminado  
Longitud máxima de contexto del modelo

Valores válidos  
Entero, `1` o superior

**Variable de entorno**

```
"Environment": {
    "DEFAULT_MAX_NEW_TOKENS": "512"
}
```

**nota**  
Puede reemplazar este valor predeterminado por solicitud al incluir el parámetro `max_tokens` o `max_completion_tokens` en el cuerpo de la solicitud. El valor máximo permitido depende de la `CONTEXT_LENGTH` configurada para el punto de conexión.

## Logprobs predeterminado
<a name="nova-sagemaker-inference-container-feature-default-logprobs"></a>

Establece la cantidad predeterminada de probabilidades logarítmicas que se devolverán para cada token generado. Una probabilidad logarítmica es un valor numérico que refleja el nivel de confianza que tiene el modelo al elegir cada palabra. Cuando esta opción está habilitada, la respuesta incluye estas puntuaciones para cada token de resultado, lo cual es útil para evaluar la confianza del modelo, comparar alternativas de palabras y depurar el comportamiento de generación.

**Cuándo usarlo**: habilite logprobs cuando necesite evaluar el nivel de confianza que tiene el modelo en sus resultados; por ejemplo, para identificar respuestas con baja confianza para revisión humana o para comparar la probabilidad de distintas finalizaciones. Habilitar logprobs puede aumentar ligeramente la latencia de la respuesta y el tamaño de la carga útil.

Presentación  
`v1.0`

Modelos compatibles  
Todos los modelos Amazon Nova

Cómo habilitar  
Configure la variable de entorno `DEFAULT_LOGPROBS` al crear el modelo de SageMaker.

Predeterminado  
Deshabilitado

Valores válidos  
Entero entre `1` y `20` (inclusive)

**Variable de entorno**

```
"Environment": {
    "DEFAULT_LOGPROBS": "5"
}
```

**nota**  
Puede reemplazar este valor predeterminado por solicitud al incluir los parámetros `logprobs` y `top_logprobs` en el cuerpo de la solicitud. Habilitar logprobs puede aumentar ligeramente la latencia de la respuesta.

## Decodificación especulativa Eagle3
<a name="nova-sagemaker-inference-container-feature-speculative-decoding"></a>

La decodificación especulativa Eagle3 es una técnica de optimización que acelera la generación de texto. Funciona mediante el uso de un modelo preliminar más pequeño y rápido para predecir varios tokens por adelantado y luego verificar esas predicciones con el modelo principal en un solo paso. Cuando las predicciones son correctas, el modelo genera efectivamente varios tokens en el tiempo que normalmente tardaría en generar uno solo. El modelo principal siempre verifica los tokens preliminares, por lo que el resultado final es idéntico al que produciría el modelo principal por sí solo; solo cambia la velocidad, no la calidad.

**Cuándo usarlo**: la decodificación especulativa Eagle3 está habilitada de forma predeterminada y beneficia a la mayoría de las cargas de trabajo. Considere desactivarla solo si observa un comportamiento inesperado o necesita aislar características de rendimiento durante la depuración.

Presentación  
`v1.0`. Se agregó compatibilidad con la cuantización FP8 mediante la decodificación especulativa Eagle3 en `v1.4`.

Modelos compatibles  
Todos los modelos Amazon Nova

Cómo habilitar  
La decodificación especulativa Eagle3 está habilitada de forma predeterminada y no requiere ninguna configuración. Use `DISABLE_SPECULATIVE_DECODING` para desactivarla.

Predeterminado  
`false` (decodificación especulativa Eagle3 habilitada)

Valores válidos  
`true`, `false`

**Variable de entorno**

El siguiente ejemplo desactiva la decodificación especulativa Eagle3:

```
"Environment": {
    "DISABLE_SPECULATIVE_DECODING": "true"
}
```

## Tipo de datos de la caché KV
<a name="nova-sagemaker-inference-container-feature-kv-cache-dtype"></a>

Establece el tipo de datos de la caché clave-valor (KV) utilizada durante la inferencia. La caché KV almacena la memoria del modelo de los tokens anteriores de una conversación, lo que le permite generar cada token nuevo sin reprocesar toda la entrada. En secuencias largas, esta caché puede consumir una cantidad significativa de memoria de GPU. Usar un tipo de datos de menor precisión para la caché KV, como FP8, reduce el uso de memoria y puede mejorar el rendimiento, aunque a costa de pequeñas diferencias numéricas en el resultado.

**Cuándo usarlo:** habilite la caché KV FP8 cuando necesite admitir longitudes de contexto más extensas o una mayor simultaneidad en la instancia. Esto resulta especialmente útil en instancias de GPU con memoria limitada. Pruebe su caso de uso para verificar que la calidad del resultado cumpla con los requisitos, ya que una menor precisión puede producir resultados ligeramente distintos.

Presentación  
`v1.3`

Modelos compatibles  
Todos los modelos Amazon Nova

Cómo habilitar  
Configure la variable de entorno `KV_CACHE_DTYPE` al crear el modelo de SageMaker.

Predeterminado  
Igual que el tipo de datos del modelo

Valores válidos  
`fp8`

**Variable de entorno**

```
"Environment": {
    "KV_CACHE_DTYPE": "fp8"
}
```

**nota**  
Es posible que cambiar el tipo de datos de la caché KV produzca resultados ligeramente distintos en comparación con la precisión predeterminada. Pruebe su caso de uso para verificar que la calidad del resultado cumpla con los requisitos.

## Cuantización
<a name="nova-sagemaker-inference-container-feature-quantization"></a>

Establece el tipo de datos de cuantización para las ponderaciones del modelo. La cuantización comprime las ponderaciones del modelo en un formato de menor precisión (FP8 en lugar de la precisión superior predeterminada), lo que reduce la cantidad de memoria de GPU que requiere el modelo. Esto puede mejorar el rendimiento de la inferencia y permitir que modelos más grandes se ejecuten en tipos de instancia más pequeños, con un impacto mínimo en la calidad del resultado.

**Cuándo usarlo:** use la cuantización FP8 cuando desee reducir el uso de memoria para admitir una mayor simultaneidad o permitir que un modelo se ejecute en un tipo de instancia más pequeño. Tenga en cuenta que algunas combinaciones de modelos y tipos de instancia requieren cuantización FP8 de forma automática; consulte la advertencia que aparece a continuación.

Presentación  
`v1.3`

Modelos compatibles  
Todos los modelos Amazon Nova

Cómo habilitar  
Configure la variable de entorno `QUANTIZATION_DTYPE` al crear el modelo de SageMaker.

Predeterminado  
Deshabilitada. Sin embargo, la cuantización FP8 se habilita automáticamente para determinadas combinaciones de modelos y tipos de instancia. Consulte la nota que se muestra a continuación.

Valores válidos  
`fp8`

**Variable de entorno**

```
"Environment": {
    "QUANTIZATION_DTYPE": "fp8"
}
```

**importante**  
Las siguientes combinaciones de modelos y tipos de instancia requieren cuantización FP8. En estas configuraciones, la cuantización se habilita automáticamente y no se puede deshabilitar ni reemplazar:  
Amazon Nova Lite en `ml.g6.12xlarge` o `ml.g6.24xlarge`
Nova 2 Lite en `ml.g6.48xlarge`
Para todas las demás configuraciones, consulte [Modelos e instancias compatibles](nova-model-sagemaker-inference.md#nova-sagemaker-inference-supported) para obtener más información.

## Cantidad de tokens especulativos
<a name="nova-sagemaker-inference-container-feature-num-speculative-tokens"></a>

Controla cuántos tokens el modelo preliminar predice por adelantado durante cada paso de la decodificación especulativa Eagle3. Un valor más alto significa que el modelo preliminar intenta predecir más tokens a la vez, lo que puede mejorar el rendimiento cuando las predicciones son precisas. Si las predicciones del modelo preliminar suelen diferir de las del modelo principal, un valor más bajo puede resultar más eficiente.

**Cuándo usarlo:** aumente este valor cuando la carga de trabajo produzca patrones de resultados predecibles (por ejemplo, datos estructurados o texto basado en plantillas), en los que sea probable que el modelo preliminar acierte. Redúzcalo en resultados creativos o muy variables, donde las predicciones son menos confiables.

Presentación  
`v1.4`

Modelos compatibles  
Todos los modelos Amazon Nova

Cómo habilitar  
Configure la variable de entorno `NUM_SPECULATIVE_TOKENS` al crear el modelo de SageMaker.

Predeterminado  
`3`

Valores válidos  
Entero entre `1` y `10` (inclusive)

**Variable de entorno**

```
"Environment": {
    "NUM_SPECULATIVE_TOKENS": "5"
}
```

**nota**  
Esta configuración solo se aplica cuando la decodificación especulativa Eagle3 está habilitada (`DISABLE_SPECULATIVE_DECODING` es `false`). No tiene efecto cuando la decodificación especulativa está deshabilitada o cuando se utiliza la decodificación por sufijos.

## Decodificación por sufijos
<a name="nova-sagemaker-inference-container-feature-suffix-decoding"></a>

La decodificación por sufijos es un método alternativo para acelerar la generación de texto. En lugar de utilizar un modelo preliminar independiente (como hace Eagle3), la decodificación por sufijos busca patrones repetidos en el texto ya generado o en la petición de entrada y reutiliza esos patrones para predecir tokens futuros. Este enfoque funciona bien cuando es probable que el resultado contenga frases repetidas, formatos estructurados o contenido que refleje estrechamente la entrada.

**Cuándo usarlo:** use la decodificación por sufijos para tareas en las que el resultado contenga patrones repetitivos, como la generación de datos estructurados, el llenado de plantillas o el resumen de contenido que reutiliza frases del origen. Para la generación de uso general, donde el resultado es muy variable, el método Eagle3 predeterminado suele ofrecer un mejor rendimiento.

Presentación  
`v1.4`

Modelos compatibles  
Todos los modelos Amazon Nova

Cómo habilitar  
Configure la variable de entorno `SPECULATIVE_DECODING_METHOD` con el valor `suffix` al crear el modelo de SageMaker.

Predeterminado  
`eagle3`

Valores válidos  
`eagle3`, `suffix`

**Variable de entorno**

```
"Environment": {
    "SPECULATIVE_DECODING_METHOD": "suffix"
}
```

**nota**  
Para usar la decodificación por sufijos, `DISABLE_SPECULATIVE_DECODING` se debe establecer en `false` (predeterminado). Establecer `DISABLE_SPECULATIVE_DECODING` en `true` deshabilita todos los métodos de decodificación especulativa, incluida la decodificación por sufijos.