Resumen de características Temperatura predeterminada Valor predeterminado de top-p Valor predeterminado de top-k Máximo predeterminado de tokens nuevos Logprobs predeterminado Decodificación especulativa Eagle3 Tipo de datos de la caché KV Cuantización Cantidad de tokens especulativos Decodificación por sufijos

Características del contenedor de inferencia

El contenedor de inferencia Amazon Nova SageMaker incluye un conjunto de características que puede habilitar para personalizar el comportamiento del modelo durante la inferencia. Cada característica se incorpora en una versión específica del contenedor y puede requerir variables de entorno, parámetros de solicitud o ambos para activarse.

Esta página enumera las características disponibles en el contenedor de inferencia, describe cómo habilitar cada una e identifica la versión del contenedor en la que se incorporó cada característica. Use esta referencia para determinar qué características están disponibles para la implementación y cómo configurarlas.

Las características que se habilitan mediante variables de entorno se configuran al crear el modelo de SageMaker o la configuración del punto de conexión. Inclúyalas en el parámetro Environment de la llamada a la API CreateModel. Las características que se habilitan mediante parámetros de solicitud se configuran para cada invocación en el cuerpo de la solicitud.

nota

Use siempre la imagen de contenedor más reciente para acceder a todas las características disponibles. La etiqueta SM-Inference-latest actualmente apunta a v1.4.

Resumen de características

La siguiente tabla proporciona una referencia rápida de todas las características compatibles con el contenedor de inferencia Amazon Nova SageMaker.

Resumen de características del contenedor de inferencia
Característica	Cómo habilitar	Predeterminado	Modelos compatibles	Presentación
Temperatura predeterminada	Variable de entorno	`1.0`	Todos los modelos Amazon Nova	v1.0
Valor predeterminado de top-p	Variable de entorno	`1.0`	Todos los modelos Amazon Nova	v1.0
Valor predeterminado de top-k	Variable de entorno	`-1` (deshabilitado)	Todos los modelos Amazon Nova	v1.0
Máximo predeterminado de tokens nuevos	Variable de entorno	Longitud máxima del contexto del modelo	Todos los modelos Amazon Nova	v1.0
Logprobs predeterminado	Variable de entorno	Deshabilitado	Todos los modelos Amazon Nova	v1.0
Decodificación especulativa Eagle3	Habilitado de forma predeterminada	Habilitado	Todos los modelos Amazon Nova	v1.0
Tipo de datos de la caché KV	Variable de entorno	Igual que el tipo de datos del modelo	Todos los modelos Amazon Nova	v1.3
Cuantización	Variable de entorno	Desactivado*	Todos los modelos Amazon Nova	v1.3
Cantidad de tokens especulativos	Variable de entorno	`3`	Todos los modelos Amazon Nova	v1.4
Decodificación por sufijos	Variable de entorno	Deshabilitado	Todos los modelos Amazon Nova	v1.4

importante

* La cuantización FP8 se habilita automáticamente y no se puede desactivar para las siguientes combinaciones de modelos y tipos de instancia:

Amazon Nova Lite en ml.g6.12xlarge o ml.g6.24xlarge
Nova 2 Lite en ml.g6.48xlarge

Para estas configuraciones, no es necesario establecer QUANTIZATION_DTYPE. Para obtener más información, consulte Cuantización.

Temperatura predeterminada

Establece la temperatura de muestreo predeterminada para todas las solicitudes de inferencia enviadas al punto de conexión. La temperatura controla qué tan aleatorios o predecibles son los resultados del modelo. Un valor de 0 hace que el modelo siempre elija la siguiente palabra más probable, lo que produce resultados coherentes y reproducibles. Los valores más altos (hasta 2) hacen que el modelo tenga mayor disposición a elegir palabras menos probables, lo que produce respuestas más creativas y variadas.

Cuándo usarla: reduzca la temperatura (por ejemplo, de 0.1 a 0.3) para tareas que requieren respuestas fácticas y coherentes, como clasificación o extracción de datos. Auméntela (por ejemplo, de 0.7 a 1.0) para tareas creativas, como redacción de historias o lluvia de ideas. La temperatura funciona junto con top-p y top-k; los tres controlan cómo el modelo selecciona tokens. Puede combinar estos parámetros para refinar el comportamiento de los resultados.

Presentación: v1.0
Modelos compatibles: Todos los modelos Amazon Nova
Cómo habilitar: Configure la variable de entorno DEFAULT_TEMPERATURE al crear el modelo de SageMaker.
Predeterminado: 1.0
Valores válidos: Valor decimal entre 0 y 2 (inclusive)

Variable de entorno


"Environment": {
    "DEFAULT_TEMPERATURE": "0.7"
}

nota

Puede reemplazar este valor predeterminado para cada solicitud mediante la inclusión del parámetro temperature en el cuerpo de la solicitud.

Valor predeterminado de top-p

Establece el valor predeterminado de top-p para todas las solicitudes de inferencia. Top-p controla la diversidad de la salida al limitar las opciones del modelo a un subconjunto de las palabras más probables. En concreto, el modelo ordena todas las posibles palabras siguientes según su probabilidad y solo considera el grupo más pequeño cuya probabilidad combinada alcanza el valor de top-p. Por ejemplo, un valor de top-p de 0.9 significa que el modelo solo tiene en cuenta las palabras que, en conjunto, representan el 90 % de la probabilidad, sin tener en cuenta el resto de opciones poco probables.

Cuándo usarlo: use un valor de top-p más bajo (por ejemplo, 0.5) para hacer que el modelo se limite a palabras de alta confianza y produzca una salida más enfocada. Use un valor más alto (por ejemplo, 0.95) para permitir mayor variedad. Top-p se utiliza con frecuencia como alternativa a la temperatura: ambos regulan la variedad del resultado, pero top-p se adapta dinámicamente en función del nivel de confianza del modelo en cada paso. Puede usar ambos juntos; en ese caso, el modelo aplica la restricción que sea más restrictiva en cada paso.

Presentación: v1.0
Modelos compatibles: Todos los modelos Amazon Nova
Cómo habilitar: Configure la variable de entorno DEFAULT_TOP_P al crear el modelo de SageMaker.
Predeterminado: 1.0
Valores válidos: Valor decimal entre 1e-10 y 1 (inclusive)

Variable de entorno


"Environment": {
    "DEFAULT_TOP_P": "0.9"
}

nota

Puede reemplazar este valor predeterminado para cada solicitud mediante la inclusión del parámetro top_p en el cuerpo de la solicitud.

Valor predeterminado de top-k

Establece el valor predeterminado de top-k para todas las solicitudes de inferencia. Top-k limita las opciones del modelo a un número fijo de las palabras siguientes más probables. Por ejemplo, un valor de top-k de 50 significa que el modelo solo considera las 50 palabras más probables en cada paso, independientemente de sus probabilidades individuales. Un valor de -1 desactiva este límite y permite que el modelo considere todas las palabras posibles.

Cuándo usarlo: use top-k cuando desee establecer un límite estricto en la cantidad de opciones de palabras que el modelo considera. Los valores más bajos (por ejemplo, 10) producen resultados más predecibles, mientras que los valores más altos permiten una mayor variedad. Top-k se puede combinar con la temperatura y top-p; cuando hay varios controles de muestreo activos, el modelo aplica todos estos y utiliza el que sea más restrictivo en cada paso.

Presentación: v1.0
Modelos compatibles: Todos los modelos Amazon Nova
Cómo habilitar: Configure la variable de entorno DEFAULT_TOP_K al crear el modelo de SageMaker.
Predeterminado: -1 (deshabilitado)
Valores válidos: Entero, -1 o superior. Use -1 para considerar todos los tokens.

Variable de entorno


"Environment": {
    "DEFAULT_TOP_K": "50"
}

nota

Puede reemplazar este valor predeterminado para cada solicitud mediante la inclusión del parámetro top_k en el cuerpo de la solicitud.

Máximo predeterminado de tokens nuevos

Establece la cantidad máxima predeterminada de tokens (palabras o fragmentos de palabras) que el modelo genera en una respuesta. Este valor se aplica a todas las solicitudes, a menos que se reemplace. Úselo para controlar la longitud de las respuestas y administrar los costos en el punto de conexión.

Cuándo usarlo: establezca este valor cuando desee imponer una longitud máxima coherente para las respuestas en todas las solicitudes. Por ejemplo, configúrelo en 256 para tareas de respuestas cortas o en 2048 para la generación de contenido más extenso. El valor máximo permitido depende de la CONTEXT_LENGTH configurada para el punto de conexión, ya que la suma de los tokens de entrada y salida no puede superar la longitud de contexto.

Presentación: v1.0
Modelos compatibles: Todos los modelos Amazon Nova
Cómo habilitar: Configure la variable de entorno DEFAULT_MAX_NEW_TOKENS al crear el modelo de SageMaker.
Predeterminado: Longitud máxima de contexto del modelo
Valores válidos: Entero, 1 o superior

Variable de entorno


"Environment": {
    "DEFAULT_MAX_NEW_TOKENS": "512"
}

nota

Puede reemplazar este valor predeterminado por solicitud al incluir el parámetro max_tokens o max_completion_tokens en el cuerpo de la solicitud. El valor máximo permitido depende de la CONTEXT_LENGTH configurada para el punto de conexión.

Logprobs predeterminado

Establece la cantidad predeterminada de probabilidades logarítmicas que se devolverán para cada token generado. Una probabilidad logarítmica es un valor numérico que refleja el nivel de confianza que tiene el modelo al elegir cada palabra. Cuando esta opción está habilitada, la respuesta incluye estas puntuaciones para cada token de resultado, lo cual es útil para evaluar la confianza del modelo, comparar alternativas de palabras y depurar el comportamiento de generación.

Cuándo usarlo: habilite logprobs cuando necesite evaluar el nivel de confianza que tiene el modelo en sus resultados; por ejemplo, para identificar respuestas con baja confianza para revisión humana o para comparar la probabilidad de distintas finalizaciones. Habilitar logprobs puede aumentar ligeramente la latencia de la respuesta y el tamaño de la carga útil.

Presentación: v1.0
Modelos compatibles: Todos los modelos Amazon Nova
Cómo habilitar: Configure la variable de entorno DEFAULT_LOGPROBS al crear el modelo de SageMaker.
Predeterminado: Deshabilitado
Valores válidos: Entero entre 1 y 20 (inclusive)

Variable de entorno


"Environment": {
    "DEFAULT_LOGPROBS": "5"
}

nota

Puede reemplazar este valor predeterminado por solicitud al incluir los parámetros logprobs y top_logprobs en el cuerpo de la solicitud. Habilitar logprobs puede aumentar ligeramente la latencia de la respuesta.

Decodificación especulativa Eagle3

La decodificación especulativa Eagle3 es una técnica de optimización que acelera la generación de texto. Funciona mediante el uso de un modelo preliminar más pequeño y rápido para predecir varios tokens por adelantado y luego verificar esas predicciones con el modelo principal en un solo paso. Cuando las predicciones son correctas, el modelo genera efectivamente varios tokens en el tiempo que normalmente tardaría en generar uno solo. El modelo principal siempre verifica los tokens preliminares, por lo que el resultado final es idéntico al que produciría el modelo principal por sí solo; solo cambia la velocidad, no la calidad.

Cuándo usarlo: la decodificación especulativa Eagle3 está habilitada de forma predeterminada y beneficia a la mayoría de las cargas de trabajo. Considere desactivarla solo si observa un comportamiento inesperado o necesita aislar características de rendimiento durante la depuración.

Presentación: v1.0. Se agregó compatibilidad con la cuantización FP8 mediante la decodificación especulativa Eagle3 en v1.4.
Modelos compatibles: Todos los modelos Amazon Nova
Cómo habilitar: La decodificación especulativa Eagle3 está habilitada de forma predeterminada y no requiere ninguna configuración. Use DISABLE_SPECULATIVE_DECODING para desactivarla.
Predeterminado: false (decodificación especulativa Eagle3 habilitada)
Valores válidos: true, false

Variable de entorno

El siguiente ejemplo desactiva la decodificación especulativa Eagle3:


"Environment": {
    "DISABLE_SPECULATIVE_DECODING": "true"
}

Tipo de datos de la caché KV

Establece el tipo de datos de la caché clave-valor (KV) utilizada durante la inferencia. La caché KV almacena la memoria del modelo de los tokens anteriores de una conversación, lo que le permite generar cada token nuevo sin reprocesar toda la entrada. En secuencias largas, esta caché puede consumir una cantidad significativa de memoria de GPU. Usar un tipo de datos de menor precisión para la caché KV, como FP8, reduce el uso de memoria y puede mejorar el rendimiento, aunque a costa de pequeñas diferencias numéricas en el resultado.

Cuándo usarlo: habilite la caché KV FP8 cuando necesite admitir longitudes de contexto más extensas o una mayor simultaneidad en la instancia. Esto resulta especialmente útil en instancias de GPU con memoria limitada. Pruebe su caso de uso para verificar que la calidad del resultado cumpla con los requisitos, ya que una menor precisión puede producir resultados ligeramente distintos.

Presentación: v1.3
Modelos compatibles: Todos los modelos Amazon Nova
Cómo habilitar: Configure la variable de entorno KV_CACHE_DTYPE al crear el modelo de SageMaker.
Predeterminado: Igual que el tipo de datos del modelo
Valores válidos: fp8

Variable de entorno


"Environment": {
    "KV_CACHE_DTYPE": "fp8"
}

nota

Es posible que cambiar el tipo de datos de la caché KV produzca resultados ligeramente distintos en comparación con la precisión predeterminada. Pruebe su caso de uso para verificar que la calidad del resultado cumpla con los requisitos.

Cuantización

Establece el tipo de datos de cuantización para las ponderaciones del modelo. La cuantización comprime las ponderaciones del modelo en un formato de menor precisión (FP8 en lugar de la precisión superior predeterminada), lo que reduce la cantidad de memoria de GPU que requiere el modelo. Esto puede mejorar el rendimiento de la inferencia y permitir que modelos más grandes se ejecuten en tipos de instancia más pequeños, con un impacto mínimo en la calidad del resultado.

Cuándo usarlo: use la cuantización FP8 cuando desee reducir el uso de memoria para admitir una mayor simultaneidad o permitir que un modelo se ejecute en un tipo de instancia más pequeño. Tenga en cuenta que algunas combinaciones de modelos y tipos de instancia requieren cuantización FP8 de forma automática; consulte la advertencia que aparece a continuación.

Presentación: v1.3
Modelos compatibles: Todos los modelos Amazon Nova
Cómo habilitar: Configure la variable de entorno QUANTIZATION_DTYPE al crear el modelo de SageMaker.
Predeterminado: Deshabilitada. Sin embargo, la cuantización FP8 se habilita automáticamente para determinadas combinaciones de modelos y tipos de instancia. Consulte la nota que se muestra a continuación.
Valores válidos: fp8

Variable de entorno


"Environment": {
    "QUANTIZATION_DTYPE": "fp8"
}

importante

Las siguientes combinaciones de modelos y tipos de instancia requieren cuantización FP8. En estas configuraciones, la cuantización se habilita automáticamente y no se puede deshabilitar ni reemplazar:

Amazon Nova Lite en ml.g6.12xlarge o ml.g6.24xlarge
Nova 2 Lite en ml.g6.48xlarge

Para todas las demás configuraciones, consulte Modelos e instancias compatibles para obtener más información.

Cantidad de tokens especulativos

Controla cuántos tokens el modelo preliminar predice por adelantado durante cada paso de la decodificación especulativa Eagle3. Un valor más alto significa que el modelo preliminar intenta predecir más tokens a la vez, lo que puede mejorar el rendimiento cuando las predicciones son precisas. Si las predicciones del modelo preliminar suelen diferir de las del modelo principal, un valor más bajo puede resultar más eficiente.

Cuándo usarlo: aumente este valor cuando la carga de trabajo produzca patrones de resultados predecibles (por ejemplo, datos estructurados o texto basado en plantillas), en los que sea probable que el modelo preliminar acierte. Redúzcalo en resultados creativos o muy variables, donde las predicciones son menos confiables.

Presentación: v1.4
Modelos compatibles: Todos los modelos Amazon Nova
Cómo habilitar: Configure la variable de entorno NUM_SPECULATIVE_TOKENS al crear el modelo de SageMaker.
Predeterminado: 3
Valores válidos: Entero entre 1 y 10 (inclusive)

Variable de entorno


"Environment": {
    "NUM_SPECULATIVE_TOKENS": "5"
}

nota

Esta configuración solo se aplica cuando la decodificación especulativa Eagle3 está habilitada (DISABLE_SPECULATIVE_DECODING es false). No tiene efecto cuando la decodificación especulativa está deshabilitada o cuando se utiliza la decodificación por sufijos.

Decodificación por sufijos

La decodificación por sufijos es un método alternativo para acelerar la generación de texto. En lugar de utilizar un modelo preliminar independiente (como hace Eagle3), la decodificación por sufijos busca patrones repetidos en el texto ya generado o en la petición de entrada y reutiliza esos patrones para predecir tokens futuros. Este enfoque funciona bien cuando es probable que el resultado contenga frases repetidas, formatos estructurados o contenido que refleje estrechamente la entrada.

Cuándo usarlo: use la decodificación por sufijos para tareas en las que el resultado contenga patrones repetitivos, como la generación de datos estructurados, el llenado de plantillas o el resumen de contenido que reutiliza frases del origen. Para la generación de uso general, donde el resultado es muy variable, el método Eagle3 predeterminado suele ofrecer un mejor rendimiento.

Presentación: v1.4
Modelos compatibles: Todos los modelos Amazon Nova
Cómo habilitar: Configure la variable de entorno SPECULATIVE_DECODING_METHOD con el valor suffix al crear el modelo de SageMaker.
Predeterminado: eagle3
Valores válidos: eagle3, suffix

Variable de entorno


"Environment": {
    "SPECULATIVE_DECODING_METHOD": "suffix"
}

nota

Para usar la decodificación por sufijos, DISABLE_SPECULATIVE_DECODING se debe establecer en false (predeterminado). Establecer DISABLE_SPECULATIVE_DECODING en true deshabilita todos los métodos de decodificación especulativa, incluida la decodificación por sufijos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Introducción

Referencia de la API