Características del contenedor de inferencia
El contenedor de inferencia Amazon Nova SageMaker incluye un conjunto de características que puede habilitar para personalizar el comportamiento del modelo durante la inferencia. Cada característica se incorpora en una versión específica del contenedor y puede requerir variables de entorno, parámetros de solicitud o ambos para activarse.
Esta página enumera las características disponibles en el contenedor de inferencia, describe cómo habilitar cada una e identifica la versión del contenedor en la que se incorporó cada característica. Use esta referencia para determinar qué características están disponibles para la implementación y cómo configurarlas.
Las características que se habilitan mediante variables de entorno se configuran al crear el modelo de SageMaker o la configuración del punto de conexión. Inclúyalas en el parámetro Environment de la llamada a la API CreateModel. Las características que se habilitan mediante parámetros de solicitud se configuran para cada invocación en el cuerpo de la solicitud.
nota
Use siempre la imagen de contenedor más reciente para acceder a todas las características disponibles. La etiqueta SM-Inference-latest actualmente apunta a v1.4.
Resumen de características
La siguiente tabla proporciona una referencia rápida de todas las características compatibles con el contenedor de inferencia Amazon Nova SageMaker.
| Característica | Cómo habilitar | Predeterminado | Modelos compatibles | Presentación |
|---|---|---|---|---|
| Temperatura predeterminada | Variable de entorno | 1.0 |
Todos los modelos Amazon Nova | v1.0 |
| Valor predeterminado de top-p | Variable de entorno | 1.0 |
Todos los modelos Amazon Nova | v1.0 |
| Valor predeterminado de top-k | Variable de entorno | -1 (deshabilitado) |
Todos los modelos Amazon Nova | v1.0 |
| Máximo predeterminado de tokens nuevos | Variable de entorno | Longitud máxima del contexto del modelo | Todos los modelos Amazon Nova | v1.0 |
| Logprobs predeterminado | Variable de entorno | Deshabilitado | Todos los modelos Amazon Nova | v1.0 |
| Decodificación especulativa Eagle3 | Habilitado de forma predeterminada | Habilitado | Todos los modelos Amazon Nova | v1.0 |
| Tipo de datos de la caché KV | Variable de entorno | Igual que el tipo de datos del modelo | Todos los modelos Amazon Nova | v1.3 |
| Cuantización | Variable de entorno | Desactivado* | Todos los modelos Amazon Nova | v1.3 |
| Cantidad de tokens especulativos | Variable de entorno | 3 |
Todos los modelos Amazon Nova | v1.4 |
| Decodificación por sufijos | Variable de entorno | Deshabilitado | Todos los modelos Amazon Nova | v1.4 |
importante
* La cuantización FP8 se habilita automáticamente y no se puede desactivar para las siguientes combinaciones de modelos y tipos de instancia:
-
Amazon Nova Lite en
ml.g6.12xlargeoml.g6.24xlarge -
Nova 2 Lite en
ml.g6.48xlarge
Para estas configuraciones, no es necesario establecer QUANTIZATION_DTYPE. Para obtener más información, consulte Cuantización.
Temperatura predeterminada
Establece la temperatura de muestreo predeterminada para todas las solicitudes de inferencia enviadas al punto de conexión. La temperatura controla qué tan aleatorios o predecibles son los resultados del modelo. Un valor de 0 hace que el modelo siempre elija la siguiente palabra más probable, lo que produce resultados coherentes y reproducibles. Los valores más altos (hasta 2) hacen que el modelo tenga mayor disposición a elegir palabras menos probables, lo que produce respuestas más creativas y variadas.
Cuándo usarla: reduzca la temperatura (por ejemplo, de 0.1 a 0.3) para tareas que requieren respuestas fácticas y coherentes, como clasificación o extracción de datos. Auméntela (por ejemplo, de 0.7 a 1.0) para tareas creativas, como redacción de historias o lluvia de ideas. La temperatura funciona junto con top-p y top-k; los tres controlan cómo el modelo selecciona tokens. Puede combinar estos parámetros para refinar el comportamiento de los resultados.
- Presentación
v1.0- Modelos compatibles
Todos los modelos Amazon Nova
- Cómo habilitar
-
Configure la variable de entorno
DEFAULT_TEMPERATUREal crear el modelo de SageMaker. - Predeterminado
1.0- Valores válidos
Valor decimal entre
0y2(inclusive)
Variable de entorno
"Environment": { "DEFAULT_TEMPERATURE": "0.7" }
nota
Puede reemplazar este valor predeterminado para cada solicitud mediante la inclusión del parámetro temperature en el cuerpo de la solicitud.
Valor predeterminado de top-p
Establece el valor predeterminado de top-p para todas las solicitudes de inferencia. Top-p controla la diversidad de la salida al limitar las opciones del modelo a un subconjunto de las palabras más probables. En concreto, el modelo ordena todas las posibles palabras siguientes según su probabilidad y solo considera el grupo más pequeño cuya probabilidad combinada alcanza el valor de top-p. Por ejemplo, un valor de top-p de 0.9 significa que el modelo solo tiene en cuenta las palabras que, en conjunto, representan el 90 % de la probabilidad, sin tener en cuenta el resto de opciones poco probables.
Cuándo usarlo: use un valor de top-p más bajo (por ejemplo, 0.5) para hacer que el modelo se limite a palabras de alta confianza y produzca una salida más enfocada. Use un valor más alto (por ejemplo, 0.95) para permitir mayor variedad. Top-p se utiliza con frecuencia como alternativa a la temperatura: ambos regulan la variedad del resultado, pero top-p se adapta dinámicamente en función del nivel de confianza del modelo en cada paso. Puede usar ambos juntos; en ese caso, el modelo aplica la restricción que sea más restrictiva en cada paso.
- Presentación
v1.0- Modelos compatibles
Todos los modelos Amazon Nova
- Cómo habilitar
-
Configure la variable de entorno
DEFAULT_TOP_Pal crear el modelo de SageMaker. - Predeterminado
1.0- Valores válidos
Valor decimal entre
1e-10y1(inclusive)
Variable de entorno
"Environment": { "DEFAULT_TOP_P": "0.9" }
nota
Puede reemplazar este valor predeterminado para cada solicitud mediante la inclusión del parámetro top_p en el cuerpo de la solicitud.
Valor predeterminado de top-k
Establece el valor predeterminado de top-k para todas las solicitudes de inferencia. Top-k limita las opciones del modelo a un número fijo de las palabras siguientes más probables. Por ejemplo, un valor de top-k de 50 significa que el modelo solo considera las 50 palabras más probables en cada paso, independientemente de sus probabilidades individuales. Un valor de -1 desactiva este límite y permite que el modelo considere todas las palabras posibles.
Cuándo usarlo: use top-k cuando desee establecer un límite estricto en la cantidad de opciones de palabras que el modelo considera. Los valores más bajos (por ejemplo, 10) producen resultados más predecibles, mientras que los valores más altos permiten una mayor variedad. Top-k se puede combinar con la temperatura y top-p; cuando hay varios controles de muestreo activos, el modelo aplica todos estos y utiliza el que sea más restrictivo en cada paso.
- Presentación
v1.0- Modelos compatibles
Todos los modelos Amazon Nova
- Cómo habilitar
-
Configure la variable de entorno
DEFAULT_TOP_Kal crear el modelo de SageMaker. - Predeterminado
-1(deshabilitado)- Valores válidos
Entero,
-1o superior. Use-1para considerar todos los tokens.
Variable de entorno
"Environment": { "DEFAULT_TOP_K": "50" }
nota
Puede reemplazar este valor predeterminado para cada solicitud mediante la inclusión del parámetro top_k en el cuerpo de la solicitud.
Máximo predeterminado de tokens nuevos
Establece la cantidad máxima predeterminada de tokens (palabras o fragmentos de palabras) que el modelo genera en una respuesta. Este valor se aplica a todas las solicitudes, a menos que se reemplace. Úselo para controlar la longitud de las respuestas y administrar los costos en el punto de conexión.
Cuándo usarlo: establezca este valor cuando desee imponer una longitud máxima coherente para las respuestas en todas las solicitudes. Por ejemplo, configúrelo en 256 para tareas de respuestas cortas o en 2048 para la generación de contenido más extenso. El valor máximo permitido depende de la CONTEXT_LENGTH configurada para el punto de conexión, ya que la suma de los tokens de entrada y salida no puede superar la longitud de contexto.
- Presentación
v1.0- Modelos compatibles
Todos los modelos Amazon Nova
- Cómo habilitar
-
Configure la variable de entorno
DEFAULT_MAX_NEW_TOKENSal crear el modelo de SageMaker. - Predeterminado
Longitud máxima de contexto del modelo
- Valores válidos
Entero,
1o superior
Variable de entorno
"Environment": { "DEFAULT_MAX_NEW_TOKENS": "512" }
nota
Puede reemplazar este valor predeterminado por solicitud al incluir el parámetro max_tokens o max_completion_tokens en el cuerpo de la solicitud. El valor máximo permitido depende de la CONTEXT_LENGTH configurada para el punto de conexión.
Logprobs predeterminado
Establece la cantidad predeterminada de probabilidades logarítmicas que se devolverán para cada token generado. Una probabilidad logarítmica es un valor numérico que refleja el nivel de confianza que tiene el modelo al elegir cada palabra. Cuando esta opción está habilitada, la respuesta incluye estas puntuaciones para cada token de resultado, lo cual es útil para evaluar la confianza del modelo, comparar alternativas de palabras y depurar el comportamiento de generación.
Cuándo usarlo: habilite logprobs cuando necesite evaluar el nivel de confianza que tiene el modelo en sus resultados; por ejemplo, para identificar respuestas con baja confianza para revisión humana o para comparar la probabilidad de distintas finalizaciones. Habilitar logprobs puede aumentar ligeramente la latencia de la respuesta y el tamaño de la carga útil.
- Presentación
v1.0- Modelos compatibles
Todos los modelos Amazon Nova
- Cómo habilitar
-
Configure la variable de entorno
DEFAULT_LOGPROBSal crear el modelo de SageMaker. - Predeterminado
Deshabilitado
- Valores válidos
Entero entre
1y20(inclusive)
Variable de entorno
"Environment": { "DEFAULT_LOGPROBS": "5" }
nota
Puede reemplazar este valor predeterminado por solicitud al incluir los parámetros logprobs y top_logprobs en el cuerpo de la solicitud. Habilitar logprobs puede aumentar ligeramente la latencia de la respuesta.
Decodificación especulativa Eagle3
La decodificación especulativa Eagle3 es una técnica de optimización que acelera la generación de texto. Funciona mediante el uso de un modelo preliminar más pequeño y rápido para predecir varios tokens por adelantado y luego verificar esas predicciones con el modelo principal en un solo paso. Cuando las predicciones son correctas, el modelo genera efectivamente varios tokens en el tiempo que normalmente tardaría en generar uno solo. El modelo principal siempre verifica los tokens preliminares, por lo que el resultado final es idéntico al que produciría el modelo principal por sí solo; solo cambia la velocidad, no la calidad.
Cuándo usarlo: la decodificación especulativa Eagle3 está habilitada de forma predeterminada y beneficia a la mayoría de las cargas de trabajo. Considere desactivarla solo si observa un comportamiento inesperado o necesita aislar características de rendimiento durante la depuración.
- Presentación
v1.0. Se agregó compatibilidad con la cuantización FP8 mediante la decodificación especulativa Eagle3 env1.4.- Modelos compatibles
Todos los modelos Amazon Nova
- Cómo habilitar
-
La decodificación especulativa Eagle3 está habilitada de forma predeterminada y no requiere ninguna configuración. Use
DISABLE_SPECULATIVE_DECODINGpara desactivarla. - Predeterminado
false(decodificación especulativa Eagle3 habilitada)- Valores válidos
true,false
Variable de entorno
El siguiente ejemplo desactiva la decodificación especulativa Eagle3:
"Environment": { "DISABLE_SPECULATIVE_DECODING": "true" }
Tipo de datos de la caché KV
Establece el tipo de datos de la caché clave-valor (KV) utilizada durante la inferencia. La caché KV almacena la memoria del modelo de los tokens anteriores de una conversación, lo que le permite generar cada token nuevo sin reprocesar toda la entrada. En secuencias largas, esta caché puede consumir una cantidad significativa de memoria de GPU. Usar un tipo de datos de menor precisión para la caché KV, como FP8, reduce el uso de memoria y puede mejorar el rendimiento, aunque a costa de pequeñas diferencias numéricas en el resultado.
Cuándo usarlo: habilite la caché KV FP8 cuando necesite admitir longitudes de contexto más extensas o una mayor simultaneidad en la instancia. Esto resulta especialmente útil en instancias de GPU con memoria limitada. Pruebe su caso de uso para verificar que la calidad del resultado cumpla con los requisitos, ya que una menor precisión puede producir resultados ligeramente distintos.
- Presentación
v1.3- Modelos compatibles
Todos los modelos Amazon Nova
- Cómo habilitar
-
Configure la variable de entorno
KV_CACHE_DTYPEal crear el modelo de SageMaker. - Predeterminado
Igual que el tipo de datos del modelo
- Valores válidos
fp8
Variable de entorno
"Environment": { "KV_CACHE_DTYPE": "fp8" }
nota
Es posible que cambiar el tipo de datos de la caché KV produzca resultados ligeramente distintos en comparación con la precisión predeterminada. Pruebe su caso de uso para verificar que la calidad del resultado cumpla con los requisitos.
Cuantización
Establece el tipo de datos de cuantización para las ponderaciones del modelo. La cuantización comprime las ponderaciones del modelo en un formato de menor precisión (FP8 en lugar de la precisión superior predeterminada), lo que reduce la cantidad de memoria de GPU que requiere el modelo. Esto puede mejorar el rendimiento de la inferencia y permitir que modelos más grandes se ejecuten en tipos de instancia más pequeños, con un impacto mínimo en la calidad del resultado.
Cuándo usarlo: use la cuantización FP8 cuando desee reducir el uso de memoria para admitir una mayor simultaneidad o permitir que un modelo se ejecute en un tipo de instancia más pequeño. Tenga en cuenta que algunas combinaciones de modelos y tipos de instancia requieren cuantización FP8 de forma automática; consulte la advertencia que aparece a continuación.
- Presentación
v1.3- Modelos compatibles
Todos los modelos Amazon Nova
- Cómo habilitar
-
Configure la variable de entorno
QUANTIZATION_DTYPEal crear el modelo de SageMaker. - Predeterminado
Deshabilitada. Sin embargo, la cuantización FP8 se habilita automáticamente para determinadas combinaciones de modelos y tipos de instancia. Consulte la nota que se muestra a continuación.
- Valores válidos
fp8
Variable de entorno
"Environment": { "QUANTIZATION_DTYPE": "fp8" }
importante
Las siguientes combinaciones de modelos y tipos de instancia requieren cuantización FP8. En estas configuraciones, la cuantización se habilita automáticamente y no se puede deshabilitar ni reemplazar:
-
Amazon Nova Lite en
ml.g6.12xlargeoml.g6.24xlarge -
Nova 2 Lite en
ml.g6.48xlarge
Para todas las demás configuraciones, consulte Modelos e instancias compatibles para obtener más información.
Cantidad de tokens especulativos
Controla cuántos tokens el modelo preliminar predice por adelantado durante cada paso de la decodificación especulativa Eagle3. Un valor más alto significa que el modelo preliminar intenta predecir más tokens a la vez, lo que puede mejorar el rendimiento cuando las predicciones son precisas. Si las predicciones del modelo preliminar suelen diferir de las del modelo principal, un valor más bajo puede resultar más eficiente.
Cuándo usarlo: aumente este valor cuando la carga de trabajo produzca patrones de resultados predecibles (por ejemplo, datos estructurados o texto basado en plantillas), en los que sea probable que el modelo preliminar acierte. Redúzcalo en resultados creativos o muy variables, donde las predicciones son menos confiables.
- Presentación
v1.4- Modelos compatibles
Todos los modelos Amazon Nova
- Cómo habilitar
-
Configure la variable de entorno
NUM_SPECULATIVE_TOKENSal crear el modelo de SageMaker. - Predeterminado
3- Valores válidos
Entero entre
1y10(inclusive)
Variable de entorno
"Environment": { "NUM_SPECULATIVE_TOKENS": "5" }
nota
Esta configuración solo se aplica cuando la decodificación especulativa Eagle3 está habilitada (DISABLE_SPECULATIVE_DECODING es false). No tiene efecto cuando la decodificación especulativa está deshabilitada o cuando se utiliza la decodificación por sufijos.
Decodificación por sufijos
La decodificación por sufijos es un método alternativo para acelerar la generación de texto. En lugar de utilizar un modelo preliminar independiente (como hace Eagle3), la decodificación por sufijos busca patrones repetidos en el texto ya generado o en la petición de entrada y reutiliza esos patrones para predecir tokens futuros. Este enfoque funciona bien cuando es probable que el resultado contenga frases repetidas, formatos estructurados o contenido que refleje estrechamente la entrada.
Cuándo usarlo: use la decodificación por sufijos para tareas en las que el resultado contenga patrones repetitivos, como la generación de datos estructurados, el llenado de plantillas o el resumen de contenido que reutiliza frases del origen. Para la generación de uso general, donde el resultado es muy variable, el método Eagle3 predeterminado suele ofrecer un mejor rendimiento.
- Presentación
v1.4- Modelos compatibles
Todos los modelos Amazon Nova
- Cómo habilitar
-
Configure la variable de entorno
SPECULATIVE_DECODING_METHODcon el valorsuffixal crear el modelo de SageMaker. - Predeterminado
eagle3- Valores válidos
eagle3,suffix
Variable de entorno
"Environment": { "SPECULATIVE_DECODING_METHOD": "suffix" }
nota
Para usar la decodificación por sufijos, DISABLE_SPECULATIVE_DECODING se debe establecer en false (predeterminado). Establecer DISABLE_SPECULATIVE_DECODING en true deshabilita todos los métodos de decodificación especulativa, incluida la decodificación por sufijos.