Referencia de modelos compatibles

En las tablas siguientes se muestran los modelos en los que la SageMaker IA admite la optimización de inferencias y las técnicas de optimización compatibles.

Modelos Llama compatibles
Nombre del modelo	Formatos de datos admitidos para la cuantización	Admite decodificación especulativa	Admite carga rápida de modelos	Bibliotecas utilizadas para compilación
Meta Llama 2 13B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Meta Llama 2 13B Chat	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Meta Llama 2 70B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Meta Llama 2 70B Chat	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Meta Llama 2 7B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Meta Llama 2 7B Chat	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Meta Llama 3 70B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Meta Llama 3 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Meta Llama 3 8B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Meta Llama 3 8B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Meta Code Llama 13B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 13B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 13B Python	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 34B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 34B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 34B Python	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 70B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 70B Python	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 7B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Code Llama 7B Python	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Meta Llama 2 13B Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 2 13B Chat Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 2 70B Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 2 70B Chat Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 2 7B Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 2 7B Chat Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 3 70B Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 3 70B Instruct Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 3 8B Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 3 8B Instruct Neuron	Ninguno	No	No	AWS Neurona
Meta Code Llama 70B Neuron	Ninguno	No	No	AWS Neurona
Meta Code Llama 7B Neuron	Ninguno	No	No	AWS Neurona
Meta Code Llama 7B Python Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 3.1 405B FP8	Ninguno	Sí	Sí	Ninguno
Meta Llama 3.1 405B Instruct FP8	Ninguno	Sí	Sí	Ninguno
Meta Llama 3.1 70B	INT4-AWQ FP8	Sí	Sí	Ninguno
Meta Llama 3.1 70B Instruct	INT4-AWQ FP8	Sí	Sí	Ninguno
Meta Llama 3.1 8B	INT4-AWQ FP8	Sí	Sí	Ninguno
Meta Llama 3.1 8B Instruct	INT4-AWQ FP8	Sí	Sí	Ninguno
Meta Llama 3.1 70B Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 3.1 70B Instruct Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 3 1 8B Neuron	Ninguno	No	No	AWS Neurona
Meta Llama 3.1 8B Instruct Neuron	Ninguno	No	No	AWS Neurona

Modelos Mistral compatibles
Nombre del modelo	Formatos de datos admitidos para la cuantización	Admite decodificación especulativa	Admite carga rápida de modelos	Bibliotecas utilizadas para compilación
Mistral 7B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Mistral 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	AWS Neurona TensorRT-LLM
Mistral 7B Neuron	Ninguno	No	No	AWS Neurona
Mistral 7B Instruct Neuron	Ninguno	No	No	AWS Neurona

Modelos Mixtral compatibles
Nombre del modelo	Formatos de datos admitidos para la cuantización	Admite decodificación especulativa	Admite carga rápida de modelos	Bibliotecas utilizadas para compilación
Mixtral-8x22B-Instruct-v0.1	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Mixtral-8x22B V1	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Mixtral 8x7B	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM
Mixtral 8x7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sí	Sí	TensorRT-LLM

Arquitecturas de modelos compatibles y tipo EAGLE
Nombre de la arquitectura del modelo	Tipo EAGLE
LlamaForCausalLM	ÁGUILA 3
Qwen3ForCausalLM	ÁGUILA 3
Qwen3NextForCausalLM	ÁGUILA 2
Qwen3MoeForCausalLM	ÁGUILA 3
Qwen2ForCausalLM	ÁGUILA 3
GptOssForCausalLM	ÁGUILA 3

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Evaluación del rendimiento.

Opciones para evaluar su modelo