Referência de modelos compatíveis

As tabelas a seguir mostram os modelos para os quais a SageMaker IA oferece suporte à otimização de inferência e mostram as técnicas de otimização suportadas.

Modelos Llama compatíveis
Nome do modelo	Formatos de dados aceitos para quantização	Permite decodificação especulativa	Permite carregamento rápido de modelos	Bibliotecas usadas para compilação
Meta Llama 2 13B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Llama 2 13B Chat da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Meta Llama 2 70B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Llama 2 70B Chat da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Meta Llama 2 7B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Llama 2 7B Chat da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Llama 3 70B da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Llama 3 70B Instruct da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Llama 3 8B da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Llama 3 8B Instruct da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Code Llama 13B da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 13B Instruct da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 13B Python da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 34B da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 34B Instruct da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 34B Python da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 70B da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 70B Instruct da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 70B Python da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 7B da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 7B Instruct da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Code Llama 7B Python da Meta	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Llama 2 13B Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 2 13B Chat Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 2 70B Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 2 70B Chat Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 2 7B Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 2 7B Chat Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 3 70B Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 3 70B Instruct Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 3 8B Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 3 8B Instruct Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Code Llama 70B Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Code Llama 7B Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Code Llama 7B Python Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 3.1 405B FP8 da Meta	Nenhum	Sim	Sim	Nenhum
Llama 3.1 405B Instruct FP8 da Meta	Nenhum	Sim	Sim	Nenhum
Llama 3.1 70B da Meta	INT4-AWQ FP8	Sim	Sim	Nenhum
Llama 3.1 70B Instruct da Meta	INT4-AWQ FP8	Sim	Sim	Nenhum
Llama 3.1 8B da Meta	INT4-AWQ FP8	Sim	Sim	Nenhum
Llama 3.1 8B Instruct da Meta	INT4-AWQ FP8	Sim	Sim	Nenhum
Llama 3.1 70B Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 3.1 70B Instruct Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 3 1 8B Neuron da Meta	Nenhum	Não	Não	AWS Neurônio
Llama 3.1 8B Instruct Neuron da Meta	Nenhum	Não	Não	AWS Neurônio

Modelos Mistral compatíveis
Nome do modelo	Formatos de dados aceitos para quantização	Permite decodificação especulativa	Permite carregamento rápido de modelos	Bibliotecas usadas para compilação
Mistral 7B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Mistral 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Mistral 7B Neuron	Nenhum	Não	Não	AWS Neurônio
Mistral 7B Instruct Neuron	Nenhum	Não	Não	AWS Neurônio

Modelos Mixtral compatíveis
Nome do modelo	Formatos de dados aceitos para quantização	Permite decodificação especulativa	Permite carregamento rápido de modelos	Bibliotecas usadas para compilação
Mixtral-8x22B-Instruct-v0.1	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Mixtral-8x22B V1	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Mixtral 8x7B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Mixtral 8x7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM

Arquiteturas de modelo suportadas e tipo EAGLE
Nome da arquitetura do modelo	Tipo EAGLE
LlamaForCausalLM	ÁGUIA 3
Qwen3ForCausalLM	ÁGUIA 3
Qwen3NextForCausalLM	ÁGUIA 2
Qwen3MoeForCausalLM	ÁGUIA 3
Qwen2ForCausalLM	ÁGUIA 3
GptOssForCausalLM	ÁGUIA 3

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Avaliar o desempenho.

Opções para avaliar seu modelo