As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Referência de modelos compatíveis
As tabelas a seguir mostram os modelos para os quais a SageMaker IA oferece suporte à otimização de inferência e mostram as técnicas de otimização suportadas.
| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação |
|---|---|---|---|---|
| Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Llama 2 13B Chat da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Llama 2 70B Chat da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Meta Llama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Llama 2 7B Chat da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Llama 3 70B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Llama 3 70B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Llama 3 8B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Llama 3 8B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Code Llama 13B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 13B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 13B Python da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 34B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 34B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 34B Python da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 70B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 70B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 70B Python da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 7B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 7B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 7B Python da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Llama 2 13B Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 2 13B Chat Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 2 70B Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 2 70B Chat Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 2 7B Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 2 7B Chat Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 3 70B Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 3 70B Instruct Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 3 8B Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 3 8B Instruct Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Code Llama 70B Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Code Llama 7B Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Code Llama 7B Python Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 3.1 405B FP8 da Meta | Nenhum | Sim | Sim |
Nenhum |
| Llama 3.1 405B Instruct FP8 da Meta | Nenhum | Sim | Sim |
Nenhum |
| Llama 3.1 70B da Meta |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
| Llama 3.1 70B Instruct da Meta |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
| Llama 3.1 8B da Meta |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
| Llama 3.1 8B Instruct da Meta |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
| Llama 3.1 70B Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 3.1 70B Instruct Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 3 1 8B Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Llama 3.1 8B Instruct Neuron da Meta | Nenhum | Não | Não |
AWS Neurônio |
| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação |
|---|---|---|---|---|
| Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Mistral 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
| Mistral 7B Neuron | Nenhum | Não | Não |
AWS Neurônio |
| Mistral 7B Instruct Neuron | Nenhum | Não | Não |
AWS Neurônio |
| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação |
|---|---|---|---|---|
| Mixtral-8x22B-Instruct-v0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Mixtral 8x7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
|
Nome da arquitetura do modelo |
Tipo EAGLE |
|---|---|
|
LlamaForCausalLM |
ÁGUIA 3 |
|
Qwen3ForCausalLM |
ÁGUIA 3 |
|
Qwen3NextForCausalLM |
ÁGUIA 2 |
|
Qwen3MoeForCausalLM |
ÁGUIA 3 |
|
Qwen2ForCausalLM |
ÁGUIA 3 |
|
GptOssForCausalLM |
ÁGUIA 3 |