

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Referência de modelos compatíveis
<a name="optimization-supported-models"></a>

As tabelas a seguir mostram os modelos para os quais a SageMaker IA oferece suporte à otimização de inferência e mostram as técnicas de otimização suportadas.


**Modelos Llama compatíveis**  

| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação | 
| --- | --- | --- | --- | --- | 
| Meta Llama 2 13B |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Llama 2 13B Chat da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Meta Llama 2 70B |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Llama 2 70B Chat da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Meta Llama 2 7B |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Llama 2 7B Chat da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Llama 3 70B da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Llama 3 70B Instruct da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Llama 3 8B da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Llama 3 8B Instruct da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Code Llama 13B da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 13B Instruct da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 13B Python da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 34B da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 34B Instruct da Meta  |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 34B Python da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 70B da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 70B Instruct da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 70B Python da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 7B da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 7B Instruct da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Code Llama 7B Python da Meta |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Llama 2 13B Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 2 13B Chat Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 2 70B Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 2 70B Chat Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 2 7B Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 2 7B Chat Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 3 70B Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 3 70B Instruct Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 3 8B Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 3 8B Instruct Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Code Llama 70B Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Code Llama 7B Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Code Llama 7B Python Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Metal Llama 3.1 405B FP8 | Nenhum | Sim | Sim |  Nenhum  | 
| Instrução Meta Llama 3.1 405B FP8 | Nenhum | Sim | Sim |  Nenhum  | 
| Llama 3.1 70B da Meta |  INT4-AWQ FP8  | Sim | Sim |  Nenhum  | 
| Llama 3.1 70B Instruct da Meta |  INT4-AWQ FP8  | Sim | Sim |  Nenhum  | 
| Llama 3.1 8B da Meta |  INT4-AWQ FP8  | Sim | Sim |  Nenhum  | 
| Llama 3.1 8B Instruct da Meta |  INT4-AWQ FP8  | Sim | Sim |  Nenhum  | 
| Llama 3.1 70B Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 3.1 70B Instruct Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 3 1 8B Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 
| Llama 3.1 8B Instruct Neuron da Meta | Nenhum | Não | Não |  AWSNeurônio  | 


**Modelos Mistral compatíveis**  

| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação | 
| --- | --- | --- | --- | --- | 
| Mistral 7B |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Mistral 7B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  AWSNeurônio TensorRT-LLM  | 
| Mistral 7B Neuron | Nenhum | Não | Não |  AWSNeurônio  | 
| Mistral 7B Instruct Neuron | Nenhum | Não | Não |  AWSNeurônio  | 


**Modelos Mixtral compatíveis**  

| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação | 
| --- | --- | --- | --- | --- | 
| Mixtral-8x22B-Instruct-v0.1 |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Mixtral-8x22B V1 |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Mixtral 8x7B |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 
| Mixtral 8x7B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | Sim | Sim |  TensorRT-LLM  | 


**Arquiteturas de modelo suportadas e tipo EAGLE**  

|  Nome da arquitetura do modelo  |  Tipo EAGLE  | 
| --- | --- | 
|  LlamaForCausalLM  |  ÁGUIA 3  | 
|  Rainha 3 LM ForCausal  |  ÁGUIA 3  | 
|  Rainha 3 LM NextForCausal  |  ÁGUIA 2  | 
|  Rainha 3 LM MoeForCausal   |  ÁGUIA 3  | 
|  Rainha 2 LM ForCausal  |  ÁGUIA 3  | 
|  GptOssForCausalLM  |  ÁGUIA 3  | 