

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Referensi model yang didukung
<a name="optimization-supported-models"></a>

Tabel berikut menunjukkan model yang SageMaker AI mendukung optimasi inferensi, dan mereka menunjukkan teknik pengoptimalan yang didukung.


**Model Llama yang didukung**  

| Nama Model | Format Data yang Didukung untuk Kuantisasi | Mendukung Decoding Spekulatif | Mendukung Pemuatan Model Cepat | Perpustakaan Digunakan untuk Kompilasi | 
| --- | --- | --- | --- | --- | 
| Meta Llama 2 13B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Meta Llama 2 13B Obrolan |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Meta Llama 2 70B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Meta Llama 2 70B Obrolan |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Meta Llama 2 7B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Meta Llama 2 7B Obrolan |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Meta Llama 3 70B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Instruksi Meta Llama 3 70B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Meta Llama 3 8B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Instruksi Meta Llama 3 8B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Kode Meta Llama 13B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Meta Kode Llama 13B Instruksi |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Kode Meta Llama 13B Python |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Kode Meta Llama 34B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Meta Kode Llama 34B Instruksi  |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Kode Meta Llama 34B Python |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Kode Meta Llama 70B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Meta Kode Llama 70B Instruksi |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Kode Meta Llama 70B Python |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Kode Meta Llama 7B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Meta Kode Llama 7B Instruksi |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Kode Meta Llama 7B Python |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Meta Llama 2 13B Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 2 13B Obrolan Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 2 70B Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 2 70B Obrolan Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 2 7B Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 2 7B Neuron Obrolan | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 3 70B Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 3 70B Instruksi Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 3 8B Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 3 8B Instruksi Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Kode Meta Llama 70B Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Kode Meta Llama 7B Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Kode Meta Llama 7B Neuron Python | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 3.1 405B FP8 | Tidak ada | Ya | Ya |  Tidak ada  | 
| Instruksi Meta Llama 3.1 405B FP8 | Tidak ada | Ya | Ya |  Tidak ada  | 
| Meta Llama 3.1 70B |  INT4-AWQ FP8  | Ya | Ya |  Tidak ada  | 
| Instruksi Meta Llama 3.1 70B |  INT4-AWQ FP8  | Ya | Ya |  Tidak ada  | 
| Meta Llama 3.1 8B |  INT4-AWQ FP8  | Ya | Ya |  Tidak ada  | 
| Instruksi Meta Llama 3.1 8B |  INT4-AWQ FP8  | Ya | Ya |  Tidak ada  | 
| Meta Llama 3.1 70B Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 3.1 70B Instruksi Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 3 1 8B Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Meta Llama 3.1 8B Instruksi Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 


**Model Mistral yang didukung**  

| Nama Model | Format Data yang Didukung untuk Kuantisasi | Mendukung Decoding Spekulatif | Mendukung Pemuatan Model Cepat | Perpustakaan Digunakan untuk Kompilasi | 
| --- | --- | --- | --- | --- | 
| Mistral 7B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Instruksi Mistral 7B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  AWSNeuron Tensorrt-LLM  | 
| Neuron Mistral 7B | Tidak ada | Tidak | Tidak |  AWSNeuron  | 
| Mistral 7B Instruksikan Neuron | Tidak ada | Tidak | Tidak |  AWSNeuron  | 


**Model Mixtral yang didukung**  

| Nama Model | Format Data yang Didukung untuk Kuantisasi | Mendukung Decoding Spekulatif | Mendukung Pemuatan Model Cepat | Perpustakaan Digunakan untuk Kompilasi | 
| --- | --- | --- | --- | --- | 
| Mixtral-8x22B-Instruksi-V0.1 |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Mixtral-8x22B V1 |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Mixtral 8x7B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 
| Instruksi Mixtral 8x7B |  INT4-AWQ INT8-SmoothQuant FP8  | Ya | Ya |  Tensorrt-LLM  | 


**Arsitektur Model yang Didukung dan Tipe EAGLE**  

|  Nama Arsitektur Model  |  Jenis EAGLE  | 
| --- | --- | 
|  LlamaForCausalLM  |  ELANG 3  | 
|  Qwen3 ForCausal LM  |  ELANG 3  | 
|  Qwen3 NextForCausal LM  |  ELANG 2  | 
|  Qwen3 MoeForCausal LM   |  ELANG 3  | 
|  Qwen2 ForCausal LM  |  ELANG 3  | 
|  GptOssForCausalLM  |  ELANG 3  | 