

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 지원되는 모델 참조
<a name="optimization-supported-models"></a>

다음 표에는 SageMaker AI가 추론 최적화를 지원하는 모델과 지원되는 최적화 기술이 나와 있습니다.


**지원되는 Llama 모델**  

| 모델 이름 | 양자화에 지원되는 데이터 형식 | 추론 디코딩 지원 | 고속 모델 로드 지원 | 컴파일에 사용되는 라이브러리 | 
| --- | --- | --- | --- | --- | 
| Meta Llama 2 13B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Meta Llama 2 13B Chat |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Meta Llama 2 70B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Meta Llama 2 70B Chat |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Meta Llama 2 7B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Meta Llama 2 7B Chat |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Meta Llama 3 70B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Meta Llama 3 70B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Meta Llama 3 8B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Meta Llama 3 8B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| 메타 코드 Llama 13B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 13B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 13B Python |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 34B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 34B Instruct  |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 34B Python |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 70B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 70B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 70B Python |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 7B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 7B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| 메타 코드 Llama 7B Python |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| Meta Llama 2 13B Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 2 13B Chat Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 2 70B Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 2 70B Chat Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 2 7B Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 2 7B Chat Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 3 70B Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 3 70B Instruct Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 3 8B Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 3 8B Instruct Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| 메타 코드 Llama 70B Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| 메타 코드 Llama 7B Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| 메타 코드 Llama 7B Python Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 3.1 405B FP8 | 없음 | 예 | 예 |  없음  | 
| Meta Llama 3.1 405B Instruct FP8 | 없음 | 예 | 예 |  없음  | 
| Meta Llama 3.1 70B |  INT4-AWQ FP8  | 예 | 예 |  없음  | 
| Meta Llama 3.1 70B Instruct |  INT4-AWQ FP8  | 예 | 예 |  없음  | 
| Meta Llama 3.1 8B |  INT4-AWQ FP8  | 예 | 예 |  없음  | 
| Meta Llama 3.1 8B Instruct |  INT4-AWQ FP8  | 예 | 예 |  없음  | 
| Meta Llama 3.1 70B Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 3.1 70B Instruct Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 3 1 8B Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Meta Llama 3.1 8B Instruct Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 


**지원되는 Mistral 모델**  

| 모델 이름 | 양자화에 지원되는 데이터 형식 | 추론 디코딩 지원 | 고속 모델 로드 지원 | 컴파일에 사용되는 라이브러리 | 
| --- | --- | --- | --- | --- | 
| Mistral 7B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Mistral 7B 지침 |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  AWS뉴런 TensorRT-LLM  | 
| Mistral 7B Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 
| Mistral 7B Instruct Neuron | 없음 | 아니요 | 아니요 |  AWS뉴런  | 


**지원되는 Mixtral 모델**  

| 모델 이름 | 양자화에 지원되는 데이터 형식 | 추론 디코딩 지원 | 고속 모델 로드 지원 | 컴파일에 사용되는 라이브러리 | 
| --- | --- | --- | --- | --- | 
| Mixtral-8x22B-Instruct-v0.1 |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| Mixtral-8x22B V1 |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| Mixtral 8x7B |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 
| Mixtral 8x7B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | 예 | 예 |  TensorRT-LLM  | 


**지원되는 모델 아키텍처 및 EAGLE 유형**  

|  모델 아키텍처 이름  |  이글 유형  | 
| --- | --- | 
|  LlamaForCausalLM  |  이글 3  | 
|  Qwen3ForCausalLM  |  이글 3  | 
|  Qwen3NextForCausalLM  |  이글 2  | 
|  Qwen3MoeForCausalLM   |  이글 3  | 
|  Qwen2ForCausalLM  |  이글 3  | 
|  GptOssForCausalLM  |  이글 3  | 