

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon SageMaker AI에서 Triton Inference Server를 사용하기 위한 리소스
<a name="triton"></a>

SageMaker AI를 사용하면 고객이 NVIDIA Triton Inference Server에서 사용자 지정 코드를 사용하여 모델을 배포할 수 있습니다. 다음 리소스를 사용하여 SageMaker AI에서 Triton Inference Server를 사용하는 방법을 알아봅니다.

 이 기능은 [Triton Inference Server 컨테이너](https://docs.aws.amazon.com/deep-learning-containers/latest/devguide/what-is-dlc.html)의 개발을 통해 사용할 수 있습니다. 이러한 컨테이너에는 NVIDIA Triton Inference Server, 일반 ML 프레임워크 지원 및 SageMaker AI에서 성능을 최적화할 수 있는 유용한 환경 변수가 포함됩니다. 사용 가능한 모든 딥 러닝 컨테이너 이미지 목록은 [사용 가능한 딥 러닝 컨테이너 이미지](https://github.com/aws/deep-learning-containers/blob/master/available_images.md)를 참조하세요. 딥 러닝 컨테이너 이미지는 보안 패치를 통해 유지 관리되고 정기적으로 업데이트됩니다.

SageMaker AI 모델의 다른 컨테이너와 마찬가지로 SageMaker Python SDK와 함께 Triton Inference Server Container를 사용할 수 있습니다. 하지만 SageMaker Python SDK를 사용하는 것은 선택 사항입니다. Triton 추론 서버 컨테이너는 AWS CLI 및와 함께 사용할 수 있습니다 AWS SDK for Python (Boto3).

NVIDIA Triton Inference Server에 대한 자세한 내용은 [Triton 설명서](https://docs.nvidia.com/deeplearning/triton-inference-server/#)를 참조하세요.

## Inference
<a name="triton-inference"></a>

**참고**  
Triton Python 백엔드는 공유 메모리(SHMEM)를 사용하여 코드를 Triton에 연결합니다. SageMaker AI Inference는 인스턴스 메모리의 최대 절반을 SHMEM으로 제공하므로 더 큰 SHMEM 크기를 위해 메모리가 더 많은 인스턴스를 사용할 수 있습니다.

추론의 경우 Triton Inference Server와 함께 훈련된 ML 모델을 사용하여 SageMaker AI와 함께 추론 작업을 배포할 수 있습니다.

Triton 추론 서버 컨테이너의 주요 기능 중 일부는 다음과 같습니다.
+ **다중 프레임워크 지원**: Triton을 사용하여 모든 주요 ML 프레임워크의 모델을 배포할 수 있습니다. Triton은 TensorFlow GraphDef 및 SavedModel, ONNX, PyTorch Torch Script, TensorRT 및 사용자 지정 Python/C\$1 모델 형식을 지원합니다.
+ **모델 파이프라인**: Triton 모델 앙상블은 전/후 처리 로직과 이들 사이의 입력 및 출력 텐서 연결을 갖춘 하나의 모델의 파이프라인을 나타냅니다. 앙상블에 대한 단일 추론 요청은 전체 파이프라인의 실행을 트리거합니다.
+ **동시 모델 실행**: 동일한 모델의 여러 인스턴스를 동일한 GPU 또는 여러 GPU에서 동시에 실행할 수 있습니다.
+ **동적 일괄 처리**: 일괄 처리를 지원하는 모델의 경우 Triton에는 개별 추론 요청을 결합하여 추론 처리량을 개선하는 여러 개의 기본 제공 스케줄링 및 일괄 처리 알고리즘이 있습니다. 이러한 스케줄링 및 일괄 처리 결정은 추론을 요청하는 클라이언트에게 투명합니다.
+ **다양한 CPU 및 GPU 지원**: CPU 또는 GPU에서 모델을 실행하여 유연성을 극대화하고 이기종 컴퓨팅 요구 사항을 지원할 수 있습니다.

## 어떤 작업을 수행하려고 합니까?
<a name="triton-do"></a>

훈련된 PyTorch 모델을 SageMaker AI에 배포하고 싶습니다.  
예제 Jupyter Notebook은 [Triton Inference Server를 사용하여 PyTorch Resnet50 모델 배포하기 예제](https://github.com/aws/amazon-sagemaker-examples/blob/master/sagemaker-triton/resnet50/triton_resnet50.ipynb)를 참조하세요.

훈련된 Hugging Face 모델을 SageMaker AI에 배포하고 싶습니다.  
예제 Jupyter Notebook은 [Triton Inference Server를 사용하여 PyTorch BERT 모델 배포하기 예제](https://github.com/aws/amazon-sagemaker-examples/blob/master/sagemaker-triton/nlp_bert/triton_nlp_bert.ipynb)를 참조하세요.