기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다. # 지원되는 기능 Amazon SageMaker AI는 추론용 모델을 배포하기 위해 다음과 같은 4가지 옵션을 제공합니다. + 실시간, 대화형, 짧은 지연 시간이 요구되는 추론 워크로드를 위한 실시간 추론. + 대규모 데이터 세트를 사용한 오프라인 추론을 위한 일괄 변환. + 더 긴 전처리 시간이 필요한 대규모 입력이 있는 거의 실시간 추론을 위한 비동기 추론. + 트래픽 폭주 사이에 유휴 기간이 있는 추론 워크로드를 위한 서버리스 추론. 다음 표에는 각 추론 옵션에서 지원하는 핵심 플랫폼 기능이 요약되어 있습니다. 프레임워크, 사용자 지정 Docker 컨테이너 또는 다양한 AWS 서비스 체인을 통해 제공할 수 있는 기능은 설명하지 않습니다. | 기능 | [실시간 추론](realtime-endpoints.md) | [일괄 변환](batch-transform.md) | [비동기식 추론](async-inference.md) | [서버리스 추론](serverless-endpoints.md) | [Docker 컨테이너](docker-containers.md) | | --- | --- | --- | --- | --- | --- | | [오토스케일링 지원](endpoint-auto-scaling.md) | ✓ | 해당 사항 없음 | ✓ | ✓ | 해당 사항 없음 | | GPU 지원 | ✓1 | ✓1 | ✓1 | | [1P](common-info-all-im-models.md), 사전 제작, BYOC | | 단일 모델 | ✓ | ✓ | ✓ | ✓ | 해당 사항 없음 | | [다중 모델 엔드포인트](multi-model-endpoints.md) | ✓ | | | | k-NN, XGBoost, Linear Learner, RCF, TensorFlow, Apache MXNet, PyTorch, scikit-learn 2 | | [다중 컨테이너 엔드포인트](multi-container-endpoints.md) | ✓ | | | | 1P, 사전 구축, 확장 사전 구축, BYOC | | [직렬 추론 파이프라인](inference-pipelines.md) | ✓ | ✓ | | | 1P, 사전 구축, 확장 사전 구축, BYOC | | [Inference Recommender](inference-recommender.md) | ✓ | | | | 1P, 사전 구축, 확장 사전 구축, BYOC | | 프라이빗 링크 지원 | ✓ | ✓ | ✓ | | 해당 사항 없음 | | [데이터 캡처/모델 모니터 지원](model-monitor.md) | ✓ | ✓ | | | 해당 사항 없음 | | [DLC 지원됨](https://github.com/aws/deep-learning-containers/blob/master/available_images.md) | 1P, 사전 구축, 확장 사전 구축, BYOC | [1P](common-info-all-im-models.md), 사전 구축, 확장 사전 구축, BYOC | 1P, 사전 구축, 확장 사전 구축, BYOC | 1P, 사전 구축, 확장 사전 구축, BYOC | 해당 사항 없음 | | 프로토콜 지원됨 | HTTP(S) | HTTP(S) | HTTP(S) | HTTP(S) | 해당 사항 없음 | | 페이로드 크기 | < 6 MB | ≤ 100 MB | ≤ 1 GB | ≤ 4 MB | | | HTTP 청크 인코딩 | 프레임워크에 따라 다름, 1P는 지원되지 않음 | 해당 사항 없음 | 프레임워크에 따라 다름, 1P는 지원되지 않음 | 프레임워크에 따라 다름, 1P는 지원되지 않음 | 해당 사항 없음 | | 요청 제한 시간 | < 60초 | 일 | < 1시간 | < 60초 | 해당 사항 없음 | | [배포 가드레일: 블루/그린 배포](deployment-guardrails.md) | ✓ | 해당 사항 없음 | ✓ | | 해당 사항 없음 | | [배포 가드레일: 롤링 배포](deployment-guardrails.md) | ✓ | 해당 사항 없음 | ✓ | | 해당 사항 없음 | | [섀도우 테스트](shadow-tests.md) | ✓ | | | | 해당 사항 없음 | | Scale to zero | | 해당 사항 없음 | ✓ | ✓ | 해당 사항 없음 | | 마켓플레이스 모델 패키지 지원 | ✓ | ✓ | ✓ | | 해당 사항 없음 | | 가상 사설 클라우드 지원 | ✓ | ✓ | ✓ | | 해당 사항 없음 | | 다양한 프로덕션 변형 지원 | ✓ | | | | 해당 사항 없음 | | 네트워크 격리 | ✓ | | ✓ | | 해당 사항 없음 | | [모델 병렬 서빙 지원](model-parallel-intro.md) | ✓3 | ✓ | ✓3 | | ✓3 | | 볼륨 암호화 | ✓ | ✓ | ✓ | ✓ | 해당 사항 없음 | | 고객 AWS KMS | ✓ | ✓ | ✓ | ✓ | 해당 사항 없음 | | d 인스턴스 지원 | ✓ | ✓ | ✓ | | 해당 사항 없음 | | [inf1 지원](neo-supported-cloud.md) | ✓ | | | | ✓ | SageMaker AI를 사용하면 단일 추론 엔드포인트 뒤에 단일 모델 또는 여러 모델을 배포하여 실시간 추론을 수행할 수 있습니다. 다음 표에는 실시간 추론과 함께 제공되는 다양한 호스팅 옵션이 지원하는 핵심 기능이 요약되어 있습니다. | 기능 | [단일 모델 엔드포인트](realtime-single-model.md) | [다중 모델 엔드포인트](multi-model-endpoints.md) | [직렬 추론 파이프라인](inference-pipelines.md) | [다중 컨테이너 엔드포인트](multi-container-endpoints.md) | | --- | --- | --- | --- | --- | | [오토스케일링 지원](endpoint-auto-scaling.md) | ✓ | ✓ | ✓ | ✓ | | GPU 지원 | ✓1 | ✓ | ✓ | | | 단일 모델 | ✓ | ✓ | ✓ | ✓ | | [다중 모델 엔드포인트](multi-model-endpoints.md) | | ✓ | ✓ | 해당 사항 없음 | | [다중 컨테이너 엔드포인트](multi-container-endpoints.md) | ✓ | | | 해당 사항 없음 | | [직렬 추론 파이프라인](inference-pipelines.md) | ✓ | ✓ | 해당 사항 없음 | | | [Inference Recommender](inference-recommender.md) | ✓ | | | | | 프라이빗 링크 지원 | ✓ | ✓ | ✓ | ✓ | | [데이터 캡처/모델 모니터 지원](model-monitor.md) | ✓ | 해당 사항 없음 | 해당 사항 없음 | 해당 사항 없음 | | DLC 지원됨 | 1P, 사전 구축, 확장 사전 구축, BYOC | k-NN, XGBoost, Linear Learner, RCF, TensorFlow, Apache MXNet, PyTorch, scikit-learn 2 | 1P, 사전 구축, 확장 사전 구축, BYOC | 1P, 사전 구축, 확장 사전 구축, BYOC | | 프로토콜 지원됨 | HTTP(S) | HTTP(S) | HTTP(S) | HTTP(S) | | 페이로드 크기 | < 6 MB | < 6 MB | < 6 MB | < 6 MB | | 요청 제한 시간 | < 60초 | < 60초 | < 60초 | < 60초 | | [배포 가드레일: 블루/그린 배포](deployment-guardrails.md) | ✓ | ✓ | ✓ | ✓ | | [배포 가드레일: 롤링 배포](deployment-guardrails.md) | ✓ | ✓ | ✓ | ✓ | | [섀도우 테스트](shadow-tests.md) | ✓ | | | | | 마켓플레이스 모델 패키지 지원 | ✓ | | | | | 가상 사설 클라우드 지원 | ✓ | ✓ | ✓ | ✓ | | 다양한 프로덕션 변형 지원 | ✓ | | ✓ | ✓ | | 네트워크 격리 | ✓ | ✓ | ✓ | ✓ | | [모델 병렬 서빙 지원](model-parallel-intro.md) | ✓ 3 | | ✓ 3 | | | 볼륨 암호화 | ✓ | ✓ | ✓ | ✓ | | 고객 AWS KMS | ✓ | ✓ | ✓ | ✓ | | d 인스턴스 지원 | ✓ | ✓ | ✓ | ✓ | | [inf1 지원](neo-supported-cloud.md) | ✓ | | | | 1 Amazon EC2 인스턴스 유형의 가용성은 AWS 리전에 따라 다릅니다. 특정 인스턴스의 가용성은 [Amazon SageMaker AI 요금을](https://aws.amazon.com/sagemaker/pricing/) AWS참조하세요. 2 다른 프레임워크 또는 알고리즘을 사용하려면 SageMaker AI 추론 도구 키트를 사용하여 다중 모델 엔드포인트를 지원하는 컨테이너를 구축합니다. 3 SageMaker AI를 사용하면 추론용 대용량 모델(최대 500GB)을 배포할 수 있습니다. 컨테이너 상태 점검을 구성하고 타임아웃 할당량을 최대 60분까지 다운로드할 수 있습니다. 이렇게 하면 모델 및 관련 리소스를 다운로드하고 로드하는 데 더 많은 시간을 할애할 수 있습니다. 자세한 내용은 [대규모 모델 추론용 SageMaker AI 엔드포인트 파라미터](large-model-inference-hosting.md) 단원을 참조하십시오. SageMaker AI와 호환되는 [대용량 모델 추론 컨테이너](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#large-model-inference-containers)를 사용할 수 있습니다. 또한, FasterTransformer 및 DeepSpeed가 있는 Triton과 같 타사 모델 병렬화 라이브러리를 사용할 수도 있습니다. SageMaker AI와 호환 가능한지 확인해야 합니다.