특성 지원되는 모델 및 인스턴스 추론 구성 요쇼 지원되는 AWS 리전 지원되는 컨테이너 이미지 모범 사례 지원

SageMaker 추론

이제 SageMaker 추론에서 사용자 지정 Amazon Nova 모델을 사용할 수 있습니다. SageMaker에서 Amazon Nova를 사용하면 훈련된 사용자 지정 Amazon Nova 모델에서 예측 또는 추론을 가져올 수 있습니다. SageMaker는 모든 ML 추론 요구 사항을 충족하는 데 도움이 되는 다양한 ML 인프라 및 모델 배포 옵션을 제공합니다. SageMaker 추론을 사용하면 모델 배포를 확장하고, 프로덕션에서 모델을 더 효과적으로 관리하며, 운영 부담을 줄일 수 있습니다.

SageMaker는 지연 시간이 짧은 추론을 위한 실시간 엔드포인트 및 요청 배치 처리를 위한 비동기 엔드포인트와 같은 다양한 추론 옵션을 제공합니다. 사용 사례에 적합한 추론 옵션을 활용하면 효율적인 모델 배포 및 추론을 보장할 수 있습니다. SageMaker 추론에 대한 자세한 내용은 Deploy models for inference를 참조하세요.

중요

SageMaker 추론에서는 전체 순위 사용자 지정 모델 및 LoRA 병합 모델만 지원됩니다. 병합되지 않은 LoRA 모델 및 기본 모델의 경우 Amazon Bedrock을 사용합니다.

특성

SageMaker 추론에서 Amazon Nova 모델에 대해 사용할 수 있는 기능은 다음과 같습니다.

모델 기능

텍스트 생성

배포 및 조정

사용자 지정 인스턴스 선택이 포함된 실시간 엔드포인트
오토 스케일링 - 트래픽 패턴에 따라 용량을 자동으로 조정하여 비용과 GPU 사용률을 최적화합니다. 자세한 내용은 Automatically Scale Amazon SageMaker Models를 참조하세요.
실시간 토큰 생성을 위한 스트리밍 API 지원

모니터링 및 최적화

모니터링 및 알림을 위한 Amazon CloudWatch 통합
VPC 구성을 통한 가용 영역 인지 지연 시간 최적화

개발 도구

AWS CLI 지원 – 자세한 내용은 AWS CLI Command Reference for SageMaker를 참조하세요.
SDK 지원을 통한 노트북 통합

지원되는 모델 및 인스턴스

SageMaker 추론 엔드포인트를 생성하는 경우 두 가지 환경 변수(CONTEXT_LENGTH 및 MAX_CONCURRENCY)를 설정하여 배포를 구성할 수 있습니다.

CONTEXT_LENGTH - 요청당 최대 총 토큰 길이(입력 + 출력)
MAX_CONCURRENCY - 엔드포인트가 지원하는 최대 동시 요청 수

다음 표에는 지원되는 Amazon Nova 모델, 인스턴스 유형 및 지원되는 구성이 나와 있습니다. MAX_CONCURRENCY 값은 각 CONTEXT_LENGTH 설정에서 지원되는 최대 동시성을 나타냅니다.

모델	인스턴스 유형	지원되는 구성	FP8 양자화 필요
Amazon Nova Micro	ml.g5.12xlarge	CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 6	아니요
	ml.g5.24xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8	아니요
	ml.g6e.xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2	아니요
	ml.g6e.2xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2	아니요
	ml.g6e.4xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 4	아니요
	ml.g6.12xlarge	CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 6	아니요
	ml.g6.24xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8	아니요
	ml.g6.48xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 12	아니요
	ml.p5.48xlarge	CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128000, MAX_CONCURRENCY: 8	아니요
Amazon Nova Lite	ml.g6.12xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2	예 - 기본적으로 활성화되는 작업
	ml.g6.24xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 4	예 - 기본적으로 활성화되는 작업
	ml.g6.48xlarge	CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 16 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8	아니요
	ml.p5.48xlarge	CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 60000, MAX_CONCURRENCY: 8	아니요
Nova 2 Lite	ml.g6.48xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8	예 - 기본적으로 활성화되는 작업
Nova 2 Lite	ml.p5.48xlarge	CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128000, MAX_CONCURRENCY: 8 CONTEXT_LENGTH: 256000, MAX_CONCURRENCY: 2	아니요

참고

이 작업은 FP8 양자화가 필요한 인스턴스에 대해서 기본적으로 활성화됩니다.

표시된 MAX_CONCURRENCY 값은 각 CONTEXT_LENGTH 설정의 상한입니다. 동일한 동시성으로 더 짧은 컨텍스트 길이를 사용할 수 있지만, 이러한 값을 초과하면 SageMaker 엔드포인트 생성에 실패합니다.

예를 들어 ml.g5.12xlarge를 사용하는 Amazon Nova Micro의 경우:

CONTEXT_LENGTH=2000, MAX_CONCURRENCY=12 → 유효
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → 거부됨(컨텍스트 길이 8,000에서 동시성 제한은 6)
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → 유효
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → 유효
CONTEXT_LENGTH=10000 → 거부됨(이 인스턴스에서 최대 컨텍스트 길이: 8,000)

추론 구성 요쇼

SageMaker 추론 구성 요소를 사용하여 Amazon Nova 모델을 배포할 수 있으며, 이를 통해 단일 엔드포인트에서 여러 모델을 호스팅하고 리소스 사용률을 최적화할 수 있습니다. 추론 구성 요소를 사용하면 각 모델에 필요한 컴퓨팅 리소스(CPU, 메모리, GPU)를 지정할 수 있으므로 공유 인프라에서 효율적인 다중 모델 호스팅이 가능합니다.

다음 표에는 추론 구성 요소를 사용할 때 각 Amazon Nova 모델의 최소 컴퓨팅 리소스 요구 사항이 나열되어 있습니다.

모델	최소 CPU 코어	최소 메모리(MB)	최소 GPU 수
Amazon Nova Micro	15	25000	4
Amazon Nova Lite	20	35000	4
Nova 2 Lite	20	100000	4

참고

ComputeResourceRequirements 값은 배포 중인 모델의 위 표에 나열된 최소 요구 사항을 충족하거나 초과해야 합니다. 최소값 미만의 값을 사용하면 추론 구성 요소 생성에 실패합니다.

총 리소스 요구 사항이 인스턴스 용량을 초과하지 않는 한 동일한 엔드포인트에 여러 추론 구성 요소를 배포할 수 있습니다.

단일 엔드포인트에서 호스팅할 수 있는 추론 구성 요소의 수는 인스턴스 유형의 사용 가능한 리소스와 각 모델의 최소 요구 사항에 따라 달라집니다. 예를 들어 ml.p5.48xlarge에서(GPU 8개, vCPU 192개, 메모리 약 1TB):

Amazon Nova Micro 추론 구성 요소 1개(GPU 4개, CPU 코어 15개, 25,000MB) → 유효
Amazon Nova Micro 추론 구성 요소 2개(총 GPU 8개, CPU 코어 30개, 50,000MB) → 유효(인스턴스 용량 이내)
Nova 2 Lite 추론 구성 요소 1개(GPU 4개, CPU 코어 20개, 100,000MB) → 유효
Nova 2 Lite 추론 구성 요소 2개(총 GPU 8개, CPU 코어 40개, 200,000MB) → 유효
Amazon Nova Micro 추론 구성 요소 3개(총 GPU 12개) → 거부됨(사용 가능한 GPU 8개 초과)

지원되는 AWS 리전

다음 표에는 SageMaker 추론에서 Amazon Nova 모델을 사용할 수 있는 AWS 리전이 나와 있습니다.

리전 이름	리전 코드	가용성
미국 동부(버지니아 북부)	us-east-1	Available
미국 서부(오리건)	us-west-2	Available

지원되는 컨테이너 이미지

다음 표에는 SageMaker 추론에서 Amazon Nova 모델에 대한 컨테이너 이미지 URI가 리전별로 나와 있습니다. SM-Inference-latest 태그는 현재 v1.4를 가리킵니다.

리전	컨테이너 이미지 URI
us-east-1	`708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest`
us-west-2	`176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest`

모범 사례

SageMaker에서 모델을 배포하고 관리하는 모범 사례는 Best Practices for SageMaker를 참조하세요.

지원

SageMaker 추론에서 Amazon Nova 모델에 대한 지원 및 관련 문제는 콘솔 또는 AWS 계정 관리자를 통해 AWS Support에 문의하세요.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

반복 훈련

시작하기