SageMaker 추론 - Amazon Nova

SageMaker 추론

이제 SageMaker 추론에서 사용자 지정 Amazon Nova 모델을 사용할 수 있습니다. SageMaker에서 Amazon Nova를 사용하면 훈련된 사용자 지정 Amazon Nova 모델에서 예측 또는 추론을 가져올 수 있습니다. SageMaker는 모든 ML 추론 요구 사항을 충족하는 데 도움이 되는 다양한 ML 인프라 및 모델 배포 옵션을 제공합니다. SageMaker 추론을 사용하면 모델 배포를 확장하고, 프로덕션에서 모델을 더 효과적으로 관리하며, 운영 부담을 줄일 수 있습니다.

SageMaker는 지연 시간이 짧은 추론을 위한 실시간 엔드포인트 및 요청 배치 처리를 위한 비동기 엔드포인트와 같은 다양한 추론 옵션을 제공합니다. 사용 사례에 적합한 추론 옵션을 활용하면 효율적인 모델 배포 및 추론을 보장할 수 있습니다. SageMaker 추론에 대한 자세한 내용은 Deploy models for inference를 참조하세요.

중요

SageMaker 추론에서는 전체 순위 사용자 지정 모델 및 LoRA 병합 모델만 지원됩니다. 병합되지 않은 LoRA 모델 및 기본 모델의 경우 Amazon Bedrock을 사용합니다.

특성

SageMaker 추론에서 Amazon Nova 모델에 대해 사용할 수 있는 기능은 다음과 같습니다.

모델 기능

  • 텍스트 생성

배포 및 조정

  • 사용자 지정 인스턴스 선택이 포함된 실시간 엔드포인트

  • 오토 스케일링 - 트래픽 패턴에 따라 용량을 자동으로 조정하여 비용과 GPU 사용률을 최적화합니다. 자세한 내용은 Automatically Scale Amazon SageMaker Models를 참조하세요.

  • 실시간 토큰 생성을 위한 스트리밍 API 지원

모니터링 및 최적화

  • 모니터링 및 알림을 위한 Amazon CloudWatch 통합

  • VPC 구성을 통한 가용 영역 인지 지연 시간 최적화

개발 도구

지원되는 모델 및 인스턴스

SageMaker 추론 엔드포인트를 생성하는 경우 두 가지 환경 변수(CONTEXT_LENGTHMAX_CONCURRENCY)를 설정하여 배포를 구성할 수 있습니다.

  • CONTEXT_LENGTH - 요청당 최대 총 토큰 길이(입력 + 출력)

  • MAX_CONCURRENCY - 엔드포인트가 지원하는 최대 동시 요청 수

다음 표에는 지원되는 Amazon Nova 모델, 인스턴스 유형 및 지원되는 구성이 나와 있습니다. MAX_CONCURRENCY 값은 각 CONTEXT_LENGTH 설정에서 지원되는 최대 동시성을 나타냅니다.

모델 인스턴스 유형 지원되는 구성
Amazon Nova Micro ml.g5.12xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16

ml.g5.24xlarge CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32
ml.g6.12xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16

ml.g6.24xlarge CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32
ml.g6.48xlarge CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32
ml.p5.48xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1

Amazon Nova Lite ml.g6.48xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16

ml.p5.48xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1

Nova 2 Lite ml.p5.48xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1

참고

표시된 MAX_CONCURRENCY 값은 각 CONTEXT_LENGTH 설정의 상한입니다. 동일한 동시성으로 더 짧은 컨텍스트 길이를 사용할 수 있지만, 이러한 값을 초과하면 SageMaker 엔드포인트 생성에 실패합니다.

예를 들어 ml.g5.12xlarge를 사용하는 Amazon Nova Micro의 경우:

  • CONTEXT_LENGTH=2000, MAX_CONCURRENCY=32 → 유효

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=32 → 거부됨(컨텍스트 길이 8,000에서 동시성 제한은 16)

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → 유효

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=16 → 유효

  • CONTEXT_LENGTH=10000 → 거부됨(이 인스턴스에서 최대 컨텍스트는 8,000)

지원되는 AWS 리전

다음 표에는 SageMaker 추론에서 Amazon Nova 모델을 사용할 수 있는 AWS 리전이 나와 있습니다.

리전 이름 리전 코드 가용성
미국 동부(버지니아 북부) us-east-1 Available
미국 서부(오리건) us-west-2 Available

지원되는 컨테이너 이미지

다음 표에는 SageMaker 추론에서 Amazon Nova 모델에 대한 컨테이너 이미지 URI가 리전별로 나와 있습니다. 각 리전에 대해 버전 관리된 태그(v1.0.0) 및 최신 태그(SM-Inference-latest)와 같은 두 가지 이미지 태그를 사용할 수 있습니다. 프로덕션 배포의 경우 버전 관리된 태그를 사용하는 것이 좋습니다.

리전 컨테이너 이미지 URI
us-east-1

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:v1.0.0

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest

us-west-2

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:v1.0.0

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

모범 사례

SageMaker에서 모델을 배포하고 관리하는 모범 사례는 Best Practices for SageMaker를 참조하세요.

지원

SageMaker 추론에서 Amazon Nova 모델에 대한 지원 및 관련 문제는 콘솔 또는 AWS 계정 관리자를 통해 AWS Support에 문의하세요.