SageMaker 추론
이제 SageMaker 추론에서 사용자 지정 Amazon Nova 모델을 사용할 수 있습니다. SageMaker에서 Amazon Nova를 사용하면 훈련된 사용자 지정 Amazon Nova 모델에서 예측 또는 추론을 가져올 수 있습니다. SageMaker는 모든 ML 추론 요구 사항을 충족하는 데 도움이 되는 다양한 ML 인프라 및 모델 배포 옵션을 제공합니다. SageMaker 추론을 사용하면 모델 배포를 확장하고, 프로덕션에서 모델을 더 효과적으로 관리하며, 운영 부담을 줄일 수 있습니다.
SageMaker는 지연 시간이 짧은 추론을 위한 실시간 엔드포인트 및 요청 배치 처리를 위한 비동기 엔드포인트와 같은 다양한 추론 옵션을 제공합니다. 사용 사례에 적합한 추론 옵션을 활용하면 효율적인 모델 배포 및 추론을 보장할 수 있습니다. SageMaker 추론에 대한 자세한 내용은 Deploy models for inference를 참조하세요.
중요
SageMaker 추론에서는 전체 순위 사용자 지정 모델 및 LoRA 병합 모델만 지원됩니다. 병합되지 않은 LoRA 모델 및 기본 모델의 경우 Amazon Bedrock을 사용합니다.
특성
SageMaker 추론에서 Amazon Nova 모델에 대해 사용할 수 있는 기능은 다음과 같습니다.
모델 기능
-
텍스트 생성
배포 및 조정
-
사용자 지정 인스턴스 선택이 포함된 실시간 엔드포인트
-
오토 스케일링 - 트래픽 패턴에 따라 용량을 자동으로 조정하여 비용과 GPU 사용률을 최적화합니다. 자세한 내용은 Automatically Scale Amazon SageMaker Models를 참조하세요.
-
실시간 토큰 생성을 위한 스트리밍 API 지원
모니터링 및 최적화
-
모니터링 및 알림을 위한 Amazon CloudWatch 통합
-
VPC 구성을 통한 가용 영역 인지 지연 시간 최적화
개발 도구
-
AWS CLI 지원 – 자세한 내용은 AWS CLI Command Reference for SageMaker를 참조하세요.
-
SDK 지원을 통한 노트북 통합
지원되는 모델 및 인스턴스
SageMaker 추론 엔드포인트를 생성하는 경우 두 가지 환경 변수(CONTEXT_LENGTH 및 MAX_CONCURRENCY)를 설정하여 배포를 구성할 수 있습니다.
-
CONTEXT_LENGTH- 요청당 최대 총 토큰 길이(입력 + 출력) -
MAX_CONCURRENCY- 엔드포인트가 지원하는 최대 동시 요청 수
다음 표에는 지원되는 Amazon Nova 모델, 인스턴스 유형 및 지원되는 구성이 나와 있습니다. MAX_CONCURRENCY 값은 각 CONTEXT_LENGTH 설정에서 지원되는 최대 동시성을 나타냅니다.
| 모델 | 인스턴스 유형 | 지원되는 구성 |
|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16 |
| ml.g5.24xlarge | CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 | |
| ml.g6.12xlarge |
CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16 |
|
| ml.g6.24xlarge | CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 | |
| ml.g6.48xlarge | CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 | |
| ml.p5.48xlarge |
CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2 CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1 |
|
| Amazon Nova Lite | ml.g6.48xlarge |
CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16 |
| ml.p5.48xlarge |
CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2 CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1 |
|
| Nova 2 Lite | ml.p5.48xlarge |
CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2 CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1 |
참고
표시된 MAX_CONCURRENCY 값은 각 CONTEXT_LENGTH 설정의 상한입니다. 동일한 동시성으로 더 짧은 컨텍스트 길이를 사용할 수 있지만, 이러한 값을 초과하면 SageMaker 엔드포인트 생성에 실패합니다.
예를 들어 ml.g5.12xlarge를 사용하는 Amazon Nova Micro의 경우:
-
CONTEXT_LENGTH=2000,MAX_CONCURRENCY=32→ 유효 -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=32→ 거부됨(컨텍스트 길이 8,000에서 동시성 제한은 16) -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=4→ 유효 -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=16→ 유효 -
CONTEXT_LENGTH=10000→ 거부됨(이 인스턴스에서 최대 컨텍스트는 8,000)
지원되는 AWS 리전
다음 표에는 SageMaker 추론에서 Amazon Nova 모델을 사용할 수 있는 AWS 리전이 나와 있습니다.
| 리전 이름 | 리전 코드 | 가용성 |
|---|---|---|
| 미국 동부(버지니아 북부) | us-east-1 | Available |
| 미국 서부(오리건) | us-west-2 | Available |
지원되는 컨테이너 이미지
다음 표에는 SageMaker 추론에서 Amazon Nova 모델에 대한 컨테이너 이미지 URI가 리전별로 나와 있습니다. 각 리전에 대해 버전 관리된 태그(v1.0.0) 및 최신 태그(SM-Inference-latest)와 같은 두 가지 이미지 태그를 사용할 수 있습니다. 프로덕션 배포의 경우 버전 관리된 태그를 사용하는 것이 좋습니다.
| 리전 | 컨테이너 이미지 URI |
|---|---|
| us-east-1 |
|
| us-west-2 |
|
모범 사례
SageMaker에서 모델을 배포하고 관리하는 모범 사례는 Best Practices for SageMaker를 참조하세요.
지원
SageMaker 추론에서 Amazon Nova 모델에 대한 지원 및 관련 문제는 콘솔 또는 AWS 계정 관리자를 통해 AWS Support에 문의하세요.