최적화된 생성형 AI 추론 권장 사항

Amazon SageMaker AI는 이제 수동 최적화 및 벤치마킹을 제거하여 최적의 추론 성능을 제공하는 기능인 추론 권장 사항을 지원합니다. GPU 인스턴스 유형, 서비스 컨테이너, 병렬 처리 전략 및 최적화 기법의 조합을 수동으로 테스트하는 대신 모델 및 워크로드 요구 사항을 제공하고 SageMaker AI는 실제 성능 지표와 함께 검증된 배포 지원 구성을 반환합니다.

추론 권장 사항은 모델의 아키텍처를 분석하고 구성 공간을 좁히며 처리량을 위한 투기 디코딩 및 지연 시간을 위한 커널 튜닝과 같은 목표 정렬 최적화를 적용합니다. 여러 인스턴스 유형을 평가하여 워크로드에 가장 적합한 가격 대비 옵션을 선택할 수 있습니다. 실제 GPU 인프라에서 각 구성을 벤치마킹하므로 자신 있게 배포하고 추론 지출의 크기를 조정할 수 있습니다.

작동 방식

SageMaker AI Studio 또는 SageMaker AI SageMaker APIs. 다음 단계에서는 워크플로를 설명합니다.

모델을 준비합니다. Amazon S3 또는 SageMaker AI 모델 레지스트리의 모델 아티팩트를 가리킵니다. 추론 권장 사항은 기본 모델과 사용자 지정 또는 미세 조정된 모델을 포함하여 SafeTensor 가중치가 있는 HuggingFace 체크포인트 형식을 지원합니다.
워크로드를 정의합니다. 입력 및 출력 토큰 배포와 동시성 수준을 포함하여 예상되는 트래픽 패턴을 설명합니다. 인라인 사양 또는 Amazon S3의 대표 데이터 세트를 사용할 수 있습니다.
목표를 설정합니다. 비용 최적화, 지연 시간 최소화 또는 처리량 극대화라는 단일 성능 목표를 선택합니다. 비교할 인스턴스 유형을 최대 3개까지 선택합니다.
결과를 검토합니다. SageMaker AI는 첫 번째 토큰 시간(TTFT), 토큰 간 지연 시간, P50/P90/P99에서의 요청 지연 시간, 처리량, 구성당 비용 등의 실제 성능 지표를 사용하여 검증된 구성을 반환합니다. 각 구성은 배포가 가능합니다.
배포. 선택한 구성을 SageMaker AI Studio의 단일 작업을 사용하거나 API를 통해 프로그래밍 방식으로 SageMaker AI 추론 엔드포인트에 배포합니다.

기존 프로덕션 엔드포인트를 벤치마킹하여 현재 성능을 검증하거나 새 구성과 비교할 수도 있습니다.

사용 사례

다음은 추론 권장 사항의 일반적인 사용 사례입니다.

배포 전 검증. 프로덕션 배포를 커밋하기 전에 새 모델을 최적화하고 벤치마킹합니다. 크기 조정에 투자하기 전에 모델의 성능을 검증합니다.
업데이트 후 회귀 테스트. 컨테이너 업데이트, 프레임워크 업그레이드 또는 라이브러리 릴리스 제공 후 성능을 검증합니다. 프로덕션으로 푸시하기 전에 구성이 여전히 최적인지 확인합니다.
조건이 변경될 때 적절한 크기 조정. 트래픽 패턴이 이동하거나 새 인스턴스 유형을 사용할 수 있게 되면 몇 주 길이의 수동 프로세스를 다시 시작하는 대신 몇 시간 만에 추론 권장 사항을 다시 실행합니다.
모델 비교. 여러 인스턴스 유형에서 다양한 모델 변형의 성능과 비용을 비교하여 프로덕션 배포 전에 정보에 입각한 선택을 할 수 있습니다.
비용 최적화. 기존 프로덕션 엔드포인트를 벤치마킹하여 과다 프로비저닝된 인프라를 식별합니다. 결과를 사용하여 반복되는 추론 지출을 적절하게 조정하고 줄일 수 있습니다.

가격 책정

추론 권장 사항에는 추가 서비스 요금이 부과되지 않습니다. 추가 컴퓨팅 비용 없이 기존 ML 예약(유연한 훈련 계획)을 사용하거나 자동으로 프로비저닝되는 온디맨드 컴퓨팅을 사용할 수 있습니다.

지원되는 리전:

추론 권장 사항은 다음 AWS 리전에서 사용할 수 있습니다.

미국 동부(버지니아 북부)
미국 동부(오하이오)
미국 서부(오리건)
아시아 태평양(싱가포르)
아시아 태평양(도쿄)
유럽(프랑크푸르트)
유럽(아일랜드)

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

추론 최적화

워크로드 구성 설정