Amazon SageMaker HyperPod에 모델 배포 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker HyperPod에 모델 배포

Amazon SageMaker HyperPod는 이제 훈련을 넘어 Kubernetes의 유연성과 AWS 관리형 서비스의 운영 우수성을 결합한 포괄적인 추론 플랫폼을 제공합니다. 전체 모델 수명 주기 동안 동일한 HyperPod 컴퓨팅을 사용하여 엔터프라이즈급 신뢰성으로 기계 학습 모델을 배포, 규모 조정 및 최적화합니다.

Amazon SageMaker HyperPod는 kubectl, Python SDK, Amazon SageMaker Studio UI 또는 HyperPod CLI를 비롯한 여러 방법을 통해 모델을 배포할 수 있는 유연한 배포 인터페이스를 제공합니다. 이 서비스는 수요에 따라 자동으로 조정되는 동적 리소스 할당을 통해 고급 오토 스케일링 기능을 제공합니다. 또한 첫 토큰까지의 시간, 지연 시간 및 GPU 사용률과 같은 중요한 지표를 추적하여 성능을 최적화하는 데 도움이 되는 포괄적인 관찰성 및 모니터링 기능이 포함되어 있습니다.

참고

GPU 지원 인스턴스에 배포할 때 다중 인스턴스 GPU(MIG) 기술과 함께 GPU 파티셔닝을 사용하여 단일 GPU에서 여러 추론 워크로드를 실행할 수 있습니다. 이를 통해 GPU 사용률을 높이고 비용을 최적화할 수 있습니다. GPU 파티셔닝 구성에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker HyperPod에서 GPU 파티션 사용.

훈련 및 추론을 위한 통합 인프라

훈련 워크로드와 추론 워크로드 간에 컴퓨팅 리소스를 원활하게 전환하여 GPU 사용률을 극대화합니다. 이렇게 하면 운영 연속성을 유지하면서 총 소유 비용을 줄일 수 있습니다.

엔터프라이즈에서 사용 가능한 배포 옵션

단일 노드 및 다중 노드 추론 아키텍처를 모두 지원하여 Amazon SageMaker JumpStart의 오픈 가중치 및 게이트 모델과 Amazon S3 및 Amazon FSx의 사용자 지정 모델을 비롯해 여러 소스에서 모델을 배포합니다.

관리형 계층형 키-값(KV) 캐싱 및 지능형 라우팅

KV 캐싱은 이전 토큰을 처리한 후 미리 계산된 키-값 벡터를 저장합니다. 다음 토큰이 처리되면 벡터를 다시 계산할 필요가 없습니다. 2계층 캐싱 아키텍처를 통해 지연 시간이 짧은 로컬 재사용을 위해 CPU 메모리를 사용하는 L1 캐시와 Redis를 활용하여 확장 가능한 노드 수준 캐시 공유를 지원하는 L2 캐시를 구성할 수 있습니다.

지능형 라우팅은 수신 요청을 분석하고 관련 캐시 키-값 페어가 있을 가능성이 가장 높은 추론 인스턴스로 전달합니다. 시스템은 요청을 검사한 다음 다음 라우팅 전략 중 하나를 기반으로 라우팅합니다.

  1. prefixaware - 프롬프트 접두사가 동일한 후속 요청은 동일한 인스턴스로 라우팅됩니다.

  2. kvaware - 수신 요청은 KV 캐시 적중률이 가장 높은 인스턴스로 라우팅됩니다.

  3. session - 동일한 사용자 세션의 요청은 동일한 인스턴스로 라우팅됩니다.

  4. roundrobin - KV 캐시의 상태를 고려하지 않고 요청을 고르게 배포합니다.

이 기능을 활성화하는 방법에 대한 자세한 내용은 섹션을 참조하세요성능 향상을 위한 KV 캐싱 및 지능형 라우팅 구성.

KV 캐싱을 위한 내장 L2 캐시 계층형 스토리지 지원

기존 KV 캐시 인프라를 기반으로 구축된 HyperPod는 이제 계층형 스토리지를 Redis와 함께 추가 L2 백엔드 옵션으로 통합합니다. 내장된 SageMaker 관리형 계층형 스토리지를 사용하면 성능이 향상됩니다. 이 개선 사항은 캐시 오프로딩을 위한 보다 확장 가능하고 효율적인 옵션을 고객에게 제공하며, 처리량이 많은 LLM 추론 워크로드에 특히 유용합니다. 통합은 기존 vLLM 모델 서버 및 라우팅 기능과의 호환성을 유지하면서 더 나은 성능을 제공합니다.

참고

데이터 암호화: KV 캐시 데이터(주의 키 및 값)는 유휴 시 암호화되지 않은 상태로 저장되어 추론 지연 시간을 최적화하고 성능을 개선합니다. encryption-at-rest 요구 사항이 엄격한 워크로드의 경우 프롬프트 및 응답의 애플리케이션 계층 암호화를 고려하거나 캐싱을 비활성화합니다.

데이터 격리: 관리형 계층형 스토리지를 L2 캐시 백엔드로 사용하는 경우 클러스터 내의 여러 추론 배포는 격리 없이 캐시 스토리지를 공유합니다. 다른 배포의 L2 KV 캐시 데이터(주의 키 및 값)는 분리되지 않습니다. 데이터 격리가 필요한 워크로드(다중 테넌트 시나리오, 다양한 데이터 분류 수준)의 경우 별도의 클러스터에 배포하거나 전용 Redis 인스턴스를 사용합니다.

자동 장애 조치가 포함된 다중 인스턴스 유형 배포

HyperPod 추론은 다중 인스턴스 유형 배포를 지원하여 배포 신뢰성과 리소스 사용률을 개선합니다. 배포 구성에서 우선순위가 지정된 인스턴스 유형 목록을 지정하면 선호하는 인스턴스 유형에 용량이 부족할 때 시스템에서 사용 가능한 대안 중에서 자동으로 선택합니다. Kubernetes 스케줄러는 preferredDuringSchedulingIgnoredDuringExecution 노드 선호도를 사용하여 우선 순위에 따라 인스턴스 유형을 평가하여 우선 순위가 가장 높은 인스턴스 유형에 워크로드를 배치하는 동시에 선호하는 리소스를 사용할 수 없는 경우에도 배포를 보장합니다. 이 기능은 비용 및 성능 기본 설정을 유지하면서 용량 제약으로 인한 배포 실패를 방지하여 클러스터 용량 변동 중에도 지속적인 서비스 가용성을 보장합니다.

세분화된 일정 제어를 위한 사용자 지정 노드 선호도

HyperPod 추론은 사용자 지정 노드 선호도를 지원하여 인스턴스 유형 선택 이상의 워크로드 배치를 제어합니다. nodeAffinity 필드를 통해 가용 영역 배포, 용량 유형 필터링(온디맨드 대 스팟) 또는 사용자 지정 노드 레이블과 같은 노드 선택 기준을 지정합니다. 시스템은를 사용하는 필수 배치 제약 조건requiredDuringSchedulingIgnoredDuringExecution과를 통한 선택적 기본 설정을 지원preferredDuringSchedulingIgnoredDuringExecution하므로 배포 유연성을 유지하면서 포드 예약 결정을 완벽하게 제어할 수 있습니다.

참고

필수 서비스 가용성을 제공하기 위해 특정 정기 운영 지표를 수집합니다. 이러한 지표의 생성은 완전히 자동화되며 기본 모델 추론 워크로드에 대한 인적 검토가 필요하지 않습니다. 이러한 지표는 배포 작업, 리소스 관리 및 엔드포인트 등록과 관련이 있습니다.