

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon SageMaker HyperPod
<a name="sagemaker-hyperpod"></a>

SageMaker HyperPod는 기계 학습(ML) 워크로드를 실행하고 대형 언어 모델(LLM), 확산 모델 및 파운데이션 모델(FM)과 같은 최첨단 모델을 개발하기 위한 탄력적 클러스터를 프로비저닝하는 데 도움이 됩니다. AWS Trainium 및 NVIDIA A100 및 H100 그래픽 처리 장치(GPU)와 같은 수천 개의 액셀러레이터로 구동되는 대규모 컴퓨팅 클러스터를 구축하고 유지 관리하는 데 관련된 차별화되지 않은 헤비 리프트를 제거하여 FMs 개발을 가속화합니다.GPUs 액셀러레이터가 실패하면 SageMaker HyperPod의 복원력 기능이 클러스터 인스턴스를 자동으로 감지하고 결함 있는 하드웨어를 즉시 교체하므로 ML 워크로드 실행에 집중할 수 있습니다.

시작하려면 [SageMaker HyperPod 사용을 위한 사전 조건](sagemaker-hyperpod-prerequisites.md)를 확인하고, [AWS Identity and Access Management SageMaker HyperPod용](sagemaker-hyperpod-prerequisites-iam.md)를 설정하고, SageMaker HyperPod에서 지원하는 다음 오케스트레이터 옵션 중 하나를 선택합니다.

**SageMaker HyperPod의 Slurm 지원**

SageMaker HyperPod는 오픈 소스 워크로드 관리자인 Slurm과 통합하여 탄력적 클러스터에서 기계 학습 워크로드를 실행할 수 있도록 지원합니다. SageMaker HyperPod에서 Slurm을 지원하면 Slurm 클러스터 구성을 통해 원활한 클러스터 오케스트레이션이 가능하므로 SageMaker HyperPod 클러스터에서 헤드, 로그인 및 작업자 노드를 설정할 수 있습니다. 또한 이 통합을 통해 클러스터에서 ML 워크로드를 실행하기 위한 Slurm 기반 작업 예약과 작업 예약을 위한 클러스터 노드에 대한 직접 액세스를 용이하게 할 수 있습니다. HyperPod 수명 주기 구성 지원을 사용하면 특정 요구 사항에 맞게 클러스터의 컴퓨팅 환경을 사용자 지정할 수 있습니다. 또한 Amazon SageMaker AI 분산 훈련 라이브러리를 활용하여 AWS 컴퓨팅 및 네트워크 리소스에서 클러스터의 성능을 최적화할 수 있습니다. 자세한 내용은 [Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션](sagemaker-hyperpod-slurm.md)를 참조하세요.

**SageMaker HyperPod의 Amazon EKS 지원**

또한 SageMaker HyperPod는 Amazon EKS와 통합되어 장기 실행 및 복원력이 뛰어난 컴퓨팅 클러스터에 대한 파운데이션 모델을 대규모로 훈련할 수 있습니다. 이를 통해 클러스터 관리자 사용자는 HyperPod 클러스터를 프로비저닝하고 EKS 제어 영역에 연결하여 동적 용량 관리, 클러스터 인스턴스에 대한 직접 액세스 및 복원력 기능을 사용할 수 있습니다. 데이터 과학자의 경우 HyperPod에서 Amazon EKS 지원을 사용하면 파운데이션 모델 훈련, EKS 클러스터에 대한 추론, Kubeflow PyTorch 훈련을 위한 작업 자동 재개 기능을 위한 컨테이너화된 워크로드를 실행할 수 있습니다. 아키텍처에는 EKS 클러스터(제어 영역)와 VPC 내의 HyperPod 클러스터(작업자 노드) 간의 1대1 매핑이 포함되어 있으므로 대규모 ML 워크로드를 실행하기 위한 긴밀하게 통합된 솔루션을 제공합니다. 자세한 내용은 [Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션](sagemaker-hyperpod-eks.md)를 참조하세요.

**HyperPod의 UltraServers**

UltraServers가 포함된 HyperPod는 NVIDIA 슈퍼칩을 응집력 있는 고성능 인프라에 통합하여 AI 컴퓨팅 성능을 제공합니다. 각 NVL72 UltraServer는 18개의 인스턴스와 NVLink를 통해 상호 연결된 72개의 NVIDIA Blackwell GPU를 결합하여 이전 세대 인스턴스에 비해 더 빠른 추론과 더 빠른 훈련 성능을 지원합니다. 이 아키텍처는 조 단위의 파라미터 파운데이션 모델로 작업하는 조직에 특히 유용합니다. 통합 GPU 메모리를 통해 전체 모델을 단일 NVLink 도메인 내에 유지할 수 있어 노드 간 네트워킹 병목 현상을 제거할 수 있기 때문입니다. HyperPod는 워크로드 배치를 최적화하는 지능형 토폴로지 인식 스케줄링, 중단을 최소화하기 위한 자동 인스턴스 교체, 전용 및 공유 리소스 구성을 모두 지원하는 유연한 배포 옵션을 통해 이러한 하드웨어 이점을 개선합니다. 모델 크기와 성능의 경계를 넓히는 팀을 위해 이 통합은 전례 없는 효율성으로 최첨단 AI 모델을 훈련하고 배포하는 데 필요한 컴퓨팅 기반을 제공합니다.

SageMaker HyperPod는 UltraServers 전반에서 인스턴스 배치를 자동으로 최적화합니다. 기본적으로 HyperPod는 다른 UltraServer를 사용하기 전에 한 UltraServer의 모든 인스턴스에 우선순위를 지정합니다. 예를 들어 14개의 인스턴스를 원하고 계획에 2개의 UltraServers가 있는 경우 SageMaker AI는 첫 번째 UltraServer에서 모든 인스턴스를 사용합니다. 인스턴스 20개를 원하는 경우 SageMaker AI는 첫 번째 UltraServer에서 인스턴스 18개를 모두 사용한 다음, 두 번째 UltraSever에서 2개를 더 사용합니다.

## AWS 리전 SageMaker HyperPod에서 지원
<a name="sagemaker-hyperpod-available-regions"></a>

SageMaker HyperPod는 다음에서 사용할 수 있습니다 AWS 리전.
+ us-east-1
+ us-east-2
+ us-west-1
+ us-west-2
+ eu-central-1
+ eu-north-1
+ eu-west-1
+ eu-west-2
+ eu-south-2
+ ap-south-1
+ ap-southeast-1
+ ap-southeast-2
+ ap-southeast-3
+ ap-southeast-4
+ ap-northeast-1
+ sa-east-1

**Topics**
+ [AWS 리전 SageMaker HyperPod에서 지원](#sagemaker-hyperpod-available-regions)
+ [Amazon SageMaker HyperPod 빠른 시작](sagemaker-hyperpod-quickstart.md)
+ [SageMaker HyperPod 사용을 위한 사전 조건](sagemaker-hyperpod-prerequisites.md)
+ [AWS Identity and Access Management SageMaker HyperPod용](sagemaker-hyperpod-prerequisites-iam.md)
+ [SageMaker HyperPod에 대한 고객 관리형 AWS KMS key 암호화](smcluster-cmk.md)
+ [SageMaker HyperPod 레시피](sagemaker-hyperpod-recipes.md)
+ [Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션](sagemaker-hyperpod-slurm.md)
+ [Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션](sagemaker-hyperpod-eks.md)
+ [Amazon SageMaker HyperPod에서 토폴로지 인식 스케줄링 사용](sagemaker-hyperpod-topology.md)
+ [Amazon SageMaker HyperPod에 모델 배포](sagemaker-hyperpod-model-deployment.md)
+ [Studio의 HyperPod](sagemaker-hyperpod-studio.md)
+ [SageMaker HyperPod 참조](sagemaker-hyperpod-ref.md)
+ [Amazon SageMaker HyperPod 릴리스 정보](sagemaker-hyperpod-release-notes.md)
+ [Amazon SageMaker HyperPod AMI](sagemaker-hyperpod-release-ami.md)