

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 릴리스 노트
<a name="sagemaker-eks-checkpointless-release-notes"></a>

SageMaker HyperPod 체크포인트 없는 훈련에 대한 최신 업데이트를 추적하려면 다음 릴리스 정보를 참조하세요.

**SageMaker HyperPod 체크포인트 없는 훈련 v1.0.0**

날짜: 2025년 12월 3일

**SageMaker HyperPod 체크포인트 없는 훈련 기능**
+ **집합 통신 초기화 개선 사항**: NCCL 및 Gloo용 Rootless 및 TCPStoreless라는 새로운 초기화 방법을 제공합니다.
+ **메모리 매핑(MMAP)** 데이터 로더: 장애가 훈련 작업을 다시 시작하는 경우에도 사용할 수 있도록 미리 가져온 배치를 캐싱(지속)합니다.
+ **체크포인트 없음**: 프레임워크 수준 최적화를 통해 대규모 분산 훈련 환경에서 클러스터 훈련 결함을 더 빠르게 복구할 수 있습니다.
+ **Nvidia Nemo 및 PyTorch Lightning 기반**: 효율적이고 유연한 모델 훈련을 위해 이러한 강력한 프레임워크를 활용합니다.
  + [Nividia NeMo](https://github.com/NVIDIA-NeMo/NeMo)
  + [PyTorch 조명](https://lightning.ai/docs/pytorch/stable/)

**SageMaker HyperPod 체크포인트리스 훈련 Docker 컨테이너**

HyperPod에 대한 체크포인트 없는 훈련은 [ NVIDIA NeMo 프레임워크](https://docs.nvidia.com/nemo-framework/user-guide/latest/overview.html)를 기반으로 구축되었습니다. HyperPod 체크포인트 없는 훈련은 NCCL 및 PyTorch 최적화를 통해 기본 이미지가 포함된 기본 컨테이너에서 제공되는 프레임워크 수준 최적화를 통해 대규모 분산 훈련 환경에서 클러스터 훈련 장애로부터 더 빠르게 복구하는 것을 목표로 합니다.

**가용성**

현재 이미지는 다음에서만 사용할 수 있습니다.

```
eu-north-1
ap-south-1
us-east-2
eu-west-1
eu-central-1
sa-east-1
us-east-1
eu-west-2
ap-northeast-1
us-west-2
us-west-1
ap-southeast-1
ap-southeast-2
```

다음 3개의 옵트인 리전에서는 사용할 수 없습니다.

```
ap-southeast-3
ap-southeast-4
eu-south-2
```

**컨테이너 세부 정보**

CUDA v12.9를 사용하는 PyTorch v2.6.0용 체크포인트 없는 훈련 Docker 컨테이너

```
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
```

**사전 설치된 패키지**

```
PyTorch: v2.6.0
CUDA: v12.9
NCCL: v2.27.5
EFA: v1.43.0
AWS-OFI-NCCL v1.16.0
Libfabric version 2.1
Megatron v0.15.0
Nemo v2.6.0rc0
```