

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Catatan rilis
<a name="sagemaker-eks-checkpointless-release-notes"></a>

Lihat catatan rilis berikut untuk melacak pembaruan terbaru untuk pelatihan SageMaker HyperPod checkpointless.

**Pelatihan SageMaker HyperPod checkpointless v1.0.0**

Tanggal: 03 Des 2025

**SageMaker HyperPod Fitur pelatihan checkpointless**
+ **Peningkatan Inisialisasi Komunikasi Kolektif**: Menawarkan metode inisialisasi baru, Tanpa Akar dan TCPStoreless untuk NCCL dan Gloo.
+ **Memory-mapped (MMAP)** Dataloader: Cache (bertahan) batch yang diambil sebelumnya sehingga tersedia bahkan ketika kesalahan menyebabkan restart pekerjaan pelatihan.
+ **Checkpointless**: Memungkinkan pemulihan yang lebih cepat dari kesalahan pelatihan klaster di lingkungan pelatihan terdistribusi skala besar dengan membuat pengoptimalan tingkat kerangka kerja
+ **Dibangun di atas Nvidia Nemo dan PyTorch Lightning**: Memanfaatkan kerangka kerja yang kuat ini untuk pelatihan model yang efisien dan fleksibel
  + [Nividia NeMo](https://github.com/NVIDIA-NeMo/NeMo)
  + [PyTorch Petir](https://lightning.ai/docs/pytorch/stable/)

**SageMaker HyperPod Kontainer Docker pelatihan tanpa pemeriksaan**

Pelatihan checkpointless HyperPod dibangun di atas kerangka kerja [NVIDIA NeMo ](https://docs.nvidia.com/nemo-framework/user-guide/latest/overview.html). HyperPod pelatihan checkpointless bertujuan untuk memulihkan lebih cepat dari kesalahan pelatihan klaster di lingkungan pelatihan terdistribusi skala besar dengan membuat pengoptimalan tingkat kerangka kerja yang akan disampaikan pada wadah dasar yang berisi gambar dasar dengan NCCL dan pengoptimalan. PyTorch 

**Ketersediaan**

Saat ini gambar hanya tersedia di:

```
eu-north-1
ap-south-1
us-east-2
eu-west-1
eu-central-1
sa-east-1
us-east-1
eu-west-2
ap-northeast-1
us-west-2
us-west-1
ap-southeast-1
ap-southeast-2
```

tetapi tidak tersedia di 3 Wilayah keikutsertaan berikut:

```
ap-southeast-3
ap-southeast-4
eu-south-2
```

**Detail kontainer**

Pelatihan checkpointless Docker container untuk PyTorch v2.6.0 dengan CUDA v12.9

```
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
```

**Paket pra-instal**

```
PyTorch: v2.6.0
CUDA: v12.9
NCCL: v2.27.5
EFA: v1.43.0
AWS-OFI-NCCL v1.16.0
Libfabric version 2.1
Megatron v0.15.0
Nemo v2.6.0rc0
```