View a markdown version of this page

Catatan rilis - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Catatan rilis

Lihat catatan rilis berikut untuk melacak pembaruan terbaru untuk pelatihan SageMaker HyperPod checkpointless.

Pelatihan SageMaker HyperPod checkpointless v1.0.1

Tanggal: 10 April 2026

Perbaikan Bug

  • Memperbaiki pengikatan perangkat CUDA yang salah di utas penanganan kesalahan. Utas penanganan kesalahan sekarang dengan benar mengatur konteks perangkat CUDA dengan menggunakanLOCAL_RANK. Perbaikan ini mencegah kesalahan ketidakcocokan perangkat selama pemulihan kesalahan dalam proses.

Pelatihan SageMaker HyperPod checkpointless v1.0.0

Tanggal: 03 Desember 2025

SageMaker HyperPod Fitur pelatihan checkpointless

  • Peningkatan Inisialisasi Komunikasi Kolektif: Menawarkan metode inisialisasi baru, Rootless dan TCPStoreless untuk NCCL dan Gloo.

  • Memory-mapped (MMAP) Dataloader: Cache (bertahan) batch yang diambil sebelumnya sehingga tersedia bahkan ketika kesalahan menyebabkan restart pekerjaan pelatihan.

  • Checkpointless: Memungkinkan pemulihan yang lebih cepat dari kesalahan pelatihan klaster di lingkungan pelatihan terdistribusi skala besar dengan membuat pengoptimalan tingkat kerangka kerja

  • Dibangun di atas Nvidia Nemo dan PyTorch Lightning: Memanfaatkan kerangka kerja yang kuat ini untuk pelatihan model yang efisien dan fleksibel

SageMaker HyperPod Kontainer Docker pelatihan tanpa pemeriksaan

Pelatihan checkpointless HyperPod dibangun di atas kerangka kerja NVIDIA NeMo . HyperPod pelatihan checkpointless bertujuan untuk memulihkan lebih cepat dari kesalahan pelatihan cluster di lingkungan pelatihan terdistribusi skala besar dengan membuat pengoptimalan tingkat kerangka kerja yang akan disampaikan pada wadah dasar yang berisi gambar dasar dengan NCCL dan pengoptimalan. PyTorch

Ketersediaan

Saat ini gambar hanya tersedia di:

eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2

tetapi tidak tersedia di 3 Wilayah keikutsertaan berikut:

ap-southeast-3 ap-southeast-4 eu-south-2

Detail kontainer

Pelatihan checkpointless Docker container untuk PyTorch v2.6.0 dengan CUDA v12.9

963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1

Pre-installed paket

PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0