Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Catatan rilis
Lihat catatan rilis berikut untuk melacak pembaruan terbaru untuk pelatihan SageMaker HyperPod checkpointless.
Pelatihan SageMaker HyperPod checkpointless v1.0.1
Tanggal: 10 April 2026
Perbaikan Bug
-
Memperbaiki pengikatan perangkat CUDA yang salah di utas penanganan kesalahan. Utas penanganan kesalahan sekarang dengan benar mengatur konteks perangkat CUDA dengan menggunakan
LOCAL_RANK. Perbaikan ini mencegah kesalahan ketidakcocokan perangkat selama pemulihan kesalahan dalam proses.
Pelatihan SageMaker HyperPod checkpointless v1.0.0
Tanggal: 03 Desember 2025
SageMaker HyperPod Fitur pelatihan checkpointless
-
Peningkatan Inisialisasi Komunikasi Kolektif: Menawarkan metode inisialisasi baru, Rootless dan TCPStoreless untuk NCCL dan Gloo.
-
Memory-mapped (MMAP) Dataloader: Cache (bertahan) batch yang diambil sebelumnya sehingga tersedia bahkan ketika kesalahan menyebabkan restart pekerjaan pelatihan.
-
Checkpointless: Memungkinkan pemulihan yang lebih cepat dari kesalahan pelatihan klaster di lingkungan pelatihan terdistribusi skala besar dengan membuat pengoptimalan tingkat kerangka kerja
-
Dibangun di atas Nvidia Nemo dan PyTorch Lightning: Memanfaatkan kerangka kerja yang kuat ini untuk pelatihan model yang efisien dan fleksibel
SageMaker HyperPod Kontainer Docker pelatihan tanpa pemeriksaan
Pelatihan checkpointless HyperPod dibangun di atas kerangka kerja NVIDIA NeMo
Ketersediaan
Saat ini gambar hanya tersedia di:
eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2
tetapi tidak tersedia di 3 Wilayah keikutsertaan berikut:
ap-southeast-3 ap-southeast-4 eu-south-2
Detail kontainer
Pelatihan checkpointless Docker container untuk PyTorch v2.6.0 dengan CUDA v12.9
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
Pre-installed paket
PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0