

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 版本備註
<a name="sagemaker-eks-checkpointless-release-notes"></a>

請參閱下列版本備註，以追蹤 SageMaker HyperPod 無檢查點訓練的最新更新。

**SageMaker HyperPod 無檢查點訓練 1.0.0 版**

日期：2025 年 12 月 3 日

**SageMaker HyperPod 無檢查點訓練功能**
+ **集體通訊初始化改進**：為 NCCL 和 Gloo 提供新的初始化方法、無根和 TCPStoreless。
+ **記憶體映射 (MMAP)** 資料載入器：快取 （持久性） 預先擷取的批次，即使故障導致訓練任務重新啟動，也可以使用這些批次。
+ **無檢查點**：透過進行架構層級最佳化，在大規模分散式訓練環境中更快速地從叢集訓練故障中復原
+ **以 Nvidia Nemo 和 PyTorch Lightning 為基礎**： 利用這些強大的架構進行有效率且靈活的模型訓練
  + [Nividia NeMo](https://github.com/NVIDIA-NeMo/NeMo)
  + [PyTorch Lightning](https://lightning.ai/docs/pytorch/stable/)

**SageMaker HyperPod 無檢查點訓練 Docker 容器**

HyperPod 上的無檢查點訓練是以 [ NVIDIA NeMo 架構](https://docs.nvidia.com/nemo-framework/user-guide/latest/overview.html)為基礎。HyperPod 無檢查點訓練旨在透過使用 NCCL 和 PyTorch 最佳化，在包含基礎映像的基礎容器上進行架構層級最佳化，以更快的速度從大規模分散式訓練環境中的叢集訓練故障中復原。

**可用性**

目前映像僅適用於：

```
eu-north-1
ap-south-1
us-east-2
eu-west-1
eu-central-1
sa-east-1
us-east-1
eu-west-2
ap-northeast-1
us-west-2
us-west-1
ap-southeast-1
ap-southeast-2
```

但不適用於下列 3 個選擇加入區域：

```
ap-southeast-3
ap-southeast-4
eu-south-2
```

**容器詳細資訊**

適用於 PyTorch v2.6.0 搭配 CUDA v12.9 的無檢查點訓練 Docker 容器

```
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
```

**預先安裝的套件**

```
PyTorch: v2.6.0
CUDA: v12.9
NCCL: v2.27.5
EFA: v1.43.0
AWS-OFI-NCCL v1.16.0
Libfabric version 2.1
Megatron v0.15.0
Nemo v2.6.0rc0
```