

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 適用於 Slurm 的 SageMaker HyperPod AMI 版本
<a name="sagemaker-hyperpod-release-ami-slurm"></a>

下列版本備註會追蹤 Slurm 協同運作的 Amazon SageMaker HyperPod AMI 版本最新更新。這些 HyperPod AMI 建置在 [AWS 深度學習基礎 GPU AMI (Ubuntu 22.04)](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-22-04/) 之上。HyperPod 服務團隊會透過 [SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami) 分發軟體修補程式。如需適用於 Amazon EKS 協同運作的 HyperPod AMI 版本，請參閱 [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本](sagemaker-hyperpod-release-ami-eks.md)。如需 Amazon SageMaker HyperPod 功能版本的相關資訊，請參閱 [Amazon SageMaker HyperPod 版本備註](sagemaker-hyperpod-release-notes.md)。

**注意**  
若要使用最新的 DLAMI 更新現有的 HyperPod 叢集，請參閱[更新叢集的 SageMaker HyperPod 平台軟體](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software)。

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2026 年 3 月 1 日
<a name="sagemaker-hyperpod-release-ami-slurm-20260301"></a>

 **AMI 一般更新** 
+ 發行 SageMaker HyperPod AMI for Slurm 24.11 版的更新。
+ [此處](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)提供基本 DLAMI 版本備註。

 **用於 Slurm 支援的 SageMaker HyperPod DLAMI** 

此版本包含下列更新：

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (ARM64)：
  + Linux 核心版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 用戶端版本：2.15.6-1fsx26
  + Runc 版本：1.3.4
  + Containerd 版本： containerd containerd.io v2.2.1
  + NVIDIA 驅動程式版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安裝程式版本：1.45.1
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + 收集版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx26
  + nvidia-imex 版本：580.126.09-1
  + systemd 版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + git 版本：2.34.1
  + make 版本：4.3
  + cloudwatch-agent 版本：1.300064.1b1344-1
  + nfs-utils 版本：1：2.6.1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connect 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1
+ Slurm 24.11 (x86\$164)：
  + Linux 核心版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 用戶端版本：2.15.6-1fsx26
  + Runc 版本：1.3.4
  + Containerd 版本： containerd containerd.io v2.2.1
  + aws Neuronx DKMS 版本：2.26.5.0
  + NVIDIA 驅動程式版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安裝程式版本：1.45.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + 壓力版本：1.0.5
  + 收集版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx26
  + systemd 版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + make 版本：4.3
  + cloudwatch-agent 版本：1.300064.1b1344-1
  + nfs-utils 版本：1：2.6.1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connect 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1

------

## Slurm 的 SageMaker HyperPod AMI 版本：2026 年 2 月 12 日
<a name="sagemaker-hyperpod-release-ami-slurm-20260212"></a>

 **AMI 一般更新** 
+ 發行 SageMaker HyperPod AMI for Slurm 24.11 版的更新。
+ [此處](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)提供基本 DLAMI 版本備註。

 **用於 Slurm 支援的 SageMaker HyperPod DLAMI** 

此版本包含下列更新：

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (ARM64)：
  + Linux 核心版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 用戶端版本：2.15.6-1fsx25
  + Runc 版本：1.3.4
  + Containerd 版本： Containerd containerd.io v2.2.1
  + NVIDIA 驅動程式版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安裝程式版本：1.45.1
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + 收集版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + nvidia-imex 版本：580.126.09-1
  + systemd 版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + git 版本：2.34.1
  + make 版本：4.3
  + cloudwatch-agent 版本：1.300064.0b1337-1
  + nfs-utils 版本：1：2.6.1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connect 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1
+ Slurm 24.11 (x86\$164)：
  + Linux 核心版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 用戶端版本：2.15.6-1fsx25
  + Runc 版本：1.3.4
  + Containerd 版本： Containerd containerd.io v2.2.1
  + aws Neuronx DKMS 版本：2.25.4.0
  + NVIDIA 驅動程式版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安裝程式版本：1.45.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + 壓力版本：1.0.5
  + 收集版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + systemd 版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + make 版本：4.3
  + cloudwatch-agent 版本：1.300064.0b1337-1
  + nfs-utils 版本：1：2.6.1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connect 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1

------

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2026 年 1 月 25 日
<a name="sagemaker-hyperpod-release-ami-slurm-20260125"></a>

 **AMI 一般更新** 
+ 發行 SageMaker HyperPod AMI for Slurm 24.11 版的更新。
+ [此處](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)提供基本 DLAMI 版本備註。

 **用於 Slurm 支援的 SageMaker HyperPod DLAMI** 

此版本包含下列更新：

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (ARM64)：
  + Linux 核心版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 用戶端版本：2.15.6-1fsx25
  + Runc 版本：1.3.4
  + Containerd 版本： Containerd containerd.io v2.2.1
  + NVIDIA 驅動程式版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安裝程式版本：2.3.1amzn3.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + 收集版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + nvidia-imex 版本：580.126.09-1
  + systemd 版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + git 版本：2.34.1
  + make 版本：4.3
  + cloudwatch-agent 版本：1.300063.0b1323-1
  + nfs-utils 版本：1：2.6.1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connect 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1
+ Slurm 24.11 (x86\$164)：
  + Linux 核心版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 用戶端版本：2.15.6-1fsx25
  + Runc 版本：1.3.4
  + Containerd 版本： containerd containerd.io v2.2.1
  + aws Neuronx DKMS 版本：2.25.4.0
  + NVIDIA 驅動程式版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安裝程式版本：2.3.1amzn2.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + stress 版本：1.0.5
  + 收集版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + systemd 版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + make 版本：4.3
  + cloudwatch-agent 版本：1.300063.0b1323-1
  + nfs-utils 版本：1：2.6.1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connect 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1

------

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2025 年 12 月 29 日
<a name="sagemaker-hyperpod-release-ami-slurm-20251229"></a>

 **AMI 一般更新** 
+ 發行 SageMaker HyperPod AMI for Slurm 24.11 版的更新。
+ [此處](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)提供基本 DLAMI 版本備註。

 **用於 Slurm 支援的 SageMaker HyperPod DLAMI** 

此版本包含下列更新：

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (ARM64)：
  + Linux 核心版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 用戶端版本：2.15.6-1fsx25
  + Runc 版本：1.3.4
  + Containerd 版本： containerd containerd.io v2.2.1
  + NVIDIA 驅動程式版本：580.105.08
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安裝程式版本：2.3.1amzn3.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + 收集版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + nvidia-imex 版本：580.105.08-1
  + systemd 版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + git 版本：2.34.1
  + make 版本：4.3
  + cloudwatch-agent 版本：1.300062.0b1304-1
  + nfs-utils 版本：1：2.6.1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connect 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1
+ Slurm 24.11 (x86\$164)：
  + Linux 核心版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 用戶端版本：2.15.6-1fsx25
  + Runc 版本：1.3.4
  + Containerd 版本： containerd containerd.io v2.2.1
  + aws Neuronx DKMS 版本：2.25.4.0
  + NVIDIA 驅動程式版本：580.105.08
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安裝程式版本：2.3.1amzn2.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + stress 版本：1.0.5
  + 收集版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + systemd 版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + make 版本：4.3
  + cloudwatch-agent 版本：1.300062.0b1304-1
  + nfs-utils 版本：1：2.6.1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connect 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1

------

## Slurm 的 SageMaker HyperPod AMI 版本：2025 年 11 月 22 日
<a name="sagemaker-hyperpod-release-ami-slurm-20251128"></a>

 **AMI 一般更新** 
+ 發行 SageMaker HyperPod AMI for Slurm 24.11 版的更新。
+ [此處](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)提供基本 DLAMI 版本備註。

 **用於 Slurm 支援的 SageMaker HyperPod DLAMI** 

此版本包含下列更新：

------
#### [ Slurm (arm64) ]
+ Linux 核心版本：6.8
+ Glibc 版本：2.35
+ OpenSSL 版本：3.0.2
+ FSx Lustre 用戶端版本：2.15.6-1fsx21
+ Runc 版本：1.3.3
+ Containerd 版本： containerd containerd.io v2.1.5
+ NVIDIA 驅動程式版本：580.95.05
+ CUDA 版本：12.6、12.8、12.9、13.0
+ EFA 安裝程式版本：2.1.0amzn5.0
+ Python 版本：3.10.12
+ Slurm 版本：24.11.0
+ nvme-cli 版本：1.16
+ 收集版本：5.12.0。
+ lustre-client 版本：2.15.6-1fsx21
+ nvidia-imex 版本：580.95.05-1
+ systemd 版本：249
+ openssh 版本：8.9
+ sudo 版本：1.9.9
+ ufw 版本：0.36.1
+ gcc 版本：11.4.0
+ cmake 版本：3.22.1
+ git 版本：2.34.1
+ make 版本：4.3
+ cloudwatch-agent 版本：1.300062.0b1304-1
+ nfs-utils 版本：1：2.6.1-1ubuntu1.2
+ iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
+ lvm2 版本：2.03.11
+ ec2-instance-connect 版本：1.1.14-0ubuntu1.1
+ rdma-core 版本：58.amzn0-1

------
#### [ Slurm (x86\$164) ]
+ Linux 核心版本：6.8
+ Glibc 版本：2.35
+ OpenSSL 版本：3.0.2
+ FSx Lustre 用戶端版本：2.15.6-1fsx21
+ Runc 版本：1.3.3
+ Containerd 版本： containerd containerd.io v2.1.5
+ aws Neuronx DKMS 版本：2.24.7.0
+ NVIDIA 驅動程式版本：580.95.05
+ CUDA 版本：12.6、12.8、12.9、13.0
+ EFA 安裝程式版本：2.3.1amzn1.0
+ Python 版本：3.10.12
+ Slurm 版本：24.11.0
+ nvme-cli 版本：1.16
+ 壓力版本：1.0.5
+ 收集版本：5.12.0。
+ lustre-client 版本：2.15.6-1fsx21
+ systemd 版本：249
+ openssh 版本：8.9
+ sudo 版本：1.9.9
+ ufw 版本：0.36.1
+ gcc 版本：11.4.0
+ cmake 版本：3.22.1
+ make 版本：4.3
+ cloudwatch-agent 版本：1.300062.0b1304-1
+ nfs-utils 版本：1：2.6.1-1ubuntu1.2
+ iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
+ lvm2 版本：2.03.11
+ ec2-instance-connect 版本：1.1.14-0ubuntu1.1
+ rdma-core 版本：59.amzn0-1

------

## SageMaker HyperPod 版本備註：2025 年 11 月 7 日
<a name="sagemaker-hyperpod-release-notes-20251107"></a>

**AMI 包含下列項目：**
+ 支援 AWS 服務：Amazon EC2
+ 作業系統：Ubuntu 22.04
+ 運算架構：ARM64
+ 更新套件：NVIDIA 驅動程式：580.95.05
+ CUDA 版本：cuda-12.6、cuda-12.8、cuda-12.9、cuda-13.0
+ 安全修正：[Runc 安全修補程式](https://aws.amazon.com/security/security-bulletins/rss/aws-2025-024/)

## SageMaker HyperPod 版本備註：2025 年 9 月 29 日
<a name="sagemaker-hyperpod-release-notes-20250929"></a>

**AMI 包含下列項目：**
+ 支援 AWS 服務：Amazon EC2
+ 作業系統：Ubuntu 22.04
+ 運算架構：ARM64
+ 更新套件：NVIDIA 驅動程式：570.172.08
+ 安全性修正

## SageMaker HyperPod 版本備註：2025 年 8 月 12 日
<a name="sagemaker-hyperpod-release-notes-20250812"></a>

**AMI 包含下列項目：**
+ 支援 AWS 服務：Amazon EC2
+ 作業系統：Ubuntu 22.04
+ 運算架構：ARM64
+ 下列套件已安裝最新的可用版本：
  + Linux 核心：6.8
  + FSx Lustre
  + Docker
  + AWS CLI v2 位於 `/usr/bin/aws`
  + NVIDIA DCGM
  + Nvidia 容器工具組：
    + 版本命令： `nvidia-container-cli -V`
  + Nvidia-docker2：
    + 版本命令： `nvidia-docker version`
  + Nvidia-IMEX：570.172.08-1 版
+ NVIDIA 驅動程式：570.158.01
+ NVIDIA CUDA 12.4、12.5、12.6、12.8 堆疊：
  + CUDA、NCCL 和 cuDDN 安裝目錄： `/usr/local/cuda-xx.x/`
    + 範例：`/usr/local/cuda-12.8/`、`/usr/local/cuda-12.8/`
  + 編譯的 NCCL 版本：
    + 對於 CUDA 目錄 12.4，編譯的 NCCL 2.22.3\$1CUDA12.4 版
    + 對於 CUDA 目錄 12.5，編譯的 NCCL 2.22.3\$1CUDA12.5 版
    + 對於 CUDA 目錄 12.6，編譯的 NCCL 2.24.3\$1CUDA12.6 版
    + 對於 CUDA 目錄 12.8，編譯的 NCCL 2.27.5\$1CUDA12.8 版
  + 預設 CUDA：12.8
    + PATH `/usr/local/cuda`指向 CUDA 12.8
    + 已更新下列 env vars：
      + `LD_LIBRARY_PATH` 讓 `/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64`
      + `PATH` 讓 `/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/`
      + 對於任何不同的 CUDA 版本，請`LD_LIBRARY_PATH`相應地更新。
+ EFA 安裝程式：1.42.0
+ Nvidia GDRCopy：2.5.1
+ AWS OFI NCCL 外掛程式隨附 EFA 安裝程式
  + 路徑 `/opt/amazon/ofi-nccl/lib/aarch64-linux-gnu`和 `/opt/amazon/ofi-nccl/efa` 會新增至 `LD_LIBRARY_PATH`。
+ AWS CLI v2 at `/usr/local/bin/aws2`和 AWS CLI v1 at `/usr/bin/aws`
+ EBS 磁碟區類型：gp3
+ Python：`/usr/bin/python3.10`

## SageMaker HyperPod 版本備註：2025 年 5 月 27 日
<a name="sagemaker-hyperpod-release-notes-20250527"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能和改進**
+ 已使用下列關鍵元件將基本 AMI 更新至 `Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523`：
  + NVIDIA 驅動程式：570.133.20
  + CUDA：12.8 (預設)，支援 CUDA 12.4-12.6
  + NCCL 版本：2.26.5
  + EFA 安裝程式：1.40.0
  + AWS OFI NCCL：1.14.2-aws
+ 已更新 Neuron SDK 套件：
  + aws-neuronx-collectives：2.25.65.0-9858ac9a1 (從 2.24.59.0-838c7fc8b 更新)
  + aws-neuronx-dkms：2.21.37.0 (從 2.20.28.0 更新)
  + aws-neuronx-runtime-lib：2.25.57.0-166c7a468 (從 2.24.53.0-f239092cc 更新)
  + aws-neuronx-tools：2.23.9.0 (從 2.22.61.0 更新)

**重要說明**
+ NVIDIA Container Toolkit 1.17.4 現在已停用 CUDA 相容程式庫的掛載。
+ 已將 EFA 組態從 1.37 更新至 1.38，而 EFA 現在包含 AWS OFI NCCL 外掛程式，其位於 `/opt/amazon/ofi-nccl` 目錄中，而非原始 `/opt/aws-ofi-nccl/` 路徑中。(已於 2025 年 2 月 18 日發行)
+ 核心版本固定以確保穩定性和驅動程式相容性。

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2025 年 5 月 13 日
<a name="sagemaker-hyperpod-release-ami-slurm-20250513"></a>

Amazon SageMaker HyperPod 發佈了更新的 AMI，支援適用於 Slurm 叢集的 Ubuntu 22.04 LTS。 會 AWS 定期更新 AMIs，以確保您可存取最新的軟體堆疊。升級到最新的 AMI 透過全面的套件更新、改善的工作負載效能和穩定性，以及與新執行個體類型和最新核心功能的相容性，提供增強的安全性。

**重要**  
從 Ubuntu 20.04 LTS 更新至 Ubuntu 22.04 LTS 所引入的變更可能會影響與專為 Ubuntu 20.04 設計之軟體和組態的相容性。

**Topics**
+ [Ubuntu 22.04 AMI 中的重要更新](#sagemaker-hyperpod-ami-slurm-ubuntu22-updates)
+ [升級到 Ubuntu 22.04 AMI](#sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade)
+ [針對升級失敗進行疑難排解](#sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot)

### Ubuntu 22.04 AMI 中的重要更新
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-updates"></a>

下表列出 Ubuntu 22.04 AMI 相較於先前 AMI 的元件版本。


**Ubuntu 22.04 AMI 相較於先前 AMI 的元件版本**  

| 元件 | 舊版本 | 更新版本 | 
| --- | --- | --- | 
|  **Ubuntu OS**  |  20.04 LTS  |  22.04 LTS  | 
|  **Slurm**  |  24.11  |  24.11 (未變更)  | 
|  **Python**  |  3.8 (預設)  |  3.10 (預設)  | 
|  **Amazon FSx 上的 Elastic Fabric Adapter (EFA)**  |  不支援  |  支援  | 
|  **Linux 核心**  |  5.15  |  6.8  | 
|  **GNU C 程式庫 (glibc)**  |  2.31  |  2.35  | 
|  **GNU 編譯器集合 (GCC)**  |  9.4.0  |  11.4.0  | 
|  **libc6**  |  ≤ 2.31  |  支援 ≥ 2.35  | 
|  **網路檔案系統 (NFS)**  |  1:1.3.4  |  1:2.6.1  | 

**注意**  
雖然 Slurm 版本 (24.11) 保持不變，但此 AMI 中的基礎作業系統和程式庫更新可能會影響您的系統行為和工作負載相容性。升級生產叢集之前，您必須先測試工作負載。

### 升級到 Ubuntu 22.04 AMI
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade"></a>

將您的叢集升級至 Ubuntu 22.04 AMI 之前，請完成這些準備步驟並檢閱升級要求。若要針對升級失敗進行疑難排解，請參閱[針對升級失敗進行疑難排解](#sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot)。

#### 檢閱 Python 相容性
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-python-compatibility"></a>

Ubuntu 22.04 AMI 使用 Python 3.10 做為預設版本，這是從 Python 3.8 升級的版本。雖然 Python 3.10 維持與大多數 Python 3.8 程式碼的相容性，但您應該在升級之前測試現有的工作負載。如果您的工作負載需要 Python 3.8，您可以在生命週期指令碼中使用下列命令來安裝該版本：

```
yum install python-3.8
```

升級您的叢集之前，請務必執行下列動作：

1. 測試您的程式碼與 Python 3.10 的相容性。

1. 驗證您的生命週期指令碼是否可在新的環境中運作。

1. 檢查所有相依性是否與新的 Python 版本相容。

1. 如果您透過從 GitHub 複製預設生命週期指令碼來建立 HyperPod 叢集，請在升級至 Ubuntu 22 之前，將下列命令新增至您的 `setup_mariadb_accounting.sh` 檔案。如需完整指令碼，請參閱 [GitHub 上的 setup\$1mariadb\$1accounting.sh](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/setup_mariadb_accounting.sh)。

   ```
   apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
   ```

#### 升級您的 Slurm 叢集
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade-cluster"></a>

您可以透過兩種方式升級 Slurm 叢集以使用新的 AMI：

1. 使用 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html) API 建立新的叢集。

1. 使用 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API 更新現有叢集的軟體。

#### 驗證的組態
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-validation"></a>

AWS 已在 G5, G6, G6e, P4d, P5 和 Trn1 執行個體上測試過各種分散式訓練工作負載和基礎設施功能，包括：
+ 使用 PyTorch 進行分散式訓練 (例如 FSDP、NeMo、LLaMA、MNIST)。
+ 使用 Nvidia (P/G 系列） 和 AWS Neuron (Trn1) 跨執行個體類型加速測試。
+ 包括[自動繼續](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html#sagemaker-hyperpod-resiliency-slurm-auto-resume)和[深度運作狀態檢查](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-resiliency-deep-health-checks.html)的彈性功能。

#### 叢集停機時間和可用性
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-downtime-availability"></a>

在升級過程中，叢集將無法使用。若要將中斷降至最低，請執行下列動作：
+ 在較小的叢集上測試升級程序。
+ 在升級之前建立檢查點，然後在升級完成之後從現有檢查點重新啟動訓練工作負載。

### 針對升級失敗進行疑難排解
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot"></a>

當升級失敗時，請先判斷失敗是否與生命週期指令碼相關。這些指令碼通常由於語法錯誤、缺少相依性或組態不正確而失敗。

若要調查與生命週期指令碼相關的失敗，請檢查 CloudWatch 日誌。所有 SageMaker HyperPod 事件和日誌都存放在日誌群組下：`/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]`。請特別查看日誌串流 `LifecycleConfig/[instance-group-name]/[instance-id]`，其中提供指令碼執行期間任何錯誤的詳細資訊。

如果升級失敗與生命週期指令碼無關，請收集相關資訊，包括叢集 ARN、錯誤日誌和時間戳記，然後聯絡 [AWS 支援](https://aws.amazon.com/premiumsupport/)以取得進一步協助。

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2025 年 5 月 7 日
<a name="sagemaker-hyperpod-release-ami-slurm-20250507"></a>

Amazon SageMaker HyperPod for Slurm 發行了主要 OS 版本升級，以升級至 Ubuntu 22.04 (從 Ubuntu 20.04 之前的版本升級)。如需詳細資訊，請參閱 DLAMI Ubuntu 22.04 ([版本備註](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-22-04/))：`Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503`。

關鍵套件升級：
+ Ubuntu 22.04 LTS (從 20.04 升級)
+ Python 版本：
  + Python 3.10 現在是 Slurm AMI Ubuntu 22.04 中的預設 Python 版本
  + 此升級可讓您存取 Python 3.10 中引進的最新功能、效能改善和錯誤修正
+ 支援 EFA on FSx
+ 新的 Linux 核心 6.8 版 (更新自 5.15)
+ Glibc 版本：2.35 (更新自 2.31)
+ GCC 版本：11.4.0 (更新自 9.4.0)
+ 較新的 libc6 版本支援 (更新自 libc6 版本 <= 2.31)
+ NFS 版本：1:2.6.1 (更新自 1：1.3.4)

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2025 年 4 月 28 日
<a name="sagemaker-hyperpod-release-ami-slurm-20250428"></a>

**Slurm 的改進**
+ 已將 NVIDIA 驅動程式從版本 550.144.03 升級至 550.163.01。此升級是為了解決 [2025 年 4 月 NVIDIA GPU 顯示器安全公告](https://nvidia.custhelp.com/app/answers/detail/a_id/5630)中存在的 Common Vulnerabilities and Exposures (CVE)。

**用於 Slurm 支援的 Amazon SageMaker HyperPod DLAMI**

------
#### [ Installed the latest version of AWS Neuron SDK ]
+ **aws-neuronx-collectives：**2.24.59.0-838c7fc8b
+ **aws-neuronx-dkms：**2.20.28.0
+ **aws-neuronx-runtime-lib：**2.24.53.0-f239092cc
+ **aws-neuronx-tools/unknown：**2.22.61.0

------

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2025 年 2 月 18 日
<a name="sagemaker-hyperpod-release-ami-slurm-20250218"></a>

**Slurm 的改進**
+ 已將 Slurm 版本升級至 24.11。
+ 已將 Elastic Fabric Adapter (EFA) 版本從 1.37.0 升級至 1.38.0。
+ EFA 現在包含 AWS OFI NCCL 外掛程式。您可以在 `/opt/amazon/ofi-nccl` 目錄中找到此外掛程式，而不是原始 `/opt/aws-ofi-nccl/` 位置。如果您需要更新 `LD_LIBRARY_PATH` 環境變數，請務必修改路徑，以指向 OFI NCCL 外掛程式的新 `/opt/amazon/ofi-nccl` 位置。
+ 已從這些 DLAMIs 中移除 emacs 套件。您可以從 GNU emac 安裝 emac。

**用於 Slurm 支援的 Amazon SageMaker HyperPod DLAMI**

------
#### [ Installed the latest version of AWS Neuron SDK 2.19 ]
+ **aws-neuronx-collectives/unknown：**2.23.135.0-3e70920f2 amd64
+ **aws-neuronx-dkms/unknown：**2.19.64.0 amd64
+ **aws-neuronx-runtime-lib/unknown：**2.23.112.0-9b5179492 amd64
+ **aws-neuronx-tools/unknown：**2.20.204.0 amd64

------

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 12 月 21 日
<a name="sagemaker-hyperpod-release-ami-slurm-20241221"></a>

**用於 Slurm 支援的 SageMaker HyperPod DLAMI**

------
#### [ Deep Learning Slurm AMI ]
+ **NVIDIA 驅動程式：**550.127.05
+ **EFA 驅動程式：**2.13.0-1
+ 安裝最新版 AWS Neuron SDK
  + **aws-neuronx-collectives：**2.22.33.0
  + **aws-neuronx-dkms：**2.18.20.0
  + **aws-neuronx-oci-hook：**2.5.8.0
  + **aws-neuronx-runtime-lib：**2.22.19.0
  + **aws-neuronx-tools：**2.19.0.0

------

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 11 月 24 日
<a name="sagemaker-hyperpod-release-ami-slurm-20241124"></a>

**AMI 一般更新**
+ 已在 `MEL` (墨爾本) 區域發行。
+ 已將 SageMaker HyperPod 基礎 DLAMI 更新至下列版本：
  + Slurm：2024-11-22。

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 11 月 15 日
<a name="sagemaker-hyperpod-release-ami-slurm-20241115"></a>

**AMI 一般更新**
+ 已安裝最新的 `libnvidia-nscq-xxx` 套件。

**用於 Slurm 支援的 SageMaker HyperPod DLAMI**

------
#### [ Deep Learning Slurm AMI ]
+ **NVIDIA 驅動程式：**550.127.05
+ **EFA 驅動程式：**2.13.0-1
+ 安裝最新版 AWS Neuron SDK
  + **aws-neuronx-collectives：**v2.22.33.0-d2128d1aa
  + **aws-neuronx-dkms：**v2.17.17.0
  + **aws-neuronx-oci-hook：**v2.4.4.0
  + **aws-neuronx-runtime-lib：**v2.21.41.0
  + **aws-neuronx-tools：**v2.18.3.0

------

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 11 月 11 日
<a name="sagemaker-hyperpod-release-ami-slurm-20241111"></a>

**AMI 一般更新**
+ 已將 SageMaker HyperPod 基礎 DLAMI 更新至下列版本：
  + Slurm：2024-10-23。

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 10 月 21 日
<a name="sagemaker-hyperpod-release-ami-slurm-20241021"></a>

**AMI 一般更新**
+ 已將 SageMaker HyperPod 基礎 DLAMI 更新至下列版本：
  + Slurm：2024-09-27。

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 9 月 10 日
<a name="sagemaker-hyperpod-release-ami-slurm-20240910"></a>

**用於 Slurm 支援的 SageMaker HyperPod DLAMI**

------
#### [ Deep Learning Slurm AMI ]
+ 已安裝 NVIDIA 驅動程式 v550.90.07
+ 已安裝 EFA 驅動程式 v2.10
+ 安裝最新版 AWS Neuron SDK
  + **aws-neuronx-collectives：**v2.21.46.0
  + **aws-neuronx-dkms：**v2.17.17.0
  + **aws-neuronx-oci-hook：**v2.4.4.0
  + **aws-neuronx-runtime-lib：**v2.21.41.0
  + **aws-neuronx-tools：**v2.18.3.0

------

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 3 月 14 日
<a name="sagemaker-hyperpod-release-ami-slurm-20240314"></a>

**適用於 Slurm 軟體修補程式的 HyperPod DLAMI**
+ 已將 [Slurm](https://slurm.schedmd.com/documentation.html) 升級至 v23.11.1。
+ 已新增 [OpenPMIx](https://openpmix.github.io/code/getting-the-reference-implementation) v4.2.6 以啟用 [PMIx 與 Slurm](https://slurm.schedmd.com/mpi_guide.html#pmix)。
+ 建置在 2023-10-26 發行的 [AWS 深度學習基礎 GPU AMI (Ubuntu 20.04)](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-20-04/) 之上
+ 除了基本 AMI 之外，此 HyperPod DLAMI 中預先安裝套件的完整清單
  + [Slurm](https://slurm.schedmd.com/documentation.html)：v23.11.1
  + [OpenPMIx](https://openpmix.github.io/code/getting-the-reference-implementation)：v4.2.6
  + Munge：v0.5.15
  + `aws-neuronx-dkms`：v2.\$1
  + `aws-neuronx-collectives`：v2.\$1
  + `aws-neuronx-runtime-lib`：v2.\$1
  + `aws-neuronx-tools`：v2.\$1
  + 支援叢集運作狀態檢查和自動繼續等功能的 SageMaker HyperPod 軟體套件

**升級步驟**
+ 執行下列命令來呼叫 [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API，以使用最新的 HyperPod DLAMI 更新現有的 HyperPod 叢集。若要尋找更多指示，請參閱 [更新叢集的 SageMaker HyperPod 平台軟體](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software)。
**重要**  
在執行此 API 之前備份您的工作。修補程序會將根磁碟區取代為更新的 AMI，這表示先前存放在執行個體根磁碟區中的資料將會遺失。請確定您將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊，請參閱[使用 SageMaker HyperPod 提供的備份指令碼](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software-backup)。

  ```
   aws sagemaker update-cluster-software --cluster-name your-cluster-name
  ```
**注意**  
請注意，您應該執行 AWS CLI 命令來更新 HyperPod 叢集。目前無法透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體。

## 適用於 Slurm 的 SageMaker HyperPod AMI 版本：2023 年 11 月 29 日
<a name="sagemaker-hyperpod-release-ami-slurm-20231129"></a>

**適用於 Slurm 軟體修補程式的 HyperPod DLAMI**

HyperPod 服務團隊會透過 [SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami) 分發軟體修補程式。請參閱下列有關最新 HyperPod DLAMI 的詳細資訊。
+ 建置在 2023-10-18 發行的 [AWS 深度學習基礎 GPU AMI (Ubuntu 20.04)](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-20-04/) 之上
+ 除了基本 AMI 之外，此 HyperPod DLAMI 中預先安裝套件的完整清單
  + [Slurm](https://slurm.schedmd.com/documentation.html)：v23.02.3
  + Munge：v0.5.15
  + `aws-neuronx-dkms`：v2.\$1
  + `aws-neuronx-collectives`：v2.\$1
  + `aws-neuronx-runtime-lib`：v2.\$1
  + `aws-neuronx-tools`：v2.\$1
  + 支援叢集運作狀態檢查和自動繼續等功能的 SageMaker HyperPod 軟體套件