

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# SageMaker HyperPod Lançamentos da AMI para o Slurm
<a name="sagemaker-hyperpod-release-ami-slurm"></a>

As notas de lançamento a seguir acompanham as atualizações mais recentes dos lançamentos da Amazon SageMaker HyperPod AMI para orquestração do Slurm. Eles HyperPod AMIs são baseados no [AWS Deep Learning Base GPU AMI (Ubuntu 22.04](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-22-04/)). A equipe HyperPod de serviço distribui patches de software por meio de[SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami). Para versões de HyperPod AMI para orquestração do Amazon EKS, consulte. [SageMaker HyperPod Lançamentos da AMI para o Amazon EKS](sagemaker-hyperpod-release-ami-eks.md) Para obter informações sobre os lançamentos de SageMaker HyperPod recursos da Amazon, consulte[Notas SageMaker HyperPod de lançamento da Amazon](sagemaker-hyperpod-release-notes.md).

**nota**  
Para atualizar os HyperPod clusters existentes com a DLAMI mais recente, consulte. [Atualizar o software da SageMaker HyperPod plataforma de um cluster](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software)

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 01 de março de 2026
<a name="sagemaker-hyperpod-release-ami-slurm-20260301"></a>

 **Atualizações gerais de AMI** 
+ Atualizações lançadas para SageMaker HyperPod AMI for Slurm, versões 24.11.
+ [A nota de lançamento do DLAMI base está disponível aqui.](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod DLAMI para suporte ao Slurm** 

Esta versão inclui as seguintes alterações:

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Versão do kernel Linux: 6.8
  + Versão Glibc: 2.35
  + Versão do OpenSSL: 3.0.2
  + FSx Versão do Lustre Client: 2.15.6-1fsx26
  + Versão Runc: 1.3.4
  + Versão do contêiner: containerd containerd.io v2.2.1
  + Versão do driver NVIDIA: 580.126.09
  + Versão CUDA: 12.6, 12.8, 12.9, 13.0
  + Versão do EFA Installer: 1.45.1
  + Versão Python: 3.10.12
  + Versão do Slurm: 24.11.0
  + versão nvme-cli: 1.16
  + versão coletada: 5.12.0.
  + versão lustre-client: 2.15.6-1fsx26
  + Versão nvidia-imex: 580.126.09-1
  + versão systemd: 249
  + versão openssh: 8.9
  + versão sudo: 1.9.9
  + versão ufw: 0.36.1
  + versão gcc: 11.4.0
  + versão cmake: 3.2.1
  + versão git: 2.34.1
  + versão make: 4.3
  + versão do cloudwatch-agent: 1.300064.1b1344-1
  + versão nfs-utils: 1:2.6.1-1ubuntu1.2
  + iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1
  + versão lvm2:2.03.11
  + versão ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versão rdma-core: 60.0-1
+ Slurm 24.11 (x86\$164):
  + Versão do kernel Linux: 6.8
  + Versão Glibc: 2.35
  + Versão do OpenSSL: 3.0.2
  + FSx Versão do Lustre Client: 2.15.6-1fsx26
  + Versão Runc: 1.3.4
  + Versão do contêiner: containerd containerd.io v2.2.1
  + versão do aws Neuronx DMS: 2.26.5.0
  + Versão do driver NVIDIA: 580.126.09
  + Versão CUDA: 12.6, 12.8, 12.9, 13.0
  + Versão do EFA Installer: 1.45.0
  + Versão Python: 3.10.12
  + Versão do Slurm: 24.11.0
  + versão nvme-cli: 1.16
  + versão de stress: 1.0.5
  + versão coletada: 5.12.0.
  + versão lustre-client: 2.15.6-1fsx26
  + versão systemd: 249
  + versão openssh: 8.9
  + versão sudo: 1.9.9
  + versão ufw: 0.36.1
  + versão gcc: 11.4.0
  + versão cmake: 3.2.1
  + versão make: 4.3
  + versão do cloudwatch-agent: 1.300064.1b1344-1
  + versão nfs-utils: 1:2.6.1-1ubuntu1.2
  + iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1
  + versão lvm2:2.03.11
  + versão ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versão rdma-core: 60.0-1

------

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 12 de fevereiro de 2026
<a name="sagemaker-hyperpod-release-ami-slurm-20260212"></a>

 **Atualizações gerais de AMI** 
+ Atualizações lançadas para SageMaker HyperPod AMI for Slurm, versões 24.11.
+ [A nota de lançamento do DLAMI base está disponível aqui.](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod DLAMI para suporte ao Slurm** 

Esta versão inclui as seguintes alterações:

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Versão do kernel Linux: 6.8
  + Versão Glibc: 2.35
  + Versão do OpenSSL: 3.0.2
  + FSx Versão do Lustre Client: 2.15.6-1fsx25
  + Versão Runc: 1.3.4
  + Versão do contêiner: containerd containerd.io v2.2.1
  + Versão do driver NVIDIA: 580.126.09
  + Versão CUDA: 12.6, 12.8, 12.9, 13.0
  + Versão do EFA Installer: 1.45.1
  + Versão Python: 3.10.12
  + Versão do Slurm: 24.11.0
  + versão nvme-cli: 1.16
  + versão coletada: 5.12.0.
  + versão lustre-client: 2.15.6-1fsx25
  + Versão nvidia-imex: 580.126.09-1
  + versão systemd: 249
  + versão openssh: 8.9
  + versão sudo: 1.9.9
  + versão ufw: 0.36.1
  + versão gcc: 11.4.0
  + versão cmake: 3.2.1
  + versão git: 2.34.1
  + versão make: 4.3
  + versão cloudwatch-agent: 1.300064.0b1337-1
  + versão nfs-utils: 1:2.6.1-1ubuntu1.2
  + iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1
  + versão lvm2:2.03.11
  + versão ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versão rdma-core: 60.0-1
+ Slurm 24.11 (x86\$164):
  + Versão do kernel Linux: 6.8
  + Versão Glibc: 2.35
  + Versão do OpenSSL: 3.0.2
  + FSx Versão do Lustre Client: 2.15.6-1fsx25
  + Versão Runc: 1.3.4
  + Versão do contêiner: containerd containerd.io v2.2.1
  + versão do aws Neuronx DMS: 2.25.4.0
  + Versão do driver NVIDIA: 580.126.09
  + Versão CUDA: 12.6, 12.8, 12.9, 13.0
  + Versão do EFA Installer: 1.45.0
  + Versão Python: 3.10.12
  + Versão do Slurm: 24.11.0
  + versão nvme-cli: 1.16
  + versão de stress: 1.0.5
  + versão coletada: 5.12.0.
  + versão lustre-client: 2.15.6-1fsx25
  + versão systemd: 249
  + versão openssh: 8.9
  + versão sudo: 1.9.9
  + versão ufw: 0.36.1
  + versão gcc: 11.4.0
  + versão cmake: 3.2.1
  + versão make: 4.3
  + versão cloudwatch-agent: 1.300064.0b1337-1
  + versão nfs-utils: 1:2.6.1-1ubuntu1.2
  + iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1
  + versão lvm2:2.03.11
  + versão ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versão rdma-core: 60.0-1

------

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 25 de janeiro de 2026
<a name="sagemaker-hyperpod-release-ami-slurm-20260125"></a>

 **Atualizações gerais de AMI** 
+ Atualizações lançadas para SageMaker HyperPod AMI for Slurm, versões 24.11.
+ [A nota de lançamento do DLAMI base está disponível aqui.](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod DLAMI para suporte ao Slurm** 

Esta versão inclui as seguintes alterações:

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Versão do kernel Linux: 6.8
  + Versão Glibc: 2.35
  + Versão do OpenSSL: 3.0.2
  + FSx Versão do Lustre Client: 2.15.6-1fsx25
  + Versão Runc: 1.3.4
  + Versão do contêiner: containerd containerd.io v2.2.1
  + Versão do driver NVIDIA: 580.126.09
  + Versão CUDA: 12.6, 12.8, 12.9, 13.0
  + Versão do EFA Installer: 2.3.1amzn3.0
  + Versão Python: 3.10.12
  + Versão do Slurm: 24.11.0
  + versão nvme-cli: 1.16
  + versão coletada: 5.12.0.
  + versão lustre-client: 2.15.6-1fsx25
  + Versão nvidia-imex: 580.126.09-1
  + versão systemd: 249
  + versão openssh: 8.9
  + versão sudo: 1.9.9
  + versão ufw: 0.36.1
  + versão gcc: 11.4.0
  + versão cmake: 3.2.1
  + versão git: 2.34.1
  + versão make: 4.3
  + versão cloudwatch-agent: 1.300063.0b1323-1
  + versão nfs-utils: 1:2.6.1-1ubuntu1.2
  + iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1
  + versão lvm2:2.03.11
  + versão ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versão rdma-core: 60.0-1
+ Slurm 24.11 (x86\$164):
  + Versão do kernel Linux: 6.8
  + Versão Glibc: 2.35
  + Versão do OpenSSL: 3.0.2
  + FSx Versão do Lustre Client: 2.15.6-1fsx25
  + Versão Runc: 1.3.4
  + Versão do contêiner: containerd containerd.io v2.2.1
  + versão do aws Neuronx DMS: 2.25.4.0
  + Versão do driver NVIDIA: 580.126.09
  + Versão CUDA: 12.6, 12.8, 12.9, 13.0
  + Versão do EFA Installer: 2.3.1amzn2.0
  + Versão Python: 3.10.12
  + Versão do Slurm: 24.11.0
  + versão nvme-cli: 1.16
  + versão de stress: 1.0.5
  + versão coletada: 5.12.0.
  + versão lustre-client: 2.15.6-1fsx25
  + versão systemd: 249
  + versão openssh: 8.9
  + versão sudo: 1.9.9
  + versão ufw: 0.36.1
  + versão gcc: 11.4.0
  + versão cmake: 3.2.1
  + versão make: 4.3
  + versão cloudwatch-agent: 1.300063.0b1323-1
  + versão nfs-utils: 1:2.6.1-1ubuntu1.2
  + iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1
  + versão lvm2:2.03.11
  + versão ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versão rdma-core: 60.0-1

------

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 29 de dezembro de 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20251229"></a>

 **Atualizações gerais de AMI** 
+ Atualizações lançadas para SageMaker HyperPod AMI for Slurm, versões 24.11.
+ [A nota de lançamento do DLAMI base está disponível aqui.](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod DLAMI para suporte ao Slurm** 

Esta versão inclui as seguintes alterações:

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Versão do kernel Linux: 6.8
  + Versão Glibc: 2.35
  + Versão do OpenSSL: 3.0.2
  + FSx Versão do Lustre Client: 2.15.6-1fsx25
  + Versão Runc: 1.3.4
  + Versão do contêiner: containerd containerd.io v2.2.1
  + Versão do driver NVIDIA: 580.105.08
  + Versão CUDA: 12.6, 12.8, 12.9, 13.0
  + Versão do EFA Installer: 2.3.1amzn3.0
  + Versão Python: 3.10.12
  + Versão do Slurm: 24.11.0
  + versão nvme-cli: 1.16
  + versão coletada: 5.12.0.
  + versão lustre-client: 2.15.6-1fsx25
  + Versão nvidia-imex: 580.105.08-1
  + versão systemd: 249
  + versão openssh: 8.9
  + versão sudo: 1.9.9
  + versão ufw: 0.36.1
  + versão gcc: 11.4.0
  + versão cmake: 3.2.1
  + versão git: 2.34.1
  + versão make: 4.3
  + versão do cloudwatch-agent: 1.300062.0b1304-1
  + versão nfs-utils: 1:2.6.1-1ubuntu1.2
  + iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1
  + versão lvm2:2.03.11
  + versão ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versão rdma-core: 60.0-1
+ Slurm 24.11 (x86\$164):
  + Versão do kernel Linux: 6.8
  + Versão Glibc: 2.35
  + Versão do OpenSSL: 3.0.2
  + FSx Versão do Lustre Client: 2.15.6-1fsx25
  + Versão Runc: 1.3.4
  + Versão do contêiner: containerd containerd.io v2.2.1
  + versão do aws Neuronx DMS: 2.25.4.0
  + Versão do driver NVIDIA: 580.105.08
  + Versão CUDA: 12.6, 12.8, 12.9, 13.0
  + Versão do EFA Installer: 2.3.1amzn2.0
  + Versão Python: 3.10.12
  + Versão do Slurm: 24.11.0
  + versão nvme-cli: 1.16
  + versão de stress: 1.0.5
  + versão coletada: 5.12.0.
  + versão lustre-client: 2.15.6-1fsx25
  + versão systemd: 249
  + versão openssh: 8.9
  + versão sudo: 1.9.9
  + versão ufw: 0.36.1
  + versão gcc: 11.4.0
  + versão cmake: 3.2.1
  + versão make: 4.3
  + versão do cloudwatch-agent: 1.300062.0b1304-1
  + versão nfs-utils: 1:2.6.1-1ubuntu1.2
  + iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1
  + versão lvm2:2.03.11
  + versão ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versão rdma-core: 60.0-1

------

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 22 de novembro de 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20251128"></a>

 **Atualizações gerais de AMI** 
+ Atualizações lançadas para SageMaker HyperPod AMI for Slurm, versões 24.11.
+ [A nota de lançamento do DLAMI base está disponível aqui.](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod DLAMI para suporte ao Slurm** 

Esta versão inclui as seguintes alterações:

------
#### [ Slurm (arm64) ]
+ Versão do kernel Linux: 6.8
+ Versão Glibc: 2.35
+ Versão do OpenSSL: 3.0.2
+ FSx Versão do Lustre Client: 2.15.6-1fsx21
+ Versão Runc: 1.3.3
+ Versão em contêiner: containerd containerd.io v2.1.5
+ Versão do driver NVIDIA: 580.95.05
+ Versão CUDA: 12.6, 12.8, 12.9, 13.0
+ Versão do EFA Installer: 2.1.0amzn5.0
+ Versão Python: 3.10.12
+ Versão do Slurm: 24.11.0
+ versão nvme-cli: 1.16
+ versão coletada: 5.12.0.
+ versão lustre-client: 2.15.6-1fsx21
+ Versão nvidia-imex: 580.95.05-1
+ versão systemd: 249
+ versão openssh: 8.9
+ versão sudo: 1.9.9
+ versão ufw: 0.36.1
+ versão gcc: 11.4.0
+ versão cmake: 3.2.1
+ versão git: 2.34.1
+ versão make: 4.3
+ versão do cloudwatch-agent: 1.300062.0b1304-1
+ versão nfs-utils: 1:2.6.1-1ubuntu1.2
+ iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1
+ versão lvm2:2.03.11
+ versão ec2-instance-connect: 1.1.14-0ubuntu1.1
+ versão rdma-core: 58.amzn0-1

------
#### [ Slurm (x86\$164) ]
+ Versão do kernel Linux: 6.8
+ Versão Glibc: 2.35
+ Versão do OpenSSL: 3.0.2
+ FSx Versão do Lustre Client: 2.15.6-1fsx21
+ Versão Runc: 1.3.3
+ Versão em contêiner: containerd containerd.io v2.1.5
+ versão do aws Neuronx DMS: 2.24.7.0
+ Versão do driver NVIDIA: 580.95.05
+ Versão CUDA: 12.6, 12.8, 12.9, 13.0
+ Versão do EFA Installer: 2.3.1amzn1.0
+ Versão Python: 3.10.12
+ Versão do Slurm: 24.11.0
+ versão nvme-cli: 1.16
+ versão de stress: 1.0.5
+ versão coletada: 5.12.0.
+ versão lustre-client: 2.15.6-1fsx21
+ versão systemd: 249
+ versão openssh: 8.9
+ versão sudo: 1.9.9
+ versão ufw: 0.36.1
+ versão gcc: 11.4.0
+ versão cmake: 3.2.1
+ versão make: 4.3
+ versão do cloudwatch-agent: 1.300062.0b1304-1
+ versão nfs-utils: 1:2.6.1-1ubuntu1.2
+ iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1
+ versão lvm2:2.03.11
+ versão ec2-instance-connect: 1.1.14-0ubuntu1.1
+ versão rdma-core: 59.amzn0-1

------

## SageMaker HyperPod notas de lançamento: 07 de novembro de 2025
<a name="sagemaker-hyperpod-release-notes-20251107"></a>

**A AMI inclui o seguinte:**
+ Compatível com AWS service (Serviço da AWS): Amazon EC2
+ Sistema operacional: Ubuntu 22.04
+ Arquitetura de computação: ARM64
+ Pacotes atualizados: NVIDIA Driver: 580.95.05
+ Versões CUDA: cuda-12.6, cuda-12.8, cuda-12.9, cuda-13.0
+ Correções de segurança: [Runc Security patch](https://aws.amazon.com/security/security-bulletins/rss/aws-2025-024/)

## SageMaker HyperPod notas de lançamento: 29 de setembro de 2025
<a name="sagemaker-hyperpod-release-notes-20250929"></a>

**A AMI inclui o seguinte:**
+ Compatível com AWS service (Serviço da AWS): Amazon EC2
+ Sistema operacional: Ubuntu 22.04
+ Arquitetura de computação: ARM64
+ Pacotes atualizados: NVIDIA Driver: 570.172.08
+ Correções de segurança

## SageMaker HyperPod notas de lançamento: 12 de agosto de 2025
<a name="sagemaker-hyperpod-release-notes-20250812"></a>

**A AMI inclui o seguinte:**
+ Compatível com AWS service (Serviço da AWS): Amazon EC2
+ Sistema operacional: Ubuntu 22.04
+ Arquitetura de computação: ARM64
+ A versão mais recente disponível está instalada para os seguintes pacotes:
  + Kernel Linux: 6.8
  + FSx Lustro
  + Docker
  + AWS CLI v2 em `/usr/bin/aws`
  + NVIDIA DCGM
  + Nvidia Container Toolkit:
    + Comando de versão: `nvidia-container-cli -V`
  + Nvidia-docker2:
    + Comando de versão: `nvidia-docker version`
  + NVIDIA-IMEX: v570.172.08-1
+ Driver NVIDIA: 570.158.01
+ Pilha NVIDIA CUDA 12.4, 12,5, 12,6, 12,8:
  + Diretórios de instalação CUDA, NCCL e cuDDN: `/usr/local/cuda-xx.x/`
    + Exemplo: `/usr/local/cuda-12.8/`, `/usr/local/cuda-12.8/`
  + Versão compilada da NCCL:
    + Para o diretório CUDA de 12.4, compilou a versão NCCL 2.22.3\$1 .4 CUDA12
    + Para o diretório CUDA de 12.5, compilou a versão NCCL 2.22.3\$1 .5 CUDA12
    + Para o diretório CUDA de 12.6, compilou a versão NCCL 2.24.3\$1 .6 CUDA12
    + Para o diretório CUDA de 12.8, compilou a versão NCCL 2.27.5\$1 .8 CUDA12
  + CUDA padrão: 12,8
    + PATH `/usr/local/cuda` aponta para CUDA 12.8
    + Variáveis de ambiente atualizadas abaixo:
      + `LD_LIBRARY_PATH`ter `/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64`
      + `PATH`ter `/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/`
      + Para qualquer versão diferente do CUDA, atualize `LD_LIBRARY_PATH` adequadamente.
+ Instalador EFA: 1.42.0
+ Nvidia GDRCopy: 2.5.1
+ AWS O plugin OFI NCCL vem com o instalador EFA
  + Caminhos `/opt/amazon/ofi-nccl/lib/aarch64-linux-gnu` e `/opt/amazon/ofi-nccl/efa` são adicionados `LD_LIBRARY_PATH` a.
+ AWS CLI v2 em `/usr/local/bin/aws2` e AWS CLI v1 em `/usr/bin/aws`
+ Tipo de volume do EBS: gp3
+ Python: `/usr/bin/python3.10`

## SageMaker HyperPod notas de lançamento: 27 de maio de 2025
<a name="sagemaker-hyperpod-release-notes-20250527"></a>

SageMaker HyperPod libera o seguinte para[Orquestrando SageMaker HyperPod clusters com o SlurmOrquestração do Slurm](sagemaker-hyperpod-slurm.md).

**Novos recursos e melhorias**
+ A AMI base foi atualizada para `Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523` com os seguintes componentes principais:
  + Driver da NVIDIA 570.133.20
  + CUDA: 12.8 (padrão), com compatibilidade com CUDA 12.4-12.6
  + Versão da NCCL: 2.26.5
  + Instalador do EFA: 1.40.0
  + AWS OFI NCCL: 1.14.2-aws
+ Pacotes atualizados do Neuron SDK:
  + aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (de 2.24.59.0-838c7fc8b)
  + aws-neuronx-dkms: 2.21.37.0 (a partir de 2.20.28.0)
  + aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (de 2.24.53.0-f239092cc)
  + aws-neuronx-tools: 2.23.9.0 (a partir de 2.22.61.0)

**Observações importantes**
+ O NVIDIA Container Toolkit 1.17.4 agora desabilitou a montagem de bibliotecas compatíveis com CUDA.
+ Atualização da configuração do EFA de 1.37 para 1.38. Agora o EFA inclui o plug-in AWS OFI NCCL, que está localizado no diretório `/opt/amazon/ofi-nccl`, em vez de no caminho original `/opt/aws-ofi-nccl/`. (Lançamento em 18 de fevereiro de 2025)
+ A versão do kernel é fixa para estabilidade e compatibilidade de drivers.

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 13 de maio de 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20250513"></a>

A Amazon SageMaker HyperPod lançou uma AMI atualizada que suporta o Ubuntu 22.04 LTS para clusters Slurm. AWS AMIs atualiza regularmente para garantir que você tenha acesso à pilha de software mais atual. A atualização para a AMI mais recente oferece segurança aprimorada por meio de atualizações abrangentes de pacotes, desempenho e estabilidade aprimorados para suas workloads e compatibilidade com novos tipos de instância e os recursos mais recentes do kernel.

**Importante**  
A atualização do Ubuntu 20.04 LTS para o Ubuntu 22.04 LTS introduz mudanças que podem afetar a compatibilidade com o software e as configurações projetadas para o Ubuntu 20.04.

**Topics**
+ [Principais atualizações na AMI para o Ubuntu 22.04.](#sagemaker-hyperpod-ami-slurm-ubuntu22-updates)
+ [Atualização para a AMI do Ubuntu 22.04](#sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade)
+ [Solução de problemas de falhas de atualização](#sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot)

### Principais atualizações na AMI para o Ubuntu 22.04.
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-updates"></a>

A tabela a seguir lista as versões dos componentes da AMI do Ubuntu 22.04 em comparação com a AMI anterior.


**Versões de componentes da AMI do Ubuntu 22.04 em comparação com a AMI anterior**  

| Componente | Versão anterior | Versão atualizada | 
| --- | --- | --- | 
|  **Sistema operacional Ubuntu**  |  20.04 LTS  |  22.04 LTS  | 
|  **Slurm**  |  24.11  |  24.11 (inalterado)  | 
|  **Python**  |  3.8 (padrão)  |  3.10 (padrão)  | 
|  **Adaptador Elastic Fabric (EFA) na Amazon FSx**  |  Não compatível  |  Compatível  | 
|  **Kernel do Linux**  |  5,15  |  6.8  | 
|  **Biblioteca GNU C (glibc)**  |  2.31  |  2,35  | 
|  **Coleção de compiladores GNU (GCC)**  |  9.4.0  |  11.4.0  | 
|  **libc6**  |  ≤ 2.31  |  Compatível com ≥ 2.35  | 
|  **Network File System (NFS)**  |  1:1.3.4  |  1:2.6.1  | 

**nota**  
Embora a versão do Slurm (24.11) permaneça inalterada, as atualizações subjacentes do sistema operacional e da biblioteca nessa AMI podem afetar o comportamento do sistema e a compatibilidade das workloads. Você deve testar suas workloads antes de atualizar os clusters de produção.

### Atualização para a AMI do Ubuntu 22.04
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade"></a>

Antes de atualizar o cluster para a AMI do Ubuntu 22.04, conclua estas etapas de preparação e analise os requisitos de atualização. Para solucionar falhas de atualização, consulte [Solução de problemas de falhas de atualização](#sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot).

#### Analisar a compatibilidade com o Python
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-python-compatibility"></a>

A AMI do Ubuntu 22.04 usa o Python 3.10 como a versão padrão, atualizada do Python 3.8. Embora o Python 3.10 mantenha a compatibilidade com a maioria dos códigos do Python 3.8, você deve testar suas workloads existentes antes da atualização. Se as workloads exigirem o Python 3.8, você poderá instalá-lo usando o seguinte comando em seu script de ciclo de vida:

```
yum install python-3.8
```

Antes de atualizar o cluster, faça o seguinte:

1. Teste a compatibilidade do código com o Python 3.10.

1. Verifique se os scripts de ciclo de vida funcionam no novo ambiente.

1. Verifique se todas as dependências são compatíveis com a nova versão do Python.

1. Se você criou seu HyperPod cluster copiando o script de ciclo de vida padrão de GitHub, adicione o comando a seguir ao seu `setup_mariadb_accounting.sh` arquivo antes de atualizar para o Ubuntu 22. Para ver o script completo, consulte [setup\$1mariadb\$1accounting.sh em GitHub](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/setup_mariadb_accounting.sh).

   ```
   apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
   ```

#### Atualizar o cluster do Slurm
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade-cluster"></a>

Há duas maneiras de atualizar o cluster do Slurm para usar a nova AMI:

1. Crie um cluster usando a API [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html).

1. Atualize o software de um cluster existente usando a API [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html).

#### Validar configurações
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-validation"></a>

AWS testou uma ampla variedade de cargas de trabalho de treinamento distribuídas e recursos de infraestrutura nas instâncias G5, G6, G6e, P4d, P5 e Trn1, incluindo:
+ Treinamento distribuído com PyTorch (por exemplo, FSDP, LLa MA NeMo, MNIST).
+ Teste acelerador em todos os tipos de instância com Nvidia (série P/G) e AWS Neuron (Trn1).
+ Recursos de resiliência que incluem [retomada automática](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html#sagemaker-hyperpod-resiliency-slurm-auto-resume) e [verificações de integridade profundas](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-resiliency-deep-health-checks.html).

#### Tempo de inatividade e disponibilidade do cluster
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-downtime-availability"></a>

Durante o processo de atualização, o cluster não estará disponível. Para minimizar a interrupção, faça o seguinte:
+ Teste o processo de atualização em clusters menores.
+ Crie pontos de verificação antes da atualização e reinicie as workloads de treinamento dos pontos de verificação existentes após a conclusão da atualização.

### Solução de problemas de falhas de atualização
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot"></a>

Quando uma atualização falhar, primeiro determine se a falha está relacionada aos scripts de ciclo de vida. Esses scripts geralmente falham devido a erros de sintaxe, dependências ausentes ou configurações incorretas.

Para investigar falhas relacionadas aos scripts de ciclo de vida, verifique CloudWatch os registros. Todos os SageMaker HyperPod eventos e registros são armazenados no grupo de registros:`/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]`. Veja especificamente o fluxo de logs `LifecycleConfig/[instance-group-name]/[instance-id]`, que fornece informações detalhadas sobre quaisquer erros durante a execução do script.

Se a falha da atualização não estiver relacionada aos scripts de ciclo de vida, colete informações relevantes, incluindo o ARN do cluster, os logs de erros e os registros de data/hora, e entre em contato com o [AWS Support](https://aws.amazon.com/premiumsupport/) para obter ajuda adicional.

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 07 de maio de 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20250507"></a>

O Amazon SageMaker HyperPod for Slurm lançou uma grande atualização da versão do sistema operacional para o Ubuntu 22.04 (do Ubuntu 20.04 anterior). Verifique a DLAMI do Ubuntu 22.04 ([notas de lançamento](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-22-04/)) para ter mais informações: `Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503`.

Principais atualizações de pacotes:
+ Ubuntu 22.04 LTS (a partir da 20.04)
+ Versão do Python:
  + O Python 3.10 agora é a versão padrão do Python na AMI do Slurm do Ubuntu 22.04.
  + Essa atualização oferece acesso aos recursos mais recentes, melhorias de desempenho e correções de erros introduzidos no Python 3.10
+ Support for EFA em FSx
+ Novo Kernel do Linux, versão 6.8 (atualizado a partir da 5.15)
+ Versão da Glibc: 2.35 (atualizada a partir da 2.31)
+ Versão do GCC: 11.4.0 (atualizada a partir da 9.4.0)
+ Suporte à versão da libc6 mais recente (da versão da libc6 <= 2.31)
+ Versão do NFS: 1:2.6.1 (atualizado a partir da 1:1.3.4)

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 28 de abril de 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20250428"></a>

**Melhorias para o Slurm**
+ Atualização do driver da NVIDIA da versão 550.144.03 para a 550.163.01. Essa atualização visa abordar vulnerabilidades e exposições comuns (CVEs) presentes no Boletim de [Segurança do NVIDIA GPU Display](https://nvidia.custhelp.com/app/answers/detail/a_id/5630) de abril de 2025.

**Amazon SageMaker HyperPod DLAMI para suporte ao Slurm**

------
#### [ Installed the latest version of AWS Neuron SDK ]
+ **aws-neuronx-collectives: 2.24.59.0-838c7fc8b**
+ **aws-neuronx-dkms: 2.20.28.0**
+ **aws-neuronx-runtime-lib: 2.24.53.0-f239092cc**
+ **aws-neuronx-tools/desconhecido: 2.22.61.0**

------

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 18 de fevereiro de 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20250218"></a>

**Melhorias para o Slurm**
+ Atualização da versão do Slurm para 24.11.
+ Versão atualizada do Elastic Fabric Adapter (EFA) de 1.37.0 para 1.38.0.
+ O EFA agora inclui o plug-in AWS OFI NCCL. É possível encontrar esse plug-in no diretório `/opt/amazon/ofi-nccl`, em vez de no local original `/opt/aws-ofi-nccl/`. Se você precisar atualizar sua variável de ambiente `LD_LIBRARY_PATH`, modifique o caminho para apontar para o novo local `/opt/amazon/ofi-nccl` local do plug-in OFI NCCL.
+ O pacote emacs foi removido deles. DLAMIs Você pode instalar emacs a partir do GNU Emacs.

**Amazon SageMaker HyperPod DLAMI para suporte ao Slurm**

------
#### [ Installed the latest version of AWS Neuron SDK 2.19 ]
+ **aws-neuronx-collectives/desconhecido: 2.23.135.0-3e70920f2** amd64
+ **aws-neuronx-dkms/desconhecido:** 2.19.64.0 amd64
+ **aws-neuronx-runtime-lib/desconhecido: 2.23.112.0-9b5179492** amd64
+ **aws-neuronx-tools/desconhecido:** 2.20.204.0 amd64

------

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 21 de dezembro de 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20241221"></a>

**SageMaker HyperPod DLAMI para suporte ao Slurm**

------
#### [ Deep Learning Slurm AMI ]
+ **Driver da NVIDIA:** 550.127.05
+ **Driver do EFA:** 2.13.0-1
+ Instalou a versão mais recente do AWS Neuron SDK
  + **aws-neuronx-collectives: 2.22.3.0**
  + **aws-neuronx-dkms: 2.18.20.0**
  + **aws-neuronx-oci-hook: 2.5.8.0**
  + **aws-neuronx-runtime-lib: 2.22.19.0**
  + **aws-neuronx-tools: 2.19.0.0**

------

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 24 de novembro de 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20241124"></a>

**Atualizações gerais de AMI**
+ Lançadas na região `MEL` (Melbourne).
+ DLAMI SageMaker HyperPod base atualizada para as seguintes versões:
  + Slurm: 2024-11-22.

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 15 de novembro de 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20241115"></a>

**Atualizações gerais de AMI**
+ Pacote `libnvidia-nscq-xxx` mais recente instalado.

**SageMaker HyperPod DLAMI para suporte ao Slurm**

------
#### [ Deep Learning Slurm AMI ]
+ **Driver da NVIDIA:** 550.127.05
+ **Driver do EFA:** 2.13.0-1
+ Instalou a versão mais recente do AWS Neuron SDK
  + **aws-neuronx-collectives: v2.22.33.0-d2128d1aa**
  + **aws-neuronx-dkms: v2.17.17.0**
  + **aws-neuronx-oci-hook: v2.4.4.0**
  + **aws-neuronx-runtime-lib: v2.21.41.0**
  + **aws-neuronx-tools: v2.18.3.0**

------

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 11 de novembro de 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20241111"></a>

**Atualizações gerais de AMI**
+ DLAMI SageMaker HyperPod base atualizada para a seguinte versão:
  + Slurm: 2024-10-23.

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 21 de outubro de 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20241021"></a>

**Atualizações gerais de AMI**
+ DLAMI SageMaker HyperPod base atualizada para as seguintes versões:
  + Slurm: 2024-09-27.

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 10 de setembro de 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20240910"></a>

**SageMaker HyperPod DLAMI para suporte ao Slurm**

------
#### [ Deep Learning Slurm AMI ]
+ Instalado o driver NVIDIA v550.90.07
+ Instalado o driver EFA v2.10
+ Instalou a versão mais recente do AWS Neuron SDK
  + **aws-neuronx-collectives: v2.21.46.0**
  + **aws-neuronx-dkms: v2.17.17.0**
  + **aws-neuronx-oci-hook: v2.4.4.0**
  + **aws-neuronx-runtime-lib: v2.21.41.0**
  + **aws-neuronx-tools: v2.18.3.0**

------

## SageMaker HyperPod Lançamentos da AMI para o Slurm: 14 de março de 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20240314"></a>

**HyperPod Patch de software DLAMI para Slurm**
+ [Slurm](https://slurm.schedmd.com/documentation.html) atualizado para v23.11.1
+ Foi adicionado [o Open PMIx](https://openpmix.github.io/code/getting-the-reference-implementation) v4.2.6 para habilitar o [Slurm](https://slurm.schedmd.com/mpi_guide.html#pmix) com. PMIx
+ Desenvolvido com base na [AWS AMI de aprendizado profundo de base GPU (Ubuntu 20.04)](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-20-04/), lançada em 26/10/2023.
+ Uma lista completa dos pacotes pré-instalados nesta HyperPod DLAMI, além da AMI básica
  + [Slurm](https://slurm.schedmd.com/documentation.html): v23.11.1
  + [Aberto PMIx ](https://openpmix.github.io/code/getting-the-reference-implementation): v4.2.6
  + Munge: v0.5.15
  + `aws-neuronx-dkms`: v2.\$1
  + `aws-neuronx-collectives`: v2.\$1
  + `aws-neuronx-runtime-lib`: v2.\$1
  + `aws-neuronx-tools`: v2.\$1
  + SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática

**Etapas de atualização**
+ Execute o comando a seguir para chamar a [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API e atualizar seus HyperPod clusters existentes com a HyperPod DLAMI mais recente. Para obter mais instruções, consulte [Atualizar o software da SageMaker HyperPod plataforma de um cluster](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software).
**Importante**  
Faça backup do seu trabalho antes de executar essa API. O processo de aplicação de patches substitui o volume raiz pela AMI atualizada, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte [Use o script de backup fornecido pelo SageMaker HyperPod](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software-backup).

  ```
   aws sagemaker update-cluster-software --cluster-name your-cluster-name
  ```
**nota**  
Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.

## SageMaker HyperPod Lançamento da AMI para Slurm: 29 de novembro de 2023
<a name="sagemaker-hyperpod-release-ami-slurm-20231129"></a>

**HyperPod Patch de software DLAMI para Slurm**

A equipe HyperPod de serviço distribui patches de software por meio de[SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami). Veja os detalhes a seguir sobre o HyperPod DLAMI mais recente.
+ Desenvolvido com base na [AWS AMI de aprendizado profundo de base GPU (Ubuntu 20.04)](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-20-04/), lançada em 18/10/2023
+ Uma lista completa dos pacotes pré-instalados nesta HyperPod DLAMI, além da AMI básica
  + [Slurm: v23.02.3](https://slurm.schedmd.com/documentation.html)
  + Munge: v0.5.15
  + `aws-neuronx-dkms`: v2.\$1
  + `aws-neuronx-collectives`: v2.\$1
  + `aws-neuronx-runtime-lib`: v2.\$1
  + `aws-neuronx-tools`: v2.\$1
  + SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática