View a markdown version of this page

Notas da versão - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Notas da versão

Consulte as notas de versão a seguir para acompanhar as atualizações mais recentes do treinamento SageMaker HyperPod sem pontos de verificação.

O treinamento SageMaker HyperPod sem controle v1.0.1

Data: 10 de abril de 2026

Correções de bugs

  • Corrigida a vinculação incorreta do dispositivo CUDA na rosca de tratamento de falhas. O thread de tratamento de falhas agora define corretamente o contexto do dispositivo CUDA usandoLOCAL_RANK. Essa correção evita erros de incompatibilidade do dispositivo durante a recuperação de falhas em processo.

O treinamento SageMaker HyperPod sem pontos de verificação v1.0.0

Data: 03 de dezembro de 2025

SageMaker HyperPod Características de treinamento sem pontos de verificação

  • Melhorias na inicialização da comunicação coletiva: oferece novos métodos de inicialização, Rootless e TCPStoreless para NCCL e Gloo.

  • Memory-mapped (MMAP) Dataloader: armazena em cache (persiste) lotes pré-buscados para que estejam disponíveis mesmo quando uma falha causa a reinicialização do trabalho de treinamento.

  • Checkpointless: permite uma recuperação mais rápida de falhas de treinamento em cluster em ambientes de treinamento distribuídos em grande escala, fazendo otimizações em nível de estrutura

  • Construído em Nvidia Nemo e PyTorch Lightning: aproveita essas estruturas poderosas para um treinamento de modelos eficiente e flexível

SageMaker HyperPod Contêiner Docker de treinamento sem ponto de verificação

O treinamento Checkpointless on HyperPod é baseado na estrutura da NeMo NVIDIA. HyperPod O treinamento checkpointless visa se recuperar mais rapidamente de falhas de treinamento de cluster em ambientes de treinamento distribuídos em grande escala, fazendo otimizações em nível de estrutura que serão fornecidas em um contêiner básico contendo a imagem base com NCCL e otimizações. PyTorch

Disponibilidade

Atualmente, as imagens só estão disponíveis em:

eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2

mas não disponível nas seguintes 3 regiões opcionais:

ap-southeast-3 ap-southeast-4 eu-south-2

Detalhes do contêiner

Contêiner Docker de treinamento sem ponto de verificação para PyTorch v2.6.0 com CUDA v12.9

963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1

Pre-installed pacotes

PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0