View a markdown version of this page

Compatibilidade com a biblioteca SMDDP otimizada para AWS infraestrutura - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Compatibilidade com a biblioteca SMDDP otimizada para AWS infraestrutura

Você pode usar a biblioteca de paralelismo de SageMaker modelos v2 (SMP v2) em conjunto com a biblioteca de paralelismo de dados SageMaker distribuídos (SMDDP) que oferece a operação de comunicação coletiva otimizada para infraestrutura. AllGather AWS No treinamento distribuído, as operações de comunicação coletiva são projetadas para sincronizar vários operadores da GPU e trocar informações entre eles. AllGather é uma das principais operações de comunicação coletiva normalmente usadas no paralelismo de dados fragmentados. Para saber mais sobre a operação AllGather do SMDDP, consulte Otimizar essas operações de comunicação coletiva Operação coletiva do SMDDP AllGather contribuiria diretamente para um treinamento mais rápido de ponta a ponta, sem efeitos colaterais na convergência.

nota

A biblioteca de SMDDP é compatível com as instâncias P4 e P4de (consulte também Estruturas suportadas, Regiões da AWS e tipos de instâncias pela biblioteca de SMDDP).

A biblioteca SMDDP se integra nativamente com a camada do grupo PyTorch de processos. Para usar a biblioteca de SMDDP, você só precisa adicionar duas linhas de código ao script de treinamento. Ele suporta qualquer estrutura de treinamento, como SageMaker Model Parallelism Library, PyTorch FSDP e. DeepSpeed

Para ativar o SMDDP e usar sua operação AllGather, você precisa adicionar duas linhas de código ao script de treinamento como parte do Etapa 1: Adapte seu script de PyTorch treinamento do FSDP. Observe que você precisa primeiro inicializar o PyTorch Distributed com o back-end SMDDP e depois executar a inicialização SMP.

import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()

SageMaker Os contêineres de estrutura para PyTorch (consulte também Estruturas suportadas e Regiões da AWS pelo SMP v2 e Estruturas suportadas, Regiões da AWS e tipos de instâncias pela biblioteca SMDDP) são pré-empacotados com o binário SMP e o binário SMDDP. Para saber mais sobre a biblioteca do SMDDP, consulte Execute treinamento distribuído com a biblioteca de paralelismo de dados distribuídos de SageMaker IA.