View a markdown version of this page

Usando partições de GPU na Amazon SageMaker HyperPod - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando partições de GPU na Amazon SageMaker HyperPod

Os administradores de cluster podem escolher como maximizar a utilização da GPU em toda a organização. Você pode habilitar o particionamento de GPU com a tecnologia NVIDIA Multi-Instance GPU (MIG) para particionar recursos de GPU em instâncias menores e isoladas para melhor utilização dos recursos. Esse recurso fornece a capacidade de executar várias tarefas menores simultaneamente em uma única GPU, em vez de dedicar todo o hardware a uma única tarefa, muitas vezes subutilizada. Isso elimina o desperdício de energia computacional e memória.

O particionamento de GPU com a tecnologia MIG oferece suporte a GPUs e permite particionar uma única GPU compatível em até sete partições de GPU separadas. Cada partição de GPU tem recursos dedicados de memória, cache e computação, fornecendo isolamento previsível.

Benefícios

  • Melhor utilização da GPU - Maximize a eficiência computacional particionando GPUs com base nos requisitos de computação e memória

  • Isolamento de tarefas - Cada partição de GPU opera de forma independente com recursos dedicados de memória, cache e computação

  • Flexibilidade de tarefas - Support uma combinação de tarefas em uma única GPU física, todas funcionando paralelamente

  • Gerenciamento de configuração flexível - Support configurações Do-it-yourself (DIY) do Kubernetes usando o cliente kubectl de linha de comando Kubernetes e uma solução gerenciada com rótulos personalizados para configurar e aplicar facilmente seus rótulos associados às partições da GPU

Importante

O particionamento de GPU com MIG não é compatível com grupos de instâncias flexíveis (grupos de instâncias que usam). InstanceRequirements Para usar o MIG, crie um grupo de instâncias com um únicoInstanceType.

Tipos de instâncias compatíveis

O particionamento de GPU com a tecnologia MIG é compatível com os seguintes tipos de instância: HyperPod

Instâncias de GPU A100 - https://aws.amazon.com/ec2/instance-types/p4/

  • ml.p4d.24xlarge - 8 GPUs NVIDIA A100 (80 GB HBM2e por GPU)

  • ml.p4de.24xlarge - 8 GPUs NVIDIA A100 (80 GB HBM2e por GPU)

Instâncias de GPU H100 - https://aws.amazon.com/ec2/instance-types/p5/

  • ml.p5.48xlarge - 8 GPUs NVIDIA H100 (80 GB HBM3 por GPU)

Instâncias de GPU H200 - https://aws.amazon.com/ec2/instance-types/p5/

  • ml.p5e.48xlarge - 8 GPUs NVIDIA H200 (141 GB HBM3e por GPU)

  • ml.p5en.48xlarge - 8 GPUs NVIDIA H200 (141 GB HBM3e por GPU)

Instâncias de GPU B200 - https://aws.amazon.com/ec2/instance-types/p6/

  • ml.p6b.48xlarge - 8 GPUs NVIDIA B200

Partições de GPU

Os perfis NVIDIA MIG definem como as GPUs são particionadas. Cada perfil especifica a alocação de computação e memória por instância MIG. A seguir estão os perfis MIG associados a cada tipo de GPU:

GPU A100 (ml.p4d.24xlarge)

Perfil Memória (GB) Instâncias por GPU Total por ml.p4d.24xlarge

1g.5gb

5

7

56

2g.10gb

10

3

24

3g.20gb

20

2

16

4g.20gb

20

1

8

7g.40gb

40

1

8

GPU H100 (ml.p5.48xlarge)

Perfil Memória (GB) Instâncias por GPU Total por ml.p5,48xlarge

1g.10gb

10

7

56

1g.20gb

20

4

32

2g.20gb

20

3

24

3g.40gb

40

2

16

4g.40gb

40

1

8

7g.80gb

80

1

8

GPU H200 (ml.p5e.48xlarge e ml.p5en.48xlarge)

Perfil Memória (GB) Instâncias por GPU Total por ml.p5en.48xlarge

1g.18gb

18

7

56

1g.35gb

35

4

32

2g.35gb

35

3

24

3g.71gb

71

2

16

4g.71gb

71

1

8

7g.141gb

141

1

8