Benefícios Tipos de instâncias compatíveis Partições de GPU

Usando partições de GPU na Amazon SageMaker HyperPod

Os administradores de cluster podem escolher como maximizar a utilização da GPU em toda a organização. Você pode habilitar o particionamento de GPU com a tecnologia NVIDIA Multi-Instance GPU (MIG) para particionar recursos de GPU em instâncias menores e isoladas para melhor utilização dos recursos. Esse recurso fornece a capacidade de executar várias tarefas menores simultaneamente em uma única GPU, em vez de dedicar todo o hardware a uma única tarefa, muitas vezes subutilizada. Isso elimina o desperdício de energia computacional e memória.

O particionamento de GPU com a tecnologia MIG oferece suporte a GPUs e permite particionar uma única GPU compatível em até sete partições de GPU separadas. Cada partição de GPU tem recursos dedicados de memória, cache e computação, fornecendo isolamento previsível.

Benefícios

Melhor utilização da GPU - Maximize a eficiência computacional particionando GPUs com base nos requisitos de computação e memória
Isolamento de tarefas - Cada partição de GPU opera de forma independente com recursos dedicados de memória, cache e computação
Flexibilidade de tarefas - Support uma combinação de tarefas em uma única GPU física, todas funcionando paralelamente
Gerenciamento de configuração flexível - Support configurações Do-it-yourself (DIY) do Kubernetes usando o cliente kubectl de linha de comando Kubernetes e uma solução gerenciada com rótulos personalizados para configurar e aplicar facilmente seus rótulos associados às partições da GPU

Importante

O particionamento de GPU com MIG não é compatível com grupos de instâncias flexíveis (grupos de instâncias que usam). InstanceRequirements Para usar o MIG, crie um grupo de instâncias com um únicoInstanceType.

Tipos de instâncias compatíveis

O particionamento de GPU com a tecnologia MIG é compatível com os seguintes tipos de instância: HyperPod

Instâncias de GPU A100 - https://aws.amazon.com/ec2/instance-types/p4/

ml.p4d.24xlarge - 8 GPUs NVIDIA A100 (80 GB HBM2e por GPU)
ml.p4de.24xlarge - 8 GPUs NVIDIA A100 (80 GB HBM2e por GPU)

Instâncias de GPU H100 - https://aws.amazon.com/ec2/instance-types/p5/

ml.p5.48xlarge - 8 GPUs NVIDIA H100 (80 GB HBM3 por GPU)

Instâncias de GPU H200 - https://aws.amazon.com/ec2/instance-types/p5/

ml.p5e.48xlarge - 8 GPUs NVIDIA H200 (141 GB HBM3e por GPU)
ml.p5en.48xlarge - 8 GPUs NVIDIA H200 (141 GB HBM3e por GPU)

Instâncias de GPU B200 - https://aws.amazon.com/ec2/instance-types/p6/

ml.p6b.48xlarge - 8 GPUs NVIDIA B200

Partições de GPU

Os perfis NVIDIA MIG definem como as GPUs são particionadas. Cada perfil especifica a alocação de computação e memória por instância MIG. A seguir estão os perfis MIG associados a cada tipo de GPU:

GPU A100 (ml.p4d.24xlarge)

Perfil	Memória (GB)	Instâncias por GPU	Total por ml.p4d.24xlarge
`1g.5gb`	5	7	56
`2g.10gb`	10	3	24
`3g.20gb`	20	2	16
`4g.20gb`	20	1	8
`7g.40gb`	40	1	8

GPU H100 (ml.p5.48xlarge)

Perfil	Memória (GB)	Instâncias por GPU	Total por ml.p5,48xlarge
`1g.10gb`	10	7	56
`1g.20gb`	20	4	32
`2g.20gb`	20	3	24
`3g.40gb`	40	2	16
`4g.40gb`	40	1	8
`7g.80gb`	80	1	8

GPU H200 (ml.p5e.48xlarge e ml.p5en.48xlarge)

Perfil	Memória (GB)	Instâncias por GPU	Total por ml.p5en.48xlarge
`1g.18gb`	18	7	56
`1g.35gb`	35	4	32
`2g.35gb`	35	3	24
`3g.71gb`	71	2	16
`4g.71gb`	71	1	8
`7g.141gb`	141	1	8

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Notas da versão

Configurando partições de GPU