Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Uso de particiones de GPU en Amazon SageMaker HyperPod
Los administradores de clústeres pueden elegir cómo maximizar el uso de la GPU en su organización. Puedes habilitar el particionamiento de la GPU con la tecnología de Multi-Instance GPU de NVIDIA (MIG) para dividir los recursos de la GPU en instancias más pequeñas y aisladas para una mejor utilización de los recursos. Esta capacidad permite ejecutar varias tareas de menor tamaño de forma simultánea en una sola GPU, en lugar de dedicar todo el hardware a una sola tarea, a menudo infrautilizada. Esto elimina el desperdicio de memoria y potencia de cómputo.
La partición de GPU con tecnología MIG es compatible con las GPU y permite particionar una sola GPU compatible en hasta siete particiones de GPU independientes. Cada partición de la GPU tiene recursos de memoria, caché y cómputo dedicados, lo que proporciona un aislamiento predecible.
Ventajas
-
Utilización mejorada de la GPU: maximice la eficiencia informática dividiendo las GPU en función de los requisitos de procesamiento y memoria
-
Aislamiento de tareas: cada partición de la GPU funciona de forma independiente con recursos de memoria, caché y cómputo dedicados
-
Flexibilidad de tareas: Support una combinación de tareas en una sola GPU física, todas ejecutándose en paralelo
-
Administración flexible de la configuración: Suponga configuraciones de Kubernetes Do-it-yourself (hágalo usted mismo) mediante el cliente
kubectlde línea de comandos de Kubernetes y una solución gestionada con etiquetas personalizadas para configurar y aplicar fácilmente las etiquetas asociadas a las particiones de la GPU
importante
Los grupos de instancias flexibles (grupos de instancias que sí utilizan) no admiten la partición de la GPU con MIG. InstanceRequirements Para usar MIG, crea un grupo de instancias con una sola instancia. InstanceType
Tipos de instancias admitidos
Los siguientes HyperPod tipos de instancias admiten la creación de particiones de GPU con tecnología MIG:
Instancias de GPU A100 - https://aws.amazon.com/ec2/instance-types/p4/
-
ml.p4d.24xlarge: 8 GPU NVIDIA A100 (80 GB HBM2e por GPU)
-
ml.p4de.24xlarge: 8 GPU NVIDIA A100 (80 GB HBM2e por GPU)
Instancias de GPU H100 - https://aws.amazon.com/ec2/instance-types/p5/
-
ml.p5.48xlarge: 8 GPU NVIDIA H100 (80 GB HBM3 por GPU)
Instancias de GPU H200 - https://aws.amazon.com/ec2/instance-types/p5/
-
ml.p5e.48xlarge: 8 GPU NVIDIA H200 (141 GB HBM3e por GPU)
-
ml.p5en.48xlarge: 8 GPU NVIDIA H200 (141 GB HBM3e por GPU)
Instancias de GPU B200 - https://aws.amazon.com/ec2/instance-types/p6/
-
ml.p6b.48xlarge: 8 GPU NVIDIA B200
Particiones de GPU
Los perfiles MIG de NVIDIA definen cómo se particionan las GPU. Cada perfil especifica la asignación de cómputo y memoria por instancia MIG. Los siguientes son los perfiles MIG asociados a cada tipo de GPU:
GPU A100 (ml.p4d.24xlarge)
| Perfil | Memoria (GB) | Instancias por GPU | Total por ml.p4d.24xlarge |
|---|---|---|---|
|
5 |
7 |
56 |
|
10 |
3 |
24 |
|
20 |
2 |
16 |
|
20 |
1 |
8 |
|
40 |
1 |
8 |
GPU H100 (ml.p5.48xlarge)
| Perfil | Memoria (GB) | Instancias por GPU | Total por ml.p5,48 x large |
|---|---|---|---|
|
10 |
7 |
56 |
|
20 |
4 |
32 |
|
20 |
3 |
24 |
|
40 |
2 |
16 |
|
40 |
1 |
8 |
|
80 |
1 |
8 |
GPU H200 (ml.p5e.48xlarge y ml.p5en.48xlarge)
| Perfil | Memoria (GB) | Instancias por GPU | Total por ml.p5en.48xlarge |
|---|---|---|---|
|
18 |
7 |
56 |
|
35 |
4 |
32 |
|
35 |
3 |
24 |
|
71 |
2 |
16 |
|
71 |
1 |
8 |
|
141 |
1 |
8 |