

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在亚马逊中使用 GPU 分区 SageMaker HyperPod
<a name="sagemaker-hyperpod-eks-gpu-partitioning"></a>

集群管理员可以选择如何最大限度地提高整个组织的 GPU 利用率。您可以使用 NVIDIA GP Multi-Instance U (MIG) 技术启用 GPU 分区，将 GPU 资源分成更小的隔离实例，从而提高资源利用率。此功能提供了在单个 GPU 上同时运行多个规模较小的任务的能力，而不是将整个硬件专用于单个通常未充分利用的任务。这消除了计算能力和内存的浪费。

采用 MIG 技术的 GPU 分区支持 GPU，并允许您将单个支持的 GPU 分区为多达七个独立的 GPU 分区。每个 GPU 分区都有专用的内存、缓存和计算资源，可提供可预测的隔离。

## 优势
<a name="sagemaker-hyperpod-eks-gpu-partitioning-benefits"></a>
+ **提高 GPU 利用率**-根据计算和内存要求对 GPU 进行分区，从而最大限度地提高计算效率
+ **任务隔离**-每个 GPU 分区使用专用的内存、缓存和计算资源独立运行
+ **任务灵活性**-Support 支持在单个物理 GPU 上混合执行多种任务，全部并行运行
+ **灵活的设置管理**-支持使用 Kubernetes 命令行客户端的 Do-it-yourself (DIY) Kubernetes 配置，以及带有自定义标签的托管解决方案`kubectl`，可轻松配置和应用与 GPU 分区关联的标签

**重要**  
灵活的实例组（使用的实例组）不支持使用 `InstanceRequirements` MIG 进行 GPU 分区。要使用 MIG，请创建一个包含单个`InstanceType`实例组的实例组。

## 支持的实例类型
<a name="sagemaker-hyperpod-eks-gpu-partitioning-instance-types"></a>

以下 HyperPod 实例类型支持采用 MIG 技术的 GPU 分区：

**A100 GPU 实例**-[https://aws.amazon.com/ec2/instance-types/p4/](https://aws.amazon.com/ec2/instance-types/p4/)
+ **ml.p4d.24xlarge-8 个 NVIDIA A100 GPU**（每个 GPU 80GB HBM2e）
+ **ml.p4de.24xlarge-8 个 NVIDIA A100 GPU（每个 GPU** 80GB HBM2e）

**H100 GPU 实例**-[https://aws.amazon.com/ec2/instance-types/p5/](https://aws.amazon.com/ec2/instance-types/p5/)
+ **ml.p5.48xlarge** -8 个 NVIDIA H100 GPU（每个 GPU 80GB HBM3）

**H200 GPU 实例**-[https://aws.amazon.com/ec2/instance-types/p5/](https://aws.amazon.com/ec2/instance-types/p5/)
+ **ml.p5e.48xlarge-8 个 NVIDIA H200 GPU**（每个 GPU 141GB HBM3e）
+ **ml.p5en.48xlarge-8 个 NVIDIA H200 GPU（每个 GPU** 141GB HBM3e）

**B200 GPU 实例**-[https://aws.amazon.com/ec2/instance-types/p6/](https://aws.amazon.com/ec2/instance-types/p6/)
+ **ml.p6b.48xlarge-8 个 NVID** IA B200 GPU

## GPU 分区
<a name="sagemaker-hyperpod-eks-gpu-partitioning-profiles"></a>

NVIDIA MIG 配置文件定义了 GPU 的分区方式。每个配置文件都指定了每个 MIG 实例的计算和内存分配。以下是与每种 GPU 类型关联的 MIG 配置文件：

**A100 GPU (ml.p4d.24xlarge)**


| 配置文件 | 内存（GB） | 每 GPU 的实例数 | 每 ml.p4d.24xlarge 的总数 | 
| --- | --- | --- | --- | 
| `1g.5gb` | 5 | 7 | 56 | 
| `2g.10gb` | 10 | 3 | 24 | 
| `3g.20gb` | 20 | 2 | 16 | 
| `4g.20gb` | 20 | 1 | 8 | 
| `7g.40gb` | 40 | 1 | 8 | 

**H100 GPU (ml.p5.48xlarge)**


| 配置文件 | 内存（GB） | 每 GPU 的实例数 | 每个 ml.p5.48xlarge 的总数 | 
| --- | --- | --- | --- | 
| `1g.10gb` | 10 | 7 | 56 | 
| `1g.20gb` | 20 | 4 | 32 | 
| `2g.20gb` | 20 | 3 | 24 | 
| `3g.40gb` | 40 | 2 | 16 | 
| `4g.40gb` | 40 | 1 | 8 | 
| `7g.80gb` | 80 | 1 | 8 | 

**H200 GPU（ml.p5e.48xlarge 和 ml.p5en.48xlarge）**


| 配置文件 | 内存（GB） | 每 GPU 的实例数 | 每 ml.p5en.48xlarge 的总数 | 
| --- | --- | --- | --- | 
| `1g.18gb` | 18 | 7 | 56 | 
| `1g.35gb` | 35 | 4 | 32 | 
| `2g.35gb` | 35 | 3 | 24 | 
| `3g.71gb` | 71 | 2 | 16 | 
| `4g.71gb` | 71 | 1 | 8 | 
| `7g.141gb` | 141 | 1 | 8 | 

**Topics**
+ [优势](#sagemaker-hyperpod-eks-gpu-partitioning-benefits)
+ [支持的实例类型](#sagemaker-hyperpod-eks-gpu-partitioning-instance-types)
+ [GPU 分区](#sagemaker-hyperpod-eks-gpu-partitioning-profiles)
+ [在亚马逊上设置 GPU 分区 SageMaker HyperPod](sagemaker-hyperpod-eks-gpu-partitioning-setup.md)
+ [节点生命周期和标签](sagemaker-hyperpod-eks-gpu-partitioning-labels.md)
+ [使用 MIG 提交任务](sagemaker-hyperpod-eks-gpu-partitioning-task-submission.md)