View a markdown version of this page

分配 GPU 分区配额 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分配 GPU 分区配额

您可以扩展计算配额分配以支持 GPU 分区,从而在 GPU 分区级别实现精细的资源共享。在集群中支持的 GPU 上启用 GPU 分区后,可以将每个物理 GPU 分区为多个独立的 GPU,并具有定义的计算、内存和流式多处理器分配。有关 GPU 分区的更多信息,请参阅在亚马逊中使用 GPU 分区 SageMaker HyperPod。您可以为团队分配特定的 GPU 分区,允许多个团队共享一个 GPU,同时保持硬件级别的隔离和可预测的性能。

例如,可以将具有 8 个 H100 GPU 的 ml.p5.48xlarge 实例分区为 GPU 分区,您可以根据不同的团队的任务要求将各个分区分配给不同的团队。当您指定 GPU 分区分配时, HyperPod 任务管理会根据 GPU 分区按比例计算 vCPU 和内存配额,这与分配类似。 GPU-level 这种方法通过消除空闲容量并在同一个物理 GPU 上的多个并发任务之间实现经济高效的资源共享,从而最大限度地提高 GPU 利用率。

创建计算配额

aws sagemaker create-compute-quota \ --name "fractional-gpu-quota" \ --compute-quota-config '{ "ComputeQuotaResources": [ { "InstanceType": "ml.p4d.24xlarge", "AcceleratorPartition": { "Count": 4, "Type": "mig-1g.5gb" } } ], "ResourceSharingConfig": { "Strategy": "LendAndBorrow", "BorrowLimit": 100 } }'

验证配额资源

# Check ClusterQueue kubectl get clusterqueues kubectl describe clusterqueue QUEUE_NAME # Check ResourceFlavors kubectl get resourceflavor kubectl describe resourceflavor FLAVOR_NAME