

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 策略
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies"></a>

Amazon SageMaker HyperPod 任务管理简化了您的 Amazon EKS 集群资源的分配方式以及任务优先级的排列方式。以下内容提供有关 HyperPod EKS 集群策略的信息。有关如何设置任务治理的信息，请参阅[任务治理设置](sagemaker-hyperpod-eks-operate-console-ui-governance-setup-task-governance.md)。

这些策略分为**计算资源优先级**和**计算资源分配**。以下策略概念将围绕这些策略的框架进行整理。

**计算资源优先级**（又称集群策略）决定了空闲计算资源的借入方式，以及团队为任务设置优先级的方式。
+ **空闲计算资源分配**定义在团队间分配空闲计算资源的方式。也就是说，如何从团队处借入未使用的计算资源。选择**空闲计算资源分配**时，可以在以下选项中进行选择：
  + **先到先得**：应用此选项后，团队之间不进行优先级区分，并且每个传入任务获得超额配额资源的概率均等。根据提交顺序设定任务的优先级。这意味着，如果用户最先提出申请，就有可能使用 100% 的空闲计算资源。
  + **公平共享**：应用此选项时，团队将根据其分配到的**公平共享权重**借入空闲计算资源。这些权重是在**计算资源分配**中定义的。有关其使用方式的更多信息，请参阅[共享空闲计算资源示例](#hp-eks-task-governance-policies-examples)。
+ **任务优先级**定义任务在计算资源可用时的排队方式。选择**任务优先级**时，可以在以下选项中进行选择：
  + **先到先得**：应用此选项时，按任务的请求顺序对任务排队。
  + **任务排名**：应用此选项时，按任务优先级所定义的顺序对任务排队。如果选择此选项，则必须添加优先级类以及这些优先级类应遵循的权重排序规则。相同优先级类的任务将按先到先得的原则执行。在“计算资源分配”中启用此选项后，团队内部优先级较高的任务会抢占优先级较低的任务的资源。

    当数据科学家向集群提交作业时，他们会在 YAML 文件中使用优先级类名称。优先级类的格式为 `priority-class-name-priority`。有关示例，请参阅[向 SageMaker AI 管理的队列和命名空间提交作业](sagemaker-hyperpod-eks-operate-console-ui-governance-cli.md#hp-eks-cli-start-job)。
  + **优先级类**：这些类为借用容量时任务确定相对优先级。当任务使用借入的配额运行时，如果传入任务无可用容量，该任务可能会被优先级高于它的其他任务抢占资源。如果在**计算资源分配**中启用**抢占**选项，则优先级较高的任务也可能抢占其团队内部任务的资源。
+ **未分配的资源共享**使团队能够借用未通过计算配额分配给任何团队的计算资源。启用后，未分配的集群容量将可供团队自动借用。有关更多信息，请参阅 [未分配资源共享的工作原理](#sagemaker-hyperpod-eks-operate-console-ui-governance-policies-idle-resource-sharing-how-it-works)。

**计算资源分配**（又称计算资源配额）定义了团队的计算资源分配，以及在公平共享空闲计算资源分配中为团队设定的权重（或优先级级别）。
+ **团队名称**：团队的名称。将创建一个类型为 `hyperpod-ns-team-name` 的相应的**命名空间**。
+ **成员**：团队命名空间的成员。您需要为想要加入该团队的数据科学家用户设置基于角色的 Kubernetes 访问控制 (RBAC)，以便在使用 Amazon EKS 编排的集群 HyperPod上运行任务。要设置 Kubernetes RBAC，请按照[创建团队角色](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart#5-create-team-role)中的说明进行操作。
+ **公平共享权重**：在对**空闲计算资源分配**应用**公平共享**时，这是为团队分配的优先级级别。最高优先级的权重为 100，最低优先级的权重为 0。权重越高，团队在共享容量内获取未使用资源的速度就越快。权重为零表示最低优先级，这意味着与其他团队相比，该团队将始终处于不利地位。

  公平共享权重可让该团队在与其他团队竞争可用资源时获得相对优势。准入机制会优先调度权重最高且资源借入量最少的团队所提交的任务。例如，如果团队 A 的权重为 10，团队 B 的权重为 5，则团队 A 在获取未使用资源时将拥有优先权，也就是说，团队 A 的作业会比团队 B 的作业更早被调度。
+ **任务抢占**：计算资源会依据优先级从某个任务中被接管。默认情况下，借出空闲计算资源的团队会抢占其他团队的任务资源。
+ **借出和借入**：团队如何借出空闲计算资源，以及团队是否能从其他团队借入空闲计算资源。
  + **基于百分比的借用限制**：允许团队借用的闲置计算上限，以其保证配额的百分比表示。一个团队最多可以借用 10,000% 的已分配计算量。您在此处提供的数值将被解读为百分比。例如，数值 500 将被解读为 500%。该百分比统一适用于团队配额中的所有资源类型（CPU、GPU、内存）和实例类型。
  + **绝对借用限制**：允许团队借用的空闲计算上限，定义为每种实例类型的绝对资源值。这为特定实例类型的借用行为提供了精细控制。您需要使用与**计算配额**相同的架构来指定绝对限制，包括实例数、加速器、vCPU、内存或加速器分区。您可以在团队的配额中为一个或多个实例类型指定绝对限制。

有关如何使用这些概念（例如优先级类和命名空间）的信息，请参阅[HyperPod 任务管理 AWS CLI 命令示例](sagemaker-hyperpod-eks-operate-console-ui-governance-cli.md)。

## 共享空闲计算资源示例
<a name="hp-eks-task-governance-policies-examples"></a>

总预留配额不应超过集群中该资源的可用容量，以确保正常管理配额。例如，如果一个集群包含 20 个 `ml.c5.2xlarge` 实例，则分配给各个团队的累计配额应保持在 20 个以下。

如果团队的**计算资源分配**策略允许**借出和借入**或**借出**，则这些团队之间将共享空闲容量。例如，团队 A 和团队 B 已启用**借出和借入**。团队 A 的配额为 6，但当前仅将 2 个资源用于其作业；团队 B 的配额为 5，当前将 4 个资源用于其作业。向团队 B 提交的一个作业需要 4 个资源，其中 3 个资源将从团队 A 借入。

如果任意团队的**计算资源分配**策略设置为**不借出**，则该团队无法借入超出自身配额的额外容量。

## 未分配资源共享的工作原理
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-idle-resource-sharing-how-it-works"></a>

未分配的资源共享会自动管理未分配给集群中任何计算配额的资源池。这意味着 HyperPod 持续监控您的集群状态，并随着时间的推移自动更新到正确的配置。

**初始设置**
+ 当您在`Enabled`中设置`IdleResourceSharing`为 ClusterSchedulerConfig （默认情况下为`Disabled`）时， HyperPod 任务管理将开始监控您的集群，并通过从节点总容量中减去团队配额来计算可用的闲置资源。
+ 创建未分配的资源共享 ClusterQueues 是为了表示可借用的资源池。
+ 首次启用未分配资源共享时，基础架构设置需要几分钟。您可以通过策略`Status`来监控进度 ClusterSchedulerConfig。`DetailedStatus`

**正在进行的对账**
+ HyperPod 任务治理会持续监控诸如节点添加或移除以及集群队列配额更新之类的更改。
+  发生更改时，未分配的资源共享会重新计算配额并进行更新。 ClusterQueues协调通常会在几秒钟内完成。

**监控**

 您可以通过检查未分配的资源共享来验证未分配的资源共享是否已完全配置： ClusterQueues

```
kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharing
```

当你看到类似 ClusterQueues 的名字时`hyperpod-ns-idle-resource-sharing-cq-1`，未分配的资源共享处于活动状态。请注意， ClusterQueues可能存在多个未分配的资源共享，具体取决于群集中的资源规格数量。

## 未分配资源共享的节点资格
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-idle-resource-sharing-node-eligibility"></a>

未分配的资源共享仅包括满足以下要求的节点：

1. **节点就绪状态**
   + 节点必须处于`Ready`状态才能为未分配的资源池做出贡献。
   + 容量计算中不包括处于`NotReady`或其他未就绪状态的节点。
   + 当一个节点变为时`Ready`，它会自动包含在下一个协调周期中。

1. **节点可调度状态**
   + 带有的节点`spec.unschedulable: true`将排除在未分配的资源共享之外。
   + 当一个节点再次变为可调度状态时，它会自动包含在下一个协调周期中。

1. **MIG 配置（仅限 GPU 节点）**
   + 对于具有 MIG（多实例 GPU）分区的 GPU 节点，必须显示`nvidia.com/mig.config.state`标签，该节点才能`success`将 MIG 配置文件贡献给未分配的资源共享。
   + MIG 配置成功完成后，将自动重试这些节点。

1. **支持的实例类型**
   + 该实例必须是支持的 SageMaker HyperPod 实例类型。
   + 查看集 SageMaker HyperPod 群中支持的实例类型列表。

**Topics**
+ [共享空闲计算资源示例](#hp-eks-task-governance-policies-examples)
+ [未分配资源共享的工作原理](#sagemaker-hyperpod-eks-operate-console-ui-governance-policies-idle-resource-sharing-how-it-works)
+ [未分配资源共享的节点资格](#sagemaker-hyperpod-eks-operate-console-ui-governance-policies-idle-resource-sharing-node-eligibility)
+ [创建策略](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-create.md)
+ [编辑策略](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-edit.md)
+ [删除策略](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete.md)
+ [在 Amazon SageMaker HyperPod 任务管理中分配计算配额](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-compute-allocation.md)

# 创建策略
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-create"></a>

您可以在**策略**选项卡中创建**集群策略**和**计算资源分配**配置。下文介绍了如何创建以下配置。
+ 创建**集群策略**以更新任务的优先级设置方式和空闲计算资源的分配方式。
+ 创建**计算资源分配**以为团队创建新的计算资源分配策略。
**注意**  
创建**计算分配**时，您需要为相应命名空间中的数据科学家用户设置基于角色的 Kubernetes 访问控制 (RBAC)，以便在使用 Amazon EKS 编排的集群 HyperPod 上运行任务。命名空间的格式为 `hyperpod-ns-team-name`。要设置 Kubernetes RBAC，请按照[创建团队角色](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart#5-create-team-role)中的说明进行操作。

有关 HyperPod 任务治理 EKS 集群策略概念的信息，请参阅[策略](sagemaker-hyperpod-eks-operate-console-ui-governance-policies.md)。

**创建 HyperPod 任务管理策略**

此过程假设您已经创建了使用设置的 Amazon EKS 集群 HyperPod。如果您尚未这样做，请参阅[使用 Amazon EKS 编排创建 SageMaker HyperPod 集群](sagemaker-hyperpod-eks-operate-console-ui-create-cluster.md)。

1. 导航到[亚马逊 A SageMaker I 控制台](https://console.aws.amazon.com/sagemaker/)。

1. 在左侧导航窗格的**HyperPod集群**下，选择**集群管理**。

1. 选择集群下列出的您的 Amazon EKS **SageMaker HyperPod集群**。

1. 选择**策略**选项卡。

1. 要创建**集群策略**，请执行以下操作：

   1. 选择相应的**编辑**以更新任务的优先级设置方式和空闲计算资源的分配方式。

   1. 执行您的更改后，选择**提交**。

1. 要创建**计算资源分配**，请执行以下操作：

1. 

   1. 选择相应的**创建**。这会将您转至计算资源分配创建页面。

   1. 执行您的更改后，选择**提交**。

# 编辑策略
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-edit"></a>

您可以在**策略**选项卡中编辑**集群策略**和**计算资源分配**配置。下文介绍了如何编辑以下配置。
+ 编辑**集群策略**以更新任务的优先级设置方式和空闲计算资源的分配方式。
+ 编辑**计算资源分配**以为团队创建新的计算资源分配策略。
**注意**  
创建**计算分配**时，您需要为相应命名空间中的数据科学家用户设置基于角色的 Kubernetes 访问控制 (RBAC)，以便在使用 Amazon EKS 编排的集群 HyperPod 上运行任务。命名空间的格式为 `hyperpod-ns-team-name`。要设置 Kubernetes RBAC，请按照[创建团队角色](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart#5-create-team-role)中的说明进行操作。

有关 HyperPod 任务治理 EKS 集群策略概念的更多信息，请参阅[策略](sagemaker-hyperpod-eks-operate-console-ui-governance-policies.md)。

**编辑 HyperPod 任务管理策略**

此过程假设您已经创建了使用设置的 Amazon EKS 集群 HyperPod。如果您尚未这样做，请参阅[使用 Amazon EKS 编排创建 SageMaker HyperPod 集群](sagemaker-hyperpod-eks-operate-console-ui-create-cluster.md)。

1. 导航到[亚马逊 A SageMaker I 控制台](https://console.aws.amazon.com/sagemaker/)。

1. 在左侧导航窗格的**HyperPod集群**下，选择**集群管理**。

1. 选择集群下列出的您的 Amazon EKS **SageMaker HyperPod集群**。

1. 选择**策略**选项卡。

1. 要编辑**集群策略**，请执行以下操作：

   1. 选择相应的**编辑**以更新任务的优先级设置方式和空闲计算资源的分配方式。

   1. 执行您的更改后，选择**提交**。

1. 要编辑**计算资源分配**，请执行以下操作：

1. 

   1. 在**计算资源分配**下，选择要编辑的配置。这会将您转至配置详细信息页面。

   1. 如果要编辑这些配置，请选择**编辑**。

   1. 执行您的更改后，选择**提交**。

# 删除策略
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete"></a>

您可以使用 SageMaker AI 控制台或删除您的**集群策略**和**计算分配**配置 AWS CLI。以下页面提供了有关如何删除 SageMaker HyperPod 任务管理策略和配置的说明。

有关 HyperPod 任务治理 EKS 集群策略概念的更多信息，请参阅[策略](sagemaker-hyperpod-eks-operate-console-ui-governance-policies.md)。

**注意**  
如果您在列出或删除任务治理策略时遇到问题，则可能需要更新集群管理员的最低权限集。请参阅[集群管理员的 IAM 用户](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin)部分中的 **Amazon EKS** 选项卡。有关更多信息，请参阅 [删除集群](sagemaker-hyperpod-eks-operate-console-ui-governance-troubleshoot.md#hp-eks-troubleshoot-delete-policies)。

## 删除 HyperPod 任务管理策略（控制台）
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete-console"></a>

以下内容使用 A SageMaker I 控制台删除您的 HyperPod 任务管理策略。

**注意**  
您无法使用 SageMaker AI 控制台删除**集群策略** (`ClusterSchedulerConfig`)。要了解如何使用执行此操作 AWS CLI，请参阅[删除 HyperPod 任务管理策略 (AWS CLI)](#sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete-cli)。

**删除任务治理策略（控制台）**

1. 导航到[亚马逊 A SageMaker I 控制台](https://console.aws.amazon.com/sagemaker/)。

1. 在左侧导航窗格的**HyperPod集群**下，选择**集群管理**。

1. 选择集群下列出的您的 Amazon EKS **SageMaker HyperPod集群**。

1. 选择**策略**选项卡。

1. 要删除**计算分配**（`ComputeQuota`），请执行以下操作：

   1. 在**计算分配**部分，选择要删除的配置。

   1. 在**操作**下拉菜单中，选择**删除**。

   1. 按照用户界面中的说明操作以完成任务。

## 删除 HyperPod 任务管理策略 (AWS CLI)
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete-cli"></a>

以下内容使用 AWS CLI 来删除您的 HyperPod 任务管理策略。

**注意**  
如果您在使用以下命令时遇到问题，则可能需要更新您的 AWS CLI。有关更多信息，请参阅[安装或更新到最新版本的 AWS CLI](https://docs.aws.amazon.com/cli/latest/userguide/getting-started-install.html)。

**删除任务治理策略（AWS CLI）**

首先为接下来的 AWS CLI 命令设置变量。

```
REGION=aws-region
```

1. 获取与您要删除的策略*cluster-arn*相关联的。您可以使用以下 AWS CLI 命令列出中的集群 AWS 区域。

   ```
   aws sagemaker list-clusters \
       --region ${REGION}
   ```

1. 要删除计算分配（`ComputeQuota`），请执行以下操作：

   1. 列出与 HyperPod 集群关联的所有计算配额。

      ```
      aws sagemaker list-compute-quotas \
          --cluster-arn cluster-arn \
          --region ${REGION}
      ```

   1. 对于要删除的每个 `compute-quota-id`，运行以下命令以删除计算资源配额。

      ```
      aws sagemaker delete-compute-quota \
          --compute-quota-id compute-quota-id \
          --region ${REGION}
      ```

1. 要删除集群策略（`ClusterSchedulerConfig`），请执行以下操作：

   1. 列出与该集群关联的所有 HyperPod 集群策略。

      ```
      aws sagemaker list-cluster-scheduler-configs \
          --cluster-arn cluster-arn \
          --region ${REGION}
      ```

   1. 对于要删除的每个 `cluster-scheduler-config-id`，运行以下命令以删除计算资源配额。

      ```
      aws sagemaker delete-cluster-scheduler-config 
          --cluster-scheduler-config-id scheduler-config-id \
          --region ${REGION}
      ```

# 在 Amazon SageMaker HyperPod 任务管理中分配计算配额
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-compute-allocation"></a>

集群管理员可以决定组织如何使用购买的计算资源。这样做可减少浪费和资源闲置。您可以分配计算资源配额，以便团队能够互相借用未使用的资源。 HyperPod 任务管理中的计算配额分配允许管理员在实例级别和更精细的资源级别分配资源。此功能为团队提供灵活高效的资源管理能力，支持对单个计算资源进行精细控制，而不是要求分配完整实例。精细级别的分配可消除传统实例级分配的低效问题。通过这种方法，您可以优化资源利用率并减少空闲计算资源。

计算资源配额分配支持三种类型的资源分配：加速器、vCPU 和内存。加速器是加速型计算实例中的组件，可执行各类功能，例如浮点数计算、图形处理或数据模式匹配。加速器包括 GPUs Trainium 加速器和神经元核心。在多团队 GPU 共享场景中，不同的团队可从同一实例类型获得特定的 GPU 分配，从而最大限度地提高加速器硬件的利用率。对于需要额外 RAM 来进行数据预处理或模型缓存场景的内存密集型工作负载，您可以分配超出默认比例的内存配额。 GPU-to-memory对于在 GPU 训练的同时需要大量 CPU 资源的 CPU 密集型预处理任务，可以分配独立的 CPU 资源。

提供值后， HyperPod 任务治理将使用**分配的资源除以实例中可用资源总量的公式来**计算比率。 HyperPod 然后，任务治理使用此比率将默认分配应用于其他资源，但您可以覆盖这些默认值并根据您的用例对其进行自定义。以下是 HyperPod 任务治理如何根据您的价值分配资源的示例场景：
+ **仅指定加速器**- HyperPod 任务管理根据加速器值将默认比率应用于 vCPU 和内存。
+ **仅指定 vCPU**- HyperPod 任务管理会计算该比率并将其应用于内存。加速器设置为 0。
+ **仅指定内存**- HyperPod 任务管理会计算该比率并将其应用于 vCPU，因为运行内存指定的工作负载需要计算。加速器设置为 0。

要以编程方式控制配额分配，您可以使用[ ComputeQuotaResourceConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ComputeQuotaResourceConfig.html)对象并以整数形式指定您的分配。

```
{
    "ComputeQuotaConfig": {
        "ComputeQuotaResources": [{
            "InstanceType": "ml.g5.24xlarge",
            "Accelerators": "16",
            "vCpu": "200.0",
            "MemoryInGiB": "2.0"
        }]
    }
}
```

要查看所有已分配的分配，包括默认分配，请使用[ DescribeComputeQuota](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeComputeQuota.html)操作。要更新您的分配，请使用[ UpdateComputeQuota](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateComputeQuota.html)操作。

您也可以使用 HyperPod CLI 来分配计算配额。有关 HyperPod CLI 的更多信息，请参阅[在 Amazon EKS 编排的 SageMaker HyperPod 集群上运行作业](sagemaker-hyperpod-eks-run-jobs.md)。以下示例演示如何使用 HyperPod CLI 设置计算配额。

```
hyp create hyp-pytorch-job --version 1.1 --job-name sample-job \
--image 123456789012.dkr.ecr.us-west-2.amazonaws.com/ptjob:latest \
--pull-policy "Always" \
--tasks-per-node 1 \
--max-retry 1 \
--priority high-priority \
--namespace hyperpod-ns-team-name \
--queue-name hyperpod-ns-team-name-localqueue \
--instance-type sample-instance-type \
--accelerators 1 \
--vcpu 3 \
--memory 1 \
--accelerators-limit 1 \
--vcpu-limit 4 \
--memory-limit 2
```

要使用 AWS 控制台分配配额，请按照以下步骤操作。

1. 打开 Amazon A SageMaker I 控制台，网址为[https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 在 HyperPod 集群下，选择**集群管理**。

1. 在**计算资源分配**下，选择**创建**。

1. 如果您还没有实例，请选择**添加分配**以添加实例。

1. 在**分配**下，选择按实例或单个资源进行分配。如果您按单个资源进行分配， SageMaker AI 会自动按您选择的比率将分配分配给其他资源。要覆盖此基于比例的分配，请使用相应的切换开关来覆盖该计算。

1. 重复步骤 4 和 5 以配置其他实例。

分配计算配额后，您可以通过 HyperPod CLI 或提交作业`kubectl`。 HyperPod根据可用配额高效地调度工作负载。

# 分配 GPU 分区配额
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-compute-allocation-gpu-partitions"></a>

您可以扩展计算配额分配以支持 GPU 分区，从而在 GPU 分区级别实现精细的资源共享。当集群支持 GPUs 启用 GPU 分区时，可以将每个物理 GPU 分成多个独立的 GPU，并 GPUs 具有定义的计算、内存和流式处理多处理器分配。有关 GPU 分区的更多信息，请参阅[在亚马逊中使用 GPU 分区 SageMaker HyperPod](sagemaker-hyperpod-eks-gpu-partitioning.md)。您可以为团队分配特定的 GPU 分区，允许多个团队共享一个 GPU，同时保持硬件级别的隔离和可预测的性能。

例如，可以将 8 个 H100 的 ml.p5.48xlarge 实例分区为 GPU 分区， GPUs 您可以根据不同的团队的任务要求将各个分区分配给不同的团队。指定 GPU 分区分配时， HyperPod 任务管理会根据 GPU 分区按比例计算 vCPU 和内存配额，类似于 GPU 级别的分配。这种方法通过消除空闲容量并在同一个物理 GPU 上的多个并发任务之间实现经济高效的资源共享，从而最大限度地提高 GPU 利用率。

## 创建计算配额
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-compute-allocation-gpu-partitions-creating"></a>

```
aws sagemaker create-compute-quota \
  --name "fractional-gpu-quota" \
  --compute-quota-config '{
    "ComputeQuotaResources": [
      {
        "InstanceType": "ml.p4d.24xlarge",
        "AcceleratorPartition": {
            "Count": 4,
            "Type": "mig-1g.5gb"
        }
      }
    ],
    "ResourceSharingConfig": { 
      "Strategy": "LendAndBorrow", 
      "BorrowLimit": 100 
    }
  }'
```

## 验证配额资源
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-compute-allocation-gpu-partitions-verifying"></a>

```
# Check ClusterQueue
kubectl get clusterqueues
kubectl describe clusterqueue QUEUE_NAME

# Check ResourceFlavors
kubectl get resourceflavor
kubectl describe resourceflavor FLAVOR_NAME
```