

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon SageMaker HyperPod 集群的培训计划利用率
<a name="training-plan-utilization-for-hyperpod"></a>

要对您的 Amazon SageMaker HyperPod 集群使用训练计划，请在创建或更新集群时指定要在集群实例级别使用的训练计划。 SageMaker 

**注意**  
训练计划必须处于`Scheduled`或`Active`状态才能由集 HyperPod 群使用。
确保集群配置与训练计划中指定的可用区（AZ）保持一致。  
有关 VPC 设置、资源位置和安全组配置的信息，请参阅 SageMaker HyperPod文档[SageMaker HyperPod 使用自定义 Amazon VPC 进行设置](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-vpc)中的。  
如果 HyperPod 使用 Amazon fo FSx r Lustre 进行设置，请在中了解区域和可用区选择，查看 VPC 配置要求并了解可用区对齐最佳实践。[（可选）在 Amazon SageMaker HyperPod 上设置 Lu FSx stre](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-fsx)
您可以为每个实例组选择一个计划。但是，我们建议不要对集群的主实例组使用训练计划，因为主节点需要持续、稳定的资源，而这与训练计划容量的固定持续时间特性及潜在的不连续特性并不匹配。

**Topics**
+ [使用 A SageMaker I 控制台根据训练计划创建 SageMaker HyperPod 集群](use-training-plan-for-hyperpod-creation-using-console.md)
+ [使用 A SageMaker I 控制台更新 SageMaker HyperPod 集群的训练计划](use-training-plan-for-hyperpod-update-using-console.md)
+ [使用 SageMaker API 在训练计划上创建 SageMaker HyperPod 集群，或者 AWS CLI](use-training-plan-for-hyperpod-creation-using-api-cli-sdk.md)
+ [使用 SageMaker API 更新 SageMaker HyperPod 集群的训练计划，或者 AWS CLI](use-training-plan-for-hyperpod-update-using-api-cli-sdk.md)

# 使用 A SageMaker I 控制台根据训练计划创建 SageMaker HyperPod 集群
<a name="use-training-plan-for-hyperpod-creation-using-console"></a>

要使用 SageMaker AI 控制台界面的训练计划创建 SageMaker HyperPod 集群，请按照以下步骤操作：

1. 导航到 SageMaker AI 控制台，网址为[https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 在左侧导航窗格中，选择 **Hyperpod**，然后选择**创建集群**。

1. 配置实例组时，您可以选择符合您的计算容量需求的计划。

![\[SageMaker AI 控制台界面显示了用于在 SageMaker HyperPod 集群中创建实例组的模式窗口。该表单包含实例组名称、实例类型、数量、实例容量（包括按需计划和训练计划的选项）以及创建时生命周期脚本的目录路径所对应的字段。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/training-plans/tp-create-hyperpod-cluster.png)


查看和创建集群。当训练计划变为 `Active` 时，使用训练计划的实例组会纵向扩展到指定的目标实例数，视可用容量而定。在每个预留容量期结束前三十分钟，实例组开始缩减到零个实例。这种缩减状态会持续到下一个预留容量期开始或计划结束。在整个过程中，运行状况良好的实例组在初始创建后会保持 `InService` 状态，无论当前实例数量如何。

# 使用 A SageMaker I 控制台更新 SageMaker HyperPod 集群的训练计划
<a name="use-training-plan-for-hyperpod-update-using-console"></a>

您可以使用 SageMaker AI 控制台用户界面更新、移除或向现有 SageMaker HyperPod 集群添加训练计划。要更新 SageMaker HyperPod 集群的实例组，请执行以下步骤：

1. 导航到 SageMaker AI 控制台，网址为[https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 在左侧导航窗格中，选择 **HyperPod**。

1. 通过点击与集群名称关联的超链接，导航到集群的详细信息页面。

1. 配置实例组时，您可以更新计划以满足新的计算容量需求。

![\[SageMaker AI 控制台界面显示了用于更新 SageMaker HyperPod 集群内实例组的模式窗口。该表单包含实例组名称、实例类型、数量、实例容量（包括按需计划和训练计划的选项）以及创建时生命周期脚本的目录路径所对应的字段。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/training-plans/tp-update-hyperpod-clusters.png)


查看和更新集群。

# 使用 SageMaker API 在训练计划上创建 SageMaker HyperPod 集群，或者 AWS CLI
<a name="use-training-plan-for-hyperpod-creation-using-api-cli-sdk"></a>

要对您的 Amazon SageMaker HyperPod 集群使用 SageMaker 训练计划，请在调用 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)API 操作[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html)时在的[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html#sagemaker-Type-ClusterInstanceGroupSpecification-TrainingPlanArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html#sagemaker-Type-ClusterInstanceGroupSpecification-TrainingPlanArn)参数中指定要使用的训练计划的 ARN。

确保与计划的指定可用区关联的子网包含在集群配置的 `VPCConfig` 中。您可以在 [``DescribeTrainingPlan](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingPlan.html)API 调用的响应中检索训练计划。`AvailabilityZone`

以下示例说明了如何创建新 SageMaker HyperPod 集群并在`create-cluster` AWS CLI 命令的`--instance-groups`属性中为实例组提供训练计划。

```
# Create a cluster         
aws sagemaker create-cluster \
  --cluster-name cluster-name \
  --instance-groups '[ \
        { \
            "InstanceCount": 1,\
            "InstanceGroupName": "controller-nodes",\
            "InstanceType": "ml.t3.xlarge",\
            "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\
            "ExecutionRole": "arn:aws:iam::customer_account_id:role/execution_role",\
            "ThreadsPerCore": 1,\
        },\
        { \
            "InstanceCount": 2, \
            "InstanceGroupName": "worker-nodes",\
            "InstanceType": "p4d.24xlarge",\
            "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\
            "ExecutionRole": "arn:aws:iam::customer_account_id}:role/execution_role}",\
            "ThreadsPerCore": 1,\
            "TrainingPlanArn": training_plan_arn,\
        }]'
```

有关如何使用创建 HyperPod 集群的信息 AWS CLI，请参阅[https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-cluster.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-cluster.html)。

创建集群后，您可以通过调用 `DescribeCluster` API 来验证实例组是否已正确分配训练计划中的容量。

```
aws sagemaker describe-cluster --cluster-name cluster-name
```

# 使用 SageMaker API 更新 SageMaker HyperPod 集群的训练计划，或者 AWS CLI
<a name="use-training-plan-for-hyperpod-update-using-api-cli-sdk"></a>

您可以使用`update-cluster` AWS CLI 命令更新现有集群的实例组，从而添加、更新或删除训练计划。以下示例说明如何更新集 SageMaker HyperPod 群并为实例组提供新的训练计划。

```
# Update a cluster
aws sagemaker update-cluster \
  --cluster-name cluster-name \
  --instance-groups '[ \
        { \
            "InstanceCount": 1,\
            "InstanceGroupName": "controller-nodes",\
            "InstanceType": "ml.t3.xlarge",\
            "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\
            "ExecutionRole": "arn:aws:iam::customer_account_id:role/execution_role",\
            "ThreadsPerCore": 1,\
        },\
        { \
            "InstanceCount": 2, \
            "InstanceGroupName": "worker-nodes",\
            "InstanceType": "p4d.24xlarge",\
            "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\
            "ExecutionRole": "arn:aws:iam::customer_account_id}:role/execution_role}",\
            "ThreadsPerCore": 1,\
            "TrainingPlanArn": training_plan_arn,\
        },\
        {\
            "InstanceCount": 1,\
            "InstanceGroupName": "worker-nodes-2",\
            "InstanceType": "p4d.24xlarge",\
            "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\
            "ExecutionRole": "arn:aws:iam::customer_account_id:role/execution_role",\
            "ThreadsPerCore": 1,\
            "TrainingPlanArn": training_plan_arn,\
        }\
    ]'
```