

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Utilização de planos de treinamento para clusters da Amazon SageMaker HyperPod
<a name="training-plan-utilization-for-hyperpod"></a>

Para usar planos de SageMaker treinamento para seu SageMaker HyperPod cluster Amazon, você especifica o plano de treinamento que deseja usar no nível da instância do cluster ao criar ou atualizar seu cluster. 

**nota**  
O plano de treinamento deve estar no `Active` status `Scheduled` ou para ser usado por um HyperPod cluster.
A configuração do cluster deve estar alinhada com a zona de disponibilidade (AZ) especificada em seu plano de treinamento.  
Para a configuração da VPC, localização dos recursos e configuração do grupo de segurança, consulte a [Configuração SageMaker HyperPod com uma Amazon VPC personalizada](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-vpc) SageMaker HyperPod documentação.  
Se estiver configurando HyperPod com o Amazon FSx for Lustre, saiba mais sobre a seleção de regiões e AZ, analise os requisitos de configuração de VPC e entenda as melhores práticas de alinhamento de AZ em. [(Opcional) Configurando SageMaker HyperPod com o Amazon FSx for Lustre](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-fsx)
Você pode selecionar um plano para cada um dos seus grupos de instâncias. No entanto, não recomendamos o uso de um plano de treinamento para o grupo de instâncias primárias de um cluster, pois os nós primários exigem recursos contínuos e estáveis que não se alinham à duração fixa e à natureza possivelmente descontínua das capacidades do plano de treinamento.

**Topics**
+ [Crie um SageMaker HyperPod cluster nos planos de treinamento usando o console de SageMaker IA](use-training-plan-for-hyperpod-creation-using-console.md)
+ [Atualize um SageMaker HyperPod cluster nos planos de treinamento usando o console de SageMaker IA](use-training-plan-for-hyperpod-update-using-console.md)
+ [Crie um SageMaker HyperPod cluster em planos de treinamento usando a SageMaker API ou AWS CLI](use-training-plan-for-hyperpod-creation-using-api-cli-sdk.md)
+ [Atualize um SageMaker HyperPod cluster nos planos de treinamento usando a SageMaker API ou AWS CLI](use-training-plan-for-hyperpod-update-using-api-cli-sdk.md)

# Crie um SageMaker HyperPod cluster nos planos de treinamento usando o console de SageMaker IA
<a name="use-training-plan-for-hyperpod-creation-using-console"></a>

Para criar um SageMaker HyperPod cluster usando planos de treinamento da interface do usuário do console de SageMaker IA, siga estas etapas:

1. Navegue até o console de SageMaker IA em [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. No painel de navegação à esquerda, selecione **Hyperpod** e escolha **Criar cluster**.

1. Ao configurar um grupo de instâncias, você pode selecionar um plano que se alinhe às suas necessidades de capacidade computacional.

![\[SageMaker Interface do console AI mostrando uma janela modal para criar um grupo de instâncias em um SageMaker HyperPod cluster. O formulário inclui campos para nome do grupo de instâncias, tipo de instância, quantidade, capacidade da instância (com opções para planos sob demanda e de treinamento) e um caminho de diretório para o script de ciclo de vida no momento da criação.\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/training-plans/tp-create-hyperpod-cluster.png)


Analise e crie o cluster. Os grupos de instâncias que usam um plano de treinamento têm a escala vertical aumentada até a contagem de instâncias pretendida quando o plano de treinamento se torna `Active`, se houver capacidade disponível. Trinta minutos antes do término de cada período de capacidade reservada, a escala do grupo de instâncias começa a ser reduzida verticalmente para zero instância. Esse estado de redução da escala vertical persiste até que o próximo período de capacidade reservada comece ou o plano termine. Durante todo esse processo, um grupo de instâncias íntegro mantém o status `InService` após sua criação inicial, independentemente da contagem atual de instâncias.

# Atualize um SageMaker HyperPod cluster nos planos de treinamento usando o console de SageMaker IA
<a name="use-training-plan-for-hyperpod-update-using-console"></a>

Você pode atualizar, remover ou adicionar um plano de treinamento a um SageMaker HyperPod cluster existente usando a interface de usuário do console de SageMaker IA. Para atualizar o grupo de instâncias de um SageMaker HyperPod cluster, siga estas etapas:

1. Navegue até o console de SageMaker IA em [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. No painel de navegação à esquerda, escolha **HyperPod**.

1. Navegue até a página de detalhes do cluster seguindo o hiperlink associado ao nome do cluster.

1. Ao configurar um grupo de instâncias, você pode atualizar o seu plano para que alinhe às suas necessidades de capacidade computacional.

![\[SageMaker Interface do console AI mostrando uma janela modal para atualizar um grupo de instâncias em um SageMaker HyperPod cluster. O formulário inclui campos para nome do grupo de instâncias, tipo de instância, quantidade, capacidade da instância (com opções para planos sob demanda e de treinamento) e um caminho de diretório para o script de ciclo de vida no momento da criação.\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/training-plans/tp-update-hyperpod-clusters.png)


Analise e atualize o cluster.

# Crie um SageMaker HyperPod cluster em planos de treinamento usando a SageMaker API ou AWS CLI
<a name="use-training-plan-for-hyperpod-creation-using-api-cli-sdk"></a>

Para usar planos de SageMaker treinamento para seu SageMaker HyperPod cluster da Amazon, especifique o ARN do plano de treinamento que você deseja usar no [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html#sagemaker-Type-ClusterInstanceGroupSpecification-TrainingPlanArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html#sagemaker-Type-ClusterInstanceGroupSpecification-TrainingPlanArn)parâmetro do [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html)ao chamar a operação da [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)API. 

A sub-rede associada à AZ designada do seu plano deve estar incluída na `VPCConfig` da configuração do seu cluster. Você pode recuperar o `AvailabilityZone` de um plano de treinamento em resposta a uma chamada de [``DescribeTrainingPlan](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingPlan.html)API.

O exemplo a seguir ilustra como criar um novo SageMaker HyperPod cluster e fornecer a um grupo de instâncias um plano de treinamento no `--instance-groups` atributo do `create-cluster` AWS CLI comando. 

```
# Create a cluster         
aws sagemaker create-cluster \
  --cluster-name cluster-name \
  --instance-groups '[ \
        { \
            "InstanceCount": 1,\
            "InstanceGroupName": "controller-nodes",\
            "InstanceType": "ml.t3.xlarge",\
            "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\
            "ExecutionRole": "arn:aws:iam::customer_account_id:role/execution_role",\
            "ThreadsPerCore": 1,\
        },\
        { \
            "InstanceCount": 2, \
            "InstanceGroupName": "worker-nodes",\
            "InstanceType": "p4d.24xlarge",\
            "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\
            "ExecutionRole": "arn:aws:iam::customer_account_id}:role/execution_role}",\
            "ThreadsPerCore": 1,\
            "TrainingPlanArn": training_plan_arn,\
        }]'
```

Para obter informações sobre como criar um HyperPod cluster usando [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-cluster.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-cluster.html)o. AWS CLI

Depois de criar o cluster, você pode verificar se foi atribuída capacidade adequada ao grupo de instâncias chamando a API `DescribeCluster`.

```
aws sagemaker describe-cluster --cluster-name cluster-name
```

# Atualize um SageMaker HyperPod cluster nos planos de treinamento usando a SageMaker API ou AWS CLI
<a name="use-training-plan-for-hyperpod-update-using-api-cli-sdk"></a>

Você pode adicionar, atualizar ou remover um plano de treinamento atualizando o grupo de instâncias de um cluster existente usando o `update-cluster` AWS CLI comando. O exemplo a seguir ilustra como atualizar um SageMaker HyperPod cluster e fornecer um novo plano de treinamento a um grupo de instâncias.

```
# Update a cluster
aws sagemaker update-cluster \
  --cluster-name cluster-name \
  --instance-groups '[ \
        { \
            "InstanceCount": 1,\
            "InstanceGroupName": "controller-nodes",\
            "InstanceType": "ml.t3.xlarge",\
            "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\
            "ExecutionRole": "arn:aws:iam::customer_account_id:role/execution_role",\
            "ThreadsPerCore": 1,\
        },\
        { \
            "InstanceCount": 2, \
            "InstanceGroupName": "worker-nodes",\
            "InstanceType": "p4d.24xlarge",\
            "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\
            "ExecutionRole": "arn:aws:iam::customer_account_id}:role/execution_role}",\
            "ThreadsPerCore": 1,\
            "TrainingPlanArn": training_plan_arn,\
        },\
        {\
            "InstanceCount": 1,\
            "InstanceGroupName": "worker-nodes-2",\
            "InstanceType": "p4d.24xlarge",\
            "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\
            "ExecutionRole": "arn:aws:iam::customer_account_id:role/execution_role",\
            "ThreadsPerCore": 1,\
            "TrainingPlanArn": training_plan_arn,\
        }\
    ]'
```