

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Executando trabalhos usando a SageMaker HyperPod CLI
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli"></a>

Para executar trabalhos, certifique-se de ter instalado o Kubeflow Training Operator nos clusters EKS. Para obter mais informações, consulte [Instalar pacotes no cluster do Amazon EKS usando o Helm](sagemaker-hyperpod-eks-install-packages-using-helm-chart.md).

Execute o `hyperpod get-cluster` comando para obter a lista de HyperPod clusters disponíveis.

```
hyperpod get-clusters
```

Execute o `hyperpod connect-cluster` para configurar a SageMaker HyperPod CLI com o cluster EKS orquestrando o cluster. HyperPod 

```
hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>
```

Use o comando `hyperpod start-job` para executar um trabalho. O comando a seguir mostra o comando com as opções necessárias. 

```
hyperpod start-job \
    --job-name <job-name>
    --image <docker-image-uri>
    --entry-script <entrypoint-script>
    --instance-type <ml.instance.type>
    --node-count <integer>
```

O comando `hyperpod start-job` também vem com várias opções, como retomada automática de tarefas e agendamento de tarefas.

## Ativando a retomada automática do trabalho
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-enable-auto-resume"></a>

O comando `hyperpod start-job` também tem as seguintes opções para especificar a retomada automática do trabalho: Para permitir que a retomada automática de tarefas funcione com os recursos de resiliência do SageMaker HyperPod nó, você deve definir o valor da `restart-policy` opção como. `OnFailure` O trabalho deve ser executado sob o namespace `kubeflow` ou com um namespace prefixado com `hyperpod`.
+ [--auto-resume <bool>] \$1Optional, habilita a retomada automática do trabalho após falhas; o padrão é false.
+ [--max-retry <int>] \$1Optional, se a retomada automática for verdadeira, o valor padrão de repetição máxima será 1 se não for especificado.
+ [--restart-policy<enum>] \$1Optional, política de reinicialização. PyTorchJob Os valores disponíveis são `Always`, `OnFailure`, `Never` ou `ExitCode`. O valor padrão é `OnFailure`. 

```
hyperpod start-job \
    ... // required options \
    --auto-resume true \
    --max-retry 3 \
    --restart-policy OnFailure
```

## Executar trabalhos com opções de agendamento
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-scheduling"></a>

O comando `hyperpod start-job` tem as seguintes opções para configurar o trabalho com mecanismos de enfileiramento: 

**nota**  
Você precisa do [Kueue](https://kueue.sigs.k8s.io/docs/overview/) instalado no cluster do EKS. Se não tiver instalado, siga as instruções em [Configuração para governança de SageMaker HyperPod tarefas](sagemaker-hyperpod-eks-operate-console-ui-governance-setup.md).
+ [--scheduler-type <enum>] \$1Optional, especifique o tipo de agendador. O padrão é `Kueue`.
+ [--queue-name <string>] \$1Optional, especifique o nome da [fila local](https://kueue.sigs.k8s.io/docs/concepts/local_queue/) ou [fila de cluster](https://kueue.sigs.k8s.io/docs/concepts/cluster_queue/) que você deseja enviar com o trabalho. A fila deve ser criada pelos administradores do cluster usando `CreateComputeQuota`.
+ [--priority <string>] \$1Optional, especifique o nome da [classe de prioridade do workload](https://kueue.sigs.k8s.io/docs/concepts/workload_priority_class/), que deve ser criada pelos administradores do cluster.

```
hyperpod start-job \
    ... // required options
    --scheduler-type Kueue \
    --queue-name high-priority-queue \
    --priority high
```

## Executar trabalhos por meio de um arquivo de configuração
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-from-config"></a>

Como alternativa, você pode criar um arquivo de configuração do trabalho contendo todos os parâmetros exigidos pelo trabalho e, em seguida, passar esse arquivo de configuração para o comando `hyperpod start-job` usando a opção --config-file. Neste caso:

1. Crie o arquivo de configuração do trabalho com os parâmetros necessários. Consulte o arquivo de configuração do trabalho no GitHub repositório SageMaker HyperPod CLI para obter um arquivo de configuração de [linha de base](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-run-jobs-hyperpod-cli.html#sagemaker-hyperpod-eks-hyperpod-cli-from-config).

1. Inicie o trabalho usando o arquivo de configuração da seguinte maneira:

   ```
   hyperpod start-job --config-file /path/to/test_job.yaml
   ```

**dica**  
Para obter uma lista completa dos parâmetros do `hyperpod start-job` comando, consulte a seção [Submitting a Job](https://github.com/aws/sagemaker-hyperpod-cli?tab=readme-ov-file#submitting-a-job) no `README.md` repositório SageMaker HyperPod GitHub CLI.