

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# SageMaker HyperPod gerenciamento de clusters
<a name="sagemaker-hyperpod-cluster-management-slurm"></a>

Os tópicos a seguir abordam o registro e o gerenciamento de SageMaker HyperPod clusters.

## Registrando SageMaker HyperPod eventos
<a name="sagemaker-hyperpod-cluster-management-slurm-logging-hyperpod-events"></a>

Todos os eventos e registros de SageMaker HyperPod são salvos na Amazon CloudWatch com o nome do grupo de registros`/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]`. Cada chamada para a API `CreateCluster` cria um novo grupo de logs. A lista a seguir contém todos os fluxos de logs disponíveis coletados em cada grupo de logs.


|  |  | 
| --- |--- |
| Nome do grupo de logs | Nome do fluxo de logs | 
| /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] | LifecycleConfig/[instance-group-name]/[instance-id] | 

## Registro SageMaker HyperPod em nível de instância
<a name="sagemaker-hyperpod-cluster-management-slurm-logging-at-instance-level"></a>

Você pode acessar os LifecycleScript registros publicados CloudWatch durante a configuração da instância do cluster. Cada instância dentro do cluster criado gera um fluxo de log separado, que pode ser distinguido pelo formato `LifecycleConfig/[instance-group-name]/[instance-id]`. 

Todos os registros gravados `/var/log/provision/provisioning.log` são enviados para o CloudWatch stream anterior. Amostra LifecycleScripts ao [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config)redirecionar suas `stdout` e `stderr` para este local. Se você estiver usando seus scripts personalizados, grave seus registros no `/var/log/provision/provisioning.log` local em que eles estejam disponíveis CloudWatch.

**Marcadores de registro de script de ciclo de vida**

CloudWatch os registros de scripts de ciclo de vida incluem marcadores específicos para ajudar você a acompanhar o progresso da execução e identificar problemas:


|  |  | 
| --- |--- |
| Marker | Descrição | 
| START | Indicates the beginning of lifecycle script logs for the instance | 
| [SageMaker] Lifecycle scripts were provided, with S3 uri: [s3://bucket-name/] and entrypoint script: [script-name.sh] | Indicates the S3 location and entrypoint script that will be used | 
| [SageMaker] Downloading lifecycle scripts | Indicates scripts are being downloaded from the specified S3 location | 
| [SageMaker] Lifecycle scripts have been downloaded | Indicates scripts have been successfully downloaded from S3 | 
| [SageMaker] The lifecycle scripts succeeded | Indicates successful completion of all lifecycle scripts | 
| [SageMaker] The lifecycle scripts failed | Indicates failed execution of lifecycle scripts | 

Esses marcadores ajudam você a identificar rapidamente em que ponto do processo de execução do script do ciclo de vida ocorreu um problema. Ao solucionar falhas, revise as entradas de registro para identificar onde o processo parou ou falhou.

**Mensagens de falha do script de ciclo de vida**

Se o script do ciclo de vida existir, mas falhar durante a execução, você receberá uma mensagem de erro que inclui o nome do grupo de CloudWatch registros e o nome do fluxo de registros. Caso haja falhas no script de ciclo de vida em várias instâncias, a mensagem de erro indicará somente uma instância com falha, mas o grupo de registros deverá conter fluxos para todas as instâncias.

Você pode ver a mensagem de erro executando a [DescribeCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeCluster.html)API ou visualizando a página de detalhes do cluster no SageMaker console. No console, é fornecido um botão **Exibir registros do script de ciclo** de vida que navega diretamente até o CloudWatch fluxo de registros. A mensagem de erro tem o seguinte formato:

```
Instance [instance-id] failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs,
visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’.
If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here:
https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.
```

## Marcar recursos
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging"></a>

AWS O sistema de marcação ajuda a gerenciar, identificar, organizar, pesquisar e filtrar recursos. SageMaker HyperPod oferece suporte à marcação, para que você possa gerenciar os clusters como um AWS recurso. Durante a criação do cluster ou a edição de um cluster existente, você pode adicionar ou editar marcações para o cluster. Para saber mais sobre a marcação em geral, consulte [Como marcar seus AWS recursos](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html).

### Usando a interface do usuário SageMaker HyperPod do console
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-in-console"></a>

Quando você está [criando um novo cluster](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-create-cluster) ou [editando um cluster](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-edit-clusters), pode adicionar, remover ou editar marcações.

### Usando o SageMaker HyperPod APIs
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-in-api-request"></a>

Ao escrever um arquivo de solicitação de [UpdateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html)API [CreateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)ou de uma API no formato JSON, edite a `Tags` seção.

### Usando os comandos de AWS CLI marcação para IA SageMaker
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-using-cli"></a>

**Para marcar um cluster**

Use [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/add-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/add-tags.html) da seguinte forma:

```
aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string
```

**Para desmarcar um cluster**

Use [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/delete-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/delete-tags.html) da seguinte forma:

```
aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"
```

**Para listar as marcações para um recurso**

Use [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-tags.html) da seguinte forma:

```
aws sagemaker list-tags --resource-arn cluster_ARN
```