

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# SageMaker HyperPod administración de clústeres
<a name="sagemaker-hyperpod-cluster-management-slurm"></a>

Los siguientes temas tratan sobre el registro y la administración de SageMaker HyperPod clústeres.

## Registro de SageMaker HyperPod eventos
<a name="sagemaker-hyperpod-cluster-management-slurm-logging-hyperpod-events"></a>

Todos los eventos y registros de SageMaker HyperPod se guardan en Amazon CloudWatch con el nombre del grupo de registros`/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]`. Cada llamada a la API `CreateCluster` crea un nuevo grupo de registro. En la siguiente lista se incluyen todos los flujos de registro disponibles recopilados en cada grupo de registro.


|  |  | 
| --- |--- |
| Nombre del grupo de registro | Nombre del flujo de registro | 
| /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] | LifecycleConfig/[instance-group-name]/[instance-id] | 

## Registro SageMaker HyperPod a nivel de instancia
<a name="sagemaker-hyperpod-cluster-management-slurm-logging-at-instance-level"></a>

Puede acceder a los LifecycleScript registros publicados CloudWatch durante la configuración de la instancia del clúster. Cada instancia del clúster creado genera un flujo de registro independiente, que se distingue por el formato `LifecycleConfig/[instance-group-name]/[instance-id]`. 

Todos los registros en los que se escriben `/var/log/provision/provisioning.log` se cargan en la CloudWatch transmisión anterior. Ejemplo LifecycleScripts de cómo [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config)redirigir sus `stdout` y `stderr` a esta ubicación. Si está utilizando sus scripts personalizados, escriba sus registros en la `/var/log/provision/provisioning.log` ubicación en la que estén disponibles CloudWatch.

**Marcadores de registro de secuencias de comandos de**

CloudWatch Los registros de los scripts del ciclo de vida incluyen marcadores específicos que le ayudan a realizar un seguimiento del progreso de la ejecución e identificar los problemas:


|  |  | 
| --- |--- |
| Marker | Descripción | 
| START | Indicates the beginning of lifecycle script logs for the instance | 
| [SageMaker] Lifecycle scripts were provided, with S3 uri: [s3://bucket-name/] and entrypoint script: [script-name.sh] | Indicates the S3 location and entrypoint script that will be used | 
| [SageMaker] Downloading lifecycle scripts | Indicates scripts are being downloaded from the specified S3 location | 
| [SageMaker] Lifecycle scripts have been downloaded | Indicates scripts have been successfully downloaded from S3 | 
| [SageMaker] The lifecycle scripts succeeded | Indicates successful completion of all lifecycle scripts | 
| [SageMaker] The lifecycle scripts failed | Indicates failed execution of lifecycle scripts | 

Estos marcadores le ayudan a identificar rápidamente en qué parte del proceso de ejecución del script del ciclo de vida se ha producido un problema. Al solucionar errores, revise las entradas del registro para identificar dónde se detuvo o falló el proceso.

**Mensajes de error del script de Lifecycle**

Si el script del ciclo de vida existe pero se produce un error durante la ejecución, recibirá un mensaje de error que incluye el nombre del grupo de CloudWatch registros y el nombre del flujo de registros. En el caso de que se produzcan errores en los scripts del ciclo de vida en varias instancias, el mensaje de error indicará que solo ha fallado una instancia, pero el grupo de registros debe contener las secuencias de todas las instancias.

Para ver el mensaje de error, ejecuta la [DescribeCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeCluster.html)API o consulta la página de detalles del clúster en la SageMaker consola. En la consola, se incluye un botón para **ver los registros del script del ciclo** de vida que permite acceder directamente al flujo de CloudWatch registros. El mensaje de error tiene el siguiente formato:

```
Instance [instance-id] failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs,
visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’.
If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here:
https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.
```

## Etiquetado de recursos
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging"></a>

AWS El sistema de etiquetado ayuda a administrar, identificar, organizar, buscar y filtrar los recursos. SageMaker HyperPod admite el etiquetado, por lo que puede administrar los clústeres como un AWS recurso. Durante la creación o edición de un clúster existente, puede añadir o editar etiquetas para el clúster. Para obtener más información sobre el etiquetado en general, consulte [Tagging your AWS resources](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html).

### Uso de la interfaz de usuario de la SageMaker HyperPod consola
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-in-console"></a>

Al [creare un clúster nuevo](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-create-cluster) y [editar un clúster](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-edit-clusters), puede añadir, eliminar o editar etiquetas.

### Uso del SageMaker HyperPod APIs
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-in-api-request"></a>

Cuando escribas un archivo de solicitud de [UpdateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html)API [CreateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)o un archivo de solicitud de API en formato JSON, edita la `Tags` sección.

### Uso de los comandos AWS CLI de etiquetado para IA SageMaker
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-using-cli"></a>

**Etiquetado de un clúster**

Utilice [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/add-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/add-tags.html) de la siguiente manera.

```
aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string
```

**Eliminación de etiquetado de un clúster**

Utilice [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/delete-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/delete-tags.html) de la siguiente manera.

```
aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"
```

**Enumeración de etiquetadas de un recurso**

Utilice [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-tags.html) de la siguiente manera.

```
aws sagemaker list-tags --resource-arn cluster_ARN
```