

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Cómo empezar a SageMaker HyperPod usar la consola de SageMaker IA
<a name="smcluster-getting-started-slurm-console"></a>

El siguiente tutorial muestra cómo crear un SageMaker HyperPod clúster nuevo y configurarlo con Slurm a través de la interfaz de usuario de la consola SageMaker AI. Tras el tutorial, crearás un HyperPod clúster con tres nodos de Slurm,, y`my-controller-group`. `my-login-group` `worker-group-1`

**nota**  
HyperPod ahora admite la creación de clústeres de Slurm sin scripts de ciclo de vida. Puede crear un clúster completamente funcional mediante la AMI-based configuración, ampliarlo con un script de extensión o seguir utilizando scripts de ciclo de vida personalizados para tener un control total.

**Topics**
+ [Creación de un clúster](#smcluster-getting-started-slurm-console-create-cluster-page)
+ [Implementación de recursos](#smcluster-getting-started-slurm-console-create-cluster-deploy)
+ [Eliminación del clúster y limpieza de recursos](#smcluster-getting-started-slurm-console-delete-cluster-and-clean)

## Creación de un clúster
<a name="smcluster-getting-started-slurm-console-create-cluster-page"></a>

Para ir a la página de **SageMaker HyperPod clústeres** y elegir la orquestación de **Slurm**, sigue estos pasos.

1. Abre la consola Amazon SageMaker AI en [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Seleccione **HyperPod Clusters** en el panel de navegación izquierdo y, a continuación, **Cluster Management**.

1. En la página **SageMaker HyperPod Clústeres**, elija **Crear HyperPod clúster**. 

1. En el menú desplegable **Crear HyperPod clúster**, selecciona **Orchestrated by Slurm**.

1. En la página de creación de clústeres de Slurm, verá dos opciones. Elija la opción que mejor se adapte a sus necesidades.

   1. **Configuración rápida**: para comenzar de inmediato con la configuración predeterminada, seleccione **Configuración rápida**. Con esta opción, la SageMaker IA creará nuevos recursos como VPC, subredes, grupos de seguridad, un bucket de Amazon S3, una función de IAM y FSx for Lustre durante el proceso de creación del clúster.

   1. **Configuración personalizada**: para integrarse con los recursos de AWS existentes o tener requisitos específicos de red, seguridad o almacenamiento, seleccione **Configuración personalizada**. Con esta opción, puede optar por utilizar los recursos existentes o crear unos nuevos. Además, puede personalizar la configuración que mejor se adapte a sus necesidades.

## Configuración rápida
<a name="smcluster-getting-started-slurm-console-create-cluster-default"></a>

En la sección **Configuración rápida**, sigue estos pasos para crear tu HyperPod clúster con la orquestación de Slurm.

### Configuración general
<a name="smcluster-getting-started-slurm-console-create-cluster-default-general"></a>

Especifique un nombre para el nuevo clúster. Después de crear el clúster no puede cambiarle el nombre.

### Grupos de instancias
<a name="smcluster-getting-started-slurm-console-create-cluster-default-instance-groups"></a>

Para añadir un grupo de instancias, elija **Agregar grupo**. Cada grupo de instancias se puede configurar de una forma diferente y se puede crear un clúster heterogéneo que conste de varios grupos de instancias con diversos tipos de instancias. Para implementar un clúster, debe añadir al menos un grupo de instancias para los tipos de grupo Controlador y Computación.

**importante**  
Puede añadir un grupo de instancias cada vez. Si desea crear varios grupos de instancias, repita el proceso para cada uno de ellos.

Siga estos pasos para agregar un grupo de instancias.

1. En **Tipo del grupo de instancias**, elija un tipo de instancia para su grupo de instancias. Para este tutorial, seleccione **Controlador (principal)** para `my-controller-group`, **Inicio de sesión** para `my-login-group` y **Computación (de trabajo)** para `worker-group-1`.

1. En **Nombre**, especifique un nombre para el grupo de instancias. Para este tutorial, cree tres grupos de instancias llamados `my-controller-group`, `my-login-group` y `worker-group-1`.

1.  En **Capacidad de instancia**, elija la capacidad bajo demanda o un plan de entrenamiento para reservar recursos de computación.

1. En **Tipo de instancia**, elija la instancia del grupo de instancias. Para este tutorial, seleccione `ml.c5.xlarge` para `my-controller-group`, `ml.m5.4xlarge` para `my-login-group` y `ml.trn1.32xlarge` para `worker-group-1`. 
**importante**  
Asegúrese de elegir un tipo de instancia con bastantes cuotas y que tenga suficientes direcciones IP sin asignar para su cuenta. Para ver o solicitar cuotas adicionales, consulte [SageMaker HyperPod cuotas](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas).

1. En **Cantidad de instancias**, especifique un número entero que no supere la cuota de instancias de uso del clúster. Para este tutorial, introduzca **1** para los tres grupos.

1. En **Zona de disponibilidad de destino**, elija la zona de disponibilidad en la que se aprovisionarán las instancias. La zona de disponibilidad debe corresponder a la ubicación de la capacidad de computación acelerada.

1. En **Volumen de almacenamiento adicional por instancia (GB) - opcional**, especifique un número entero entre 1 y 16 384 para establecer el tamaño de un volumen adicional de Elastic Block Store (EBS) en gigabytes (GB). El volumen de EBS está asociado a cada instancia del grupo de instancias. La ruta de montaje predeterminada para el volumen de EBS adicional es `/opt/sagemaker`. Una vez que el clúster se haya creado correctamente, puede utilizar SSH en las instancias del clúster (nodos) y verificar si el volumen de EBS está montado correctamente ejecutando el comando `df -h`. La conexión de un volumen de EBS adicional proporciona un almacenamiento estable, fuera de la instancia y persistente de forma independiente, tal y como se describe en la sección [Amazon EBS volumes](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html) de la *Guía del usuario de Amazon Elastic Block Store*.

1. Elija **Agregar grupo de instancias**.

### Valores predeterminados de la configuración rápida
<a name="smcluster-getting-started-slurm-console-create-cluster-default-settings"></a>

En esta sección se enumeran todos los ajustes predeterminados para la creación del clúster, incluidos todos los AWS recursos nuevos que se crearán durante el proceso de creación del clúster. Revise la configuración predeterminada.

**nota**  
La configuración rápida utiliza automáticamente los scripts de ciclo de vida predeterminados. La nueva opción AMI-based de configuración (sin scripts de ciclo de vida) solo está disponible mediante la configuración personalizada. Si desea crear un clúster sin scripts de ciclo de vida, seleccione Configuración personalizada y elija **Ninguna** en **Secuencias de ciclo** de vida.

## Configuración personalizada
<a name="smcluster-getting-started-slurm-console-create-cluster-custom"></a>

En la sección **Configuración personalizada**, sigue estos pasos para crear tu HyperPod clúster con la orquestación de Slurm.

### Configuración general
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-general"></a>

Especifique un nombre para el nuevo clúster. Después de crear el clúster no puede cambiarle el nombre.

En **Recuperación de instancias**, elija **Automática - *recomendado*** o **Ninguna**.

### Red
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-network"></a>

Configure los ajustes de red para crear el clúster. Los ajustes no se puede modificar una vez creado el clúster.

1. En el caso de la **VPC**, elige tu propia VPC si ya tienes una que dé acceso de SageMaker IA a tu VPC. Para crear una VPC nueva, siga las instrucciones de la sección [Creación de una VPC](https://docs.aws.amazon.com/vpc/latest/userguide/create-vpc.html) de la *Guía del usuario de Amazon Virtual Private Cloud*. Puedes dejarlo como **Ninguno** para usar la VPC de SageMaker IA predeterminada.

1. En **Bloque de CIDR de VPC IPv4**, introduzca la IP de inicio de la VPC.

1. En el caso de **las zonas de disponibilidad**, elija las zonas de disponibilidad (AZ) en las que HyperPod se crearán las subredes para el clúster. Elija las AZ que coincidan con la ubicación de su capacidad de computación acelerada.

1. En **Grupos de seguridad**, cree un grupo de seguridad o elija hasta cinco grupos de seguridad configurados con reglas que permitan la comunicación entre recursos dentro de la VPC.

### Grupos de instancias
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-instance-groups"></a>

Para añadir un grupo de instancias, elija **Agregar grupo**. Cada grupo de instancias se puede configurar de una forma diferente y se puede crear un clúster heterogéneo que conste de varios grupos de instancias con diversos tipos de instancias. Para implementar un clúster, debe agregar al menos un grupo de instancias.

**importante**  
Puede añadir un grupo de instancias cada vez. Si desea crear varios grupos de instancias, repita el proceso para cada uno de ellos.

Siga estos pasos para agregar un grupo de instancias.

1. En **Tipo del grupo de instancias**, elija un tipo de instancia para su grupo de instancias. Para este tutorial, seleccione **Controlador (principal)** para `my-controller-group`, **Inicio de sesión** para `my-login-group` y **Computación (de trabajo)** para `worker-group-1`.

1. En **Nombre**, especifique un nombre para el grupo de instancias. Para este tutorial, cree tres grupos de instancias llamados `my-controller-group`, `my-login-group` y `worker-group-1`.

1.  En **Capacidad de instancia**, elija la capacidad bajo demanda o un plan de entrenamiento para reservar recursos de computación.

1. En **Tipo de instancia**, elija la instancia del grupo de instancias. Para este tutorial, seleccione `ml.c5.xlarge` para `my-controller-group`, `ml.m5.4xlarge` para `my-login-group` y `ml.trn1.32xlarge` para `worker-group-1`. 
**importante**  
Asegúrese de elegir un tipo de instancia con bastantes cuotas y que tenga suficientes direcciones IP sin asignar para su cuenta. Para ver o solicitar cuotas adicionales, consulte [SageMaker HyperPod cuotas](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas).

1. En **Cantidad de instancias**, especifique un número entero que no supere la cuota de instancias de uso del clúster. Para este tutorial, introduzca **1** para los tres grupos.

1. En **Zona de disponibilidad de destino**, elija la zona de disponibilidad en la que se aprovisionarán las instancias. La zona de disponibilidad debe corresponder a la ubicación de la capacidad de computación acelerada.

1. En **Volumen de almacenamiento adicional por instancia (GB) - opcional**, especifique un número entero entre 1 y 16 384 para establecer el tamaño de un volumen adicional de Elastic Block Store (EBS) en gigabytes (GB). El volumen de EBS está asociado a cada instancia del grupo de instancias. La ruta de montaje predeterminada para el volumen de EBS adicional es `/opt/sagemaker`. Una vez que el clúster se haya creado correctamente, puede utilizar SSH en las instancias del clúster (nodos) y verificar si el volumen de EBS está montado correctamente ejecutando el comando `df -h`. La conexión de un volumen de EBS adicional proporciona un almacenamiento estable, fuera de la instancia y persistente de forma independiente, tal y como se describe en la sección [Amazon EBS volumes](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html) de la *Guía del usuario de Amazon Elastic Block Store*.

1. Para el **nombre de la partición de Slurm** (solo para grupos de cómputo), ingresa el nombre de la partición de Slurm para este grupo de instancias de cómputo. Las particiones actúan como colas lógicas que organizan la forma en que se programan los trabajos en diferentes conjuntos de nodos.

1. Elija **Agregar grupo de instancias**.

### Configuración del ciclo de vida: opcional
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-lifecycle"></a>

Configure el modo en que se aprovisionan los nodos del clúster. Su elección afecta a los requisitos del bucket de Amazon S3, a las necesidades de acceso a Internet y a la complejidad del aprovisionamiento. HyperPod admite tres opciones de configuración del ciclo de vida de los nodos, cada una de las cuales ofrece un nivel diferente de control sobre el proceso de aprovisionamiento.

1. En el **caso de los scripts de ciclo** de vida, elige una de las siguientes opciones para controlar el aprovisionamiento de los nodos en tu clúster:
   + **Ninguna**: HyperPod configura los nodos automáticamente mediante AMI-based la configuración. Los daemons de Slurm, Docker, Enroot, Pyxis, la contabilidad de Slurm con MariaDB, la generación y propagación de claves SSH, la rotación de registros y la configuración del directorio principal se configuran sin scripts ni bucket de Amazon S3. Todo el software viene preempaquetado en la AMI, por lo que no se requiere acceso a Internet durante el aprovisionamiento. Esta es la ruta más sencilla para los clústeres nuevos.
   + **Utilice scripts de ciclo** de vida predeterminados: los scripts de ciclo de vida predeterminados se cargan en el bucket de Amazon S3 elegido y se utilizan para aprovisionar nodos. Esta opción usa los scripts del [repositorio Awsome Distributed Training](https://github.com/awslabs/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config) (ADTR).
   + **Utilice scripts de ciclo de vida personalizados**: elija scripts de ciclo de vida de un bucket de Amazon S3. Esto corresponde a la `OnCreate` ruta de la API, en la que sus scripts son los propietarios de toda la secuencia de aprovisionamiento, incluso cuando se inicia Slurm. HyperPod no ejecuta la AMI-based configuración cuando se selecciona esta opción.

   En la siguiente tabla se resumen las tres opciones:    
[See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/smcluster-getting-started-slurm-console.html)

1. En el caso **del archivo de script de extensión en S3 (*opcional*** (aparece al seleccionar **Ninguno** en **Lifecycle Scripts**), introduzca el URI de Amazon S3 del script de extensión. El script de extensión le permite aprovisionar capacidades opcionales adicionales, como la observabilidad, System Security Services Daemon (SSSD) y el montaje de cubos de Amazon S3, además de las configuraciones predeterminadas sin administrar todo el conjunto de scripts de ciclo de vida.

   Introduzca el URI completo de Amazon S3 en el script del punto de entrada, por ejemplo:

   ```
   s3://DOC-EXAMPLE-BUCKET/extensions/run_extensions.sh
   ```

   HyperPod descarga toda la carpeta en la que reside el script del punto de entrada. Estructura tu carpeta Amazon S3 de forma que todos los archivos auxiliares estén en el mismo directorio que el script del punto de entrada.
**nota**  
En la API, esto corresponde a especificar `OnInitComplete` in `LifeCycleConfig` with`SourceS3Uri`. La consola los combina en un único campo URI de Amazon S3 que apunta directamente al script del punto de entrada.
**sugerencia**  
Para ver los scripts de extensión listos para usar, consulte la [carpeta Extensiones](https://github.com/awslabs/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/Extensions) del repositorio Awsome Distributed Training. El `run_extensions.sh` script organiza múltiples capacidades con simples conmutadores booleanos para activar o desactivar cada una de ellas.

1. En el caso del **bucket de S3 para scripts de ciclo** de vida (aparece al elegir **Usar scripts de ciclo de vida predeterminados** o **Usar scripts de ciclo de vida personalizados**), elija crear un nuevo bucket o usar uno existente para almacenar los scripts del ciclo de vida.

**nota**  
La configuración opcional del ciclo de vida de los nodos solo se admite para Slurm-orchestrated los clústeres. EKS-orchestrated Los clústeres de Amazon y los clústeres de Slurm que utilizan Continuous `NodeProvisioningMode` siguen necesitando scripts de ciclo de vida en todos los grupos de instancias.

**nota**  
La opción **Ninguno** con un script de extensión y la opción **Usar scripts de ciclo de vida personalizados** se excluyen mutuamente. No puedes combinar la AMI-based configuración con un script de extensión y un script de ciclo de vida personalizado en el mismo grupo de instancias. En la API, esto significa que `OnCreate` `OnInitComplete` no se pueden especificar juntos.

### Permisos
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-permissions"></a>

Elija o cree un rol de IAM que le permita HyperPod ejecutar y acceder a AWS los recursos necesarios en su nombre.

### Almacenamiento
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-storage"></a>

Configure el sistema de archivos FSx for Lustre para que se HyperPod aprovisione en el clúster. La configuración de FSx es opcional para la creación de clústeres, pero se recomienda para las cargas de trabajo de ML de producción.

1. En **Sistema de archivos**, elija un sistema de archivos de FSx para Lustre existente para crear un nuevo sistema de archivos de FSx para Lustre o no aprovisione ningún sistema de archivos de FSx para Lustre.

1. En **Rendimiento por unidad de almacenamiento**, elija el rendimiento que estará disponible por TiB de almacenamiento aprovisionado.

1. En **Capacidad de almacenamiento**, introduzca un valor de capacidad en TB.

1. En **Tipo de compresión**, elija **LZ4** para habilitar la compresión de datos.

1. En **Versión Lustre**, consulte el valor recomendado para los nuevos sistemas de archivos.

**nota**  
Al utilizar una AMI-based configuración (seleccionar **Ninguno** en los **scripts de ciclo** de vida) o un script de extensión, HyperPod gestiona el montaje automático de FSx for Lustre. Cuando se utilizan scripts de ciclo de vida personalizados, los scripts se encargan de montar el sistema de archivos.

### Etiquetas: opcional
<a name="smcluster-getting-started-slurm-console-create-cluster-tags"></a>

En el **caso de las etiquetas *(opcional)***, añada pares de claves y valores al nuevo clúster y gestione el clúster como un AWS recurso. Para obtener más información, consulte [Tagging your AWS resources](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html).

## Implementación de recursos
<a name="smcluster-getting-started-slurm-console-create-cluster-deploy"></a>

Después de completar las configuraciones del clúster desde **Configuración rápida** o **Configuración personalizada**, elija la siguiente opción para iniciar el aprovisionamiento de recursos y la creación del clúster.
+  **Enviar**: SageMaker AI empezará a aprovisionar los recursos de configuración predeterminados y a crear el clúster. 
+ **Descargar los parámetros de la CloudFormation plantilla**: descargará el archivo JSON de los parámetros de configuración y ejecutará el AWS CLI comando para implementar la CloudFormation pila, aprovisionar los recursos de configuración y crear el clúster. Si es necesario, puede editar el archivo JSON de parámetros descargado. Si elige esta opción, puede ver más instrucciones en [Creación de SageMaker HyperPod clústeres mediante CloudFormation plantillas](smcluster-getting-started-slurm-console-create-cluster-cfn.md).

## Eliminación del clúster y limpieza de recursos
<a name="smcluster-getting-started-slurm-console-delete-cluster-and-clean"></a>

Una vez que haya probado correctamente la creación de un SageMaker HyperPod clúster, seguirá ejecutándose en ese `InService` estado hasta que lo elimine. Te recomendamos que elimines los clústeres creados con instancias de SageMaker IA bajo demanda cuando no estén en uso para evitar incurrir en cargos de servicio continuos en función de los precios bajo demanda. En este tutorial, ha creado un clúster que consta de dos grupos de instancias. Uno de ellos utiliza una instancia C5, así que asegúrese de eliminar el clúster siguiendo las instrucciones que aparecen en [Elimina un SageMaker HyperPod clúster](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-delete-cluster).

Sin embargo, si ha creado un clúster con una capacidad de computación reservada, el estado de los clústeres no afecta a la facturación de los servicios.

Si utilizó **Use scripts de ciclo de vida predeterminados o Use scripts** **de ciclo de vida personalizados**, vaya al bucket de Amazon S3 que utilizó durante la creación del clúster y elimine los archivos de scripts de ciclo de vida.

Si **ha utilizado None** (solo para AMI-based configuración) sin un script de extensión, no es necesario limpiar Amazon S3 para los scripts del ciclo de vida.

Si **ha utilizado None** con un script de extensión, limpie los archivos del script de extensión del bucket de Amazon S3 que especificó.

Si ha probado a ejecutar alguna carga de trabajo en el clúster, compruebe si ha cargado cualquier dato o si el trabajo ha guardado cualquier artefacto en distintos buckets de S3 o servicios de sistema de archivos, como Amazon FSx para Lustre y Amazon Elastic File System. Para evitar incurrir en gastos, elimine todos los artefactos y datos del almacenamiento o del sistema de archivos.