View a markdown version of this page

Uso de la programación de pandillas en la gobernanza de SageMaker HyperPod tareas de Amazon - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de la programación de pandillas en la gobernanza de SageMaker HyperPod tareas de Amazon

En la formación en aprendizaje automático distribuido, un trabajo suele requerir la ejecución simultánea de varios pods en los nodos con comunicación de pod a pod. HyperPod La gobernanza de tareas utiliza la función de Kueue para implementar la programación de pandillaswaitForPodsReady. Cuando está habilitada, Kueue supervisa la carga de trabajo hasta que todos sus módulos estén listos, es decir, programarlos, ejecutarlos y superar la prueba de disponibilidad opcional. Si no todos los módulos de la carga de trabajo están listos dentro del tiempo de espera configurado, la carga de trabajo se desaloja y se vuelve a poner en cola.

La programación en grupo ofrece las siguientes ventajas:

  • Evita el desperdicio de recursos: Kueue desaloja y vuelve a poner en cola la carga de trabajo si todos los módulos no están preparados, lo que garantiza que las cargas de trabajo que se ejecutan parcialmente no retengan los recursos indefinidamente.

  • Evita los puntos muertos: evita que los trabajos retengan recursos parciales y se bloqueen entre sí indefinidamente.

  • Recuperación automática: si los módulos no están listos dentro del tiempo de espera, la carga de trabajo se desaloja y se vuelve a poner en cola con un retraso exponencial configurable, en lugar de suspenderse indefinidamente.

Activa la programación de pandillas

Para activar la programación de bandas, debe tener un clúster de HyperPod Amazon EKS con el complemento Amazon EKS de gobernanza de tareas instalado. El estado del complemento debe ser Active oDegraded.

nota

La programación de bandas también se puede configurar directamente kubectl editando la configuración de Kueue en el clúster.

Activa la programación de pandillas (consola de SageMaker IA)
  1. Abre la consola Amazon SageMaker AI y navega hasta tu HyperPod clúster.

  2. Seleccione la pestaña Gestión de políticas.

  3. En la sección Gobernanza de tareas, abre Acciones y, a continuación, selecciona Configurar la programación de bandas.

  4. Activa la programación de bandas y configura los ajustes.

  5. Seleccione Save. El controlador Kueue se reinicia para aplicar el cambio.

Ajustes de configuración de la programación de bandas

En la siguiente tabla se describen los ajustes de configuración de la programación de bandas.

Opción Description (Descripción) Predeterminado
timeout Cuánto tiempo espera Kueue a que todos los pods estén listos antes de desalojar la carga de trabajo y volver a ponerla en cola. 5 m
recoveryTimeout Cuánto tiempo espera Kueue a que un pod se recupere tras un fallo en el nodo antes de volver a poner en cola la carga de trabajo. Configúrelo en para inhabilitarlo. 0s El valor predeterminado es el de timeout si no está establecido. 5 m
blockAdmission Cuando está habilitada, las cargas de trabajo se admiten secuencialmente. No se admite ninguna carga de trabajo nueva hasta que todos los módulos del módulo actual estén listos. Evita los bloqueos en los clústeres con recursos limitados. Desactivado
requeuingStrategy timestamp Ya sea que se utilice el pedido de nueva cola Creation (hora de envío original, preserva la posición de la cola) o Eviction (hora del último desalojo, lo que reduce la prioridad de los trabajos que fallan repetidamente). Expulsión
requeuingStrategy backoffLimitCount Número máximo de intentos de volver a hacer cola antes de que Kueue desactive permanentemente la carga de trabajo. Déjelo en blanco para reintentos ilimitados. Sin límite
requeuingStrategy backoffBaseSeconds El tiempo base en segundos para el retraso exponencial al volver a poner en cola una carga de trabajo después de cada tiempo de espera consecutivo. El exponente es 2. 60 s
requeuingStrategy backoffMaxSeconds Limite el retardo de retroceso exponencial. Una vez alcanzado, Kueue continúa haciendo cola en este intervalo fijo. 3600
nota

Al modificar la configuración de la programación de las bandas, se reinicia el mando Kueue, lo que puede retrasar temporalmente la admisión al trabajo. Esto se aplica tanto si está habilitando, deshabilitando o actualizando algún valor. Los trabajos en ejecución no se interrumpen.

nota

La programación de las pandillas abarca a todo el grupo. Se aplica a todas las Kueue-managed cargas de trabajo del clúster, no solo a equipos o colas específicos.