As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usando o agendamento de gangues na governança de SageMaker HyperPod tarefas da Amazon
No treinamento de ML distribuído, um trabalho geralmente exige que vários pods sejam executados simultaneamente em todos os nós com comunicação entre pods. HyperPod a governança de tarefas usa o waitForPodsReady recurso do Kueue para implementar o agendamento de gangues. Quando ativada, a carga de trabalho é monitorada pela Kueue até que todos os seus pods estejam prontos, ou seja, programados, executados e aprovados pela sondagem de prontidão opcional. Se nem todos os pods da carga de trabalho estiverem prontos dentro do tempo limite configurado, a carga de trabalho será despejada e colocada novamente na fila.
O agendamento de grupos oferece os seguintes benefícios:
-
Evita o desperdício de recursos — a Kueue despeja e coloca a carga de trabalho na fila se todos os pods não ficarem prontos, garantindo que os recursos não sejam retidos indefinidamente pela execução parcial das cargas de trabalho.
-
Evita impasses — Impede que os trabalhos retenham recursos parciais e se bloqueiem indefinidamente.
-
Recuperação automática — se os pods não estiverem prontos dentro do tempo limite, a carga de trabalho será despejada e colocada novamente na fila com um recuo exponencial configurável, em vez de ficar suspensa indefinidamente.
Ative o agendamento de gangues
Para ativar o agendamento de grupos, você deve ter um cluster do HyperPod Amazon EKS com o complemento Amazon EKS de governança de tarefas instalado. O status do complemento deve ser Active ouDegraded.
nota
O agendamento de grupos também pode ser configurado diretamente kubectl usando a edição da configuração do Kueue no cluster.
Ative o agendamento de gangues (console de SageMaker IA)
-
Abra o console do Amazon SageMaker AI
e navegue até seu HyperPod cluster. -
Escolha a guia Gerenciamento de políticas.
-
Na seção Governança de tarefas, abra Ações e escolha Configurar agendamento de grupos.
-
Ative o agendamento de grupos e defina as configurações.
-
Escolha Salvar. O controlador Kueue reinicia para aplicar a alteração.
Definições de configuração de agendamento de grupos
A tabela a seguir descreve as configurações para o agendamento de grupos.
| Configuração | Description | Padrão |
|---|---|---|
timeout |
Quanto tempo Kueue espera até que todos os pods fiquem prontos antes de despejar e recolocar a carga de trabalho na fila. | 5 minutos |
recoveryTimeout |
Quanto tempo o Kueue espera que um pod se recupere após uma falha no nó antes de reenfileirar a carga de trabalho. Defina como 0s para desativar. O padrão é o valor de timeout se não for definido. |
5 minutos |
blockAdmission |
Quando ativada, as cargas de trabalho são admitidas sequencialmente. Nenhuma nova carga de trabalho é admitida até que todos os pods da atual estejam prontos. Evita impasses em clusters com recursos limitados. | Desativado |
requeuingStrategy timestamp |
Se o pedido de fila usa Creation (horário de envio original, preserva a posição na fila) ou Eviction (hora do último despejo, despriorizando efetivamente trabalhos que falham repetidamente). |
Remoção |
requeuingStrategy backoffLimitCount |
Máximo de tentativas de fila antes que o Kueue desative permanentemente a carga de trabalho. Deixe em branco para novas tentativas ilimitadas. | Ilimitado |
requeuingStrategy backoffBaseSeconds |
O tempo base em segundos para o recuo exponencial ao reenfileirar uma carga de trabalho após cada tempo limite consecutivo. O expoente é 2. | 60 segundos |
requeuingStrategy backoffMaxSeconds |
Limite o atraso exponencial de recuo. Uma vez atingido, Kueue continua fazendo fila nesse intervalo fixo. | 3600s |
nota
A modificação das configurações de agendamento de grupos reinicia o controlador Kueue, o que pode atrasar temporariamente a admissão do trabalho. Isso se aplica se você estiver ativando, desativando ou atualizando qualquer valor. Os trabalhos em execução não são interrompidos.
nota
O agendamento de gangues abrange todo o cluster. Ela se aplica a todas as Kueue-managed cargas de trabalho no cluster, não apenas a equipes ou filas específicas.