View a markdown version of this page

Utilizzo della pianificazione di gruppo nella governance delle SageMaker HyperPod attività di Amazon - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo della pianificazione di gruppo nella governance delle SageMaker HyperPod attività di Amazon

Nella formazione ML distribuita, un lavoro richiede spesso l'esecuzione simultanea di più pod su più nodi con comunicazione pod-to-pod. HyperPod la governance delle attività utilizza la funzionalità di Kueue per implementare la pianificazione delle bande. waitForPodsReady Se abilitato, il carico di lavoro viene monitorato da Kueue fino a quando tutti i pod non sono pronti, ovvero pianificato, in esecuzione e fino al superamento della sonda di prontezza opzionale. Se non tutti i pod del carico di lavoro sono pronti entro il timeout configurato, il carico di lavoro viene eliminato e richiesto.

La pianificazione in gruppo offre i seguenti vantaggi:

  • Previene lo spreco di risorse: Kueue elimina e richiede il carico di lavoro se tutti i pod non sono pronti, assicurando che le risorse non vengano immagazzinate a tempo indeterminato da carichi di lavoro parzialmente in esecuzione.

  • Evita le situazioni di stallo: impedisce ai lavori di detenere risorse parziali e di bloccarsi a vicenda a tempo indeterminato.

  • Ripristino automatico: se i pod non sono pronti entro il timeout, il carico di lavoro viene eliminato e riordinato con un backoff esponenziale configurabile, anziché rimanere bloccato a tempo indeterminato.

Attiva la pianificazione in gruppo

Per attivare la pianificazione in gruppo, è necessario disporre di un cluster HyperPod Amazon EKS con il componente aggiuntivo Amazon EKS per la governance delle attività installato. Lo stato del componente aggiuntivo deve essere o. Active Degraded

Nota

La pianificazione delle bande può anche essere configurata direttamente kubectl modificando la configurazione di Kueue sul cluster.

Attiva la pianificazione delle bande (console AI) SageMaker
  1. Apri la console Amazon SageMaker AI e accedi al tuo HyperPod cluster.

  2. Scegli la scheda Gestione delle politiche.

  3. Nella sezione Task governance, apri Azioni, quindi scegli Configura la pianificazione dei gruppi.

  4. Attiva la pianificazione dei gruppi e configura le impostazioni.

  5. Scegli Save (Salva). Il controller Kueue si riavvia per applicare la modifica.

Impostazioni di configurazione della pianificazione delle bande

La tabella seguente descrive le impostazioni di configurazione per la pianificazione dei gruppi.

Impostazione Description Predefinita
timeout Per quanto tempo Kueue attende che tutti i pod siano pronti prima di sfrattare e richiedere il carico di lavoro. 5 min
recoveryTimeout Per quanto tempo Kueue attende il ripristino di un pod dopo un guasto di un nodo prima di richiedere il carico di lavoro. 0sImposta su disabilitare. Il valore predefinito è timeout if not set. 5 min
blockAdmission Se abilitato, i carichi di lavoro vengono ammessi in sequenza. Non viene ammesso alcun nuovo carico di lavoro finché tutti i pod di quello attuale non sono pronti. Previene i deadlock nei cluster con risorse limitate. Disattivata
requeuingStrategy timestamp Sia che l'ordine di richiesta utilizzi Creation (ora di invio originaria, preserva la posizione in coda) o (ora dell'ultimo sfratto, riducendo in modo efficace la priorità dei lavori ripetutamente falliti). Eviction Sfratto
requeuingStrategy backoffLimitCount Numero massimo di tentativi di richiesta prima che Kueue disattivi definitivamente il carico di lavoro. Lascia vuoto per un numero illimitato di tentativi. Illimitato
requeuingStrategy backoffBaseSeconds Il tempo base in secondi per il backoff esponenziale quando si richiede un carico di lavoro dopo ogni timeout consecutivo. L'esponente è 2. anni '60
requeuingStrategy backoffMaxSeconds Limite al ritardo esponenziale di backoff. Una volta raggiunto, Kueue continua a fare la coda a questo intervallo fisso. 3600 s
Nota

La modifica delle impostazioni di pianificazione in gruppo riavvia il controller Kueue, il che può ritardare temporaneamente l'ammissione al lavoro. Questo vale sia che stiate abilitando, disabilitando o aggiornando qualsiasi valore. I lavori in esecuzione non vengono interrotti.

Nota

La pianificazione delle bande è a livello di cluster. Si applica a tutti i Kueue-managed carichi di lavoro del cluster, non solo a team o code specifici.