Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation de la planification par groupes dans la gouvernance des SageMaker HyperPod tâches Amazon
Dans le cadre de la formation au ML distribué, une tâche nécessite souvent l'exécution simultanée de plusieurs pods sur des nœuds avec une communication point à point. HyperPod la gouvernance des tâches utilise la waitForPodsReady fonctionnalité de Kueue pour implémenter la planification des gangs. Lorsque cette option est activée, la charge de travail est surveillée par Kueue jusqu'à ce que tous ses pods soient prêts, c'est-à-dire qu'ils soient planifiés, exécutés et réussis à la sonde de disponibilité optionnelle. Si tous les pods de la charge de travail ne sont pas prêts dans le délai défini, la charge de travail est expulsée et mise en file d'attente.
La planification des activités des gangs offre les avantages suivants :
-
Empêche le gaspillage de ressources : Kueue évacue et redistribue la charge de travail si tous les modules ne sont pas prêts, garantissant ainsi que les ressources ne sont pas conservées indéfiniment en raison de l'exécution partielle de charges de travail.
-
Évite les blocages : empêche les tâches de conserver des ressources partielles et de se bloquer mutuellement indéfiniment.
-
Restauration automatique : si les pods ne sont pas prêts dans le délai imparti, la charge de travail est évincée et mise en file d'attente avec un ralentissement exponentiel configurable, au lieu d'être suspendue indéfiniment.
Activer la planification des gangs
Pour activer la planification par groupes, vous devez disposer d'un cluster HyperPod Amazon EKS sur lequel le module complémentaire Amazon EKS pour la gouvernance des tâches est installé. Le statut du module complémentaire doit être Active ouDegraded.
Note
La planification des gangs peut également être configurée directement kubectl en modifiant la configuration Kueue sur le cluster.
Activer la planification des gangs (console SageMaker AI)
-
Ouvrez la console Amazon SageMaker AI
et accédez à votre HyperPod cluster. -
Choisissez l'onglet Gestion des politiques.
-
Dans la section Gouvernance des tâches, ouvrez Actions, puis choisissez Configurer la planification des gangs.
-
Activez la planification des gangs et configurez les paramètres.
-
Choisissez Enregistrer. Le contrôleur Kueue redémarre pour appliquer la modification.
Paramètres de configuration de la planification des gangs
Le tableau suivant décrit les paramètres de configuration pour la planification des gangs.
| Paramètre | Description | Par défaut |
|---|---|---|
timeout |
Combien de temps Kueue attend que tous les pods soient prêts avant d'être expulsés et de charger la charge de travail. | 5 min |
recoveryTimeout |
Durée pendant laquelle Kueue attend la restauration d'un pod après une panne de nœud avant de mettre la charge de travail en attente. Réglez sur 0s pour désactiver. La valeur par défaut est de timeout si elle n'est pas définie. |
5 min |
blockAdmission |
Lorsque cette option est activée, les charges de travail sont admises de manière séquentielle. Aucune nouvelle charge de travail n'est admise tant que tous les modules de la charge de travail actuelle ne sont pas prêts. Empêche les blocages sur les clusters aux ressources limitées. | Désactivé |
requeuingStrategy timestamp |
Qu'il s'agisse de l'utilisation de la commande en attente Creation (heure de soumission initiale, maintien de la position dans la file d'attente) ou Eviction (heure de la dernière expulsion, réduction des priorités des tâches échouées à plusieurs reprises). |
Expulsion |
requeuingStrategy backoffLimitCount |
Nombre maximum de tentatives de mise en file d'attente avant que Kueue ne désactive définitivement la charge de travail. Laissez ce champ vide pour un nombre illimité de tentatives. | Illimité |
requeuingStrategy backoffBaseSeconds |
Temps de base en secondes pour un ralentissement exponentiel lors de la mise en file d'attente d'une charge de travail après chaque délai d'attente consécutif. L'exposant est 2. | Années 60 |
requeuingStrategy backoffMaxSeconds |
Limitez le délai de temporisation exponentiel. Une fois atteint, Kueue continue à faire la queue à cet intervalle fixe. | 3600 s |
Note
La modification des paramètres de planification des groupes redémarre le contrôleur Kueue, ce qui peut retarder temporairement l'admission au poste. Cela s'applique que vous activiez, désactiviez ou mettiez à jour une valeur. Les tâches en cours ne sont pas interrompues.
Note
La planification des gangs s'effectue à l'échelle du cluster. Elle s'applique à toutes les Kueue-managed charges de travail du cluster, et pas uniquement à des équipes ou à des files d'attente spécifiques.