View a markdown version of this page

Provisionnement continu pour des opérations de cluster améliorées avec Slurm - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Provisionnement continu pour des opérations de cluster améliorées avec Slurm

SageMaker HyperPod Les clusters Amazon créés avec l'orchestration de Slurm prennent désormais en charge le provisionnement continu, une fonctionnalité qui permet une flexibilité et une efficacité accrues lors de l'exécution de charges de travail à grande échelle. AI/ML Le provisionnement continu vous permet de démarrer l’entraînement rapidement, de procéder facilement à une mise à l’échelle, d’effectuer la maintenance sans interrompre les opérations et de bénéficier d’une visibilité granulaire sur les opérations du cluster.

Note

Le provisionnement continu est disponible en tant que configuration optionnelle pour les HyperPod clusters créés avec l'orchestration de Slurm.

Comment ça marche

Le système de provisionnement continu introduit une architecture à l'état souhaité qui remplace le modèle de mise à l'échelle traditionnel du « tout ou rien ». Dans le modèle précédent, si un groupe d'instances ne pouvait pas être entièrement provisionné, l'opération complète de création ou de mise à jour du cluster échouait et était annulée. Avec le provisionnement continu, le système accepte une capacité partielle et continue de provisionner les instances restantes de manière asynchrone.

Le système de provisionnement continu :

  • Accepte la demande : enregistre le nombre d'instances cibles pour chaque groupe d'instances.

  • Lance le provisionnement : commence à lancer des instances pour tous les groupes d'instances en parallèle.

  • Provisionne d'abord les nœuds prioritaires : le cluster InService passe à un nœud contrôleur (et un nœud de connexion, si un groupe d'instances de connexion est spécifié) a été correctement provisionné.

  • Suit la progression : surveille chaque tentative de lancement d'instance et enregistre le statut.

  • Gère les échecs : retente automatiquement les lancements échoués pour les nœuds de travail de manière asynchrone.

Le provisionnement continu est désactivé par défaut. Pour utiliser cette fonctionnalité, définissez NodeProvisioningMode cette option Continuous dans votre CreateCluster demande.

Lorsque le provisionnement continu est activé, vous pouvez lancer plusieurs opérations de mise à l’échelle simultanément sans attendre la fin des opérations précédentes. Cela vous permet de mettre à l’échelle simultanément différents groupes d’instances dans le même cluster et de soumettre plusieurs demandes de mise à l’échelle au même groupe d’instances.

Priority-based approvisionnement

Les clusters Slurm nécessitent un nœud contrôleur pour être opérationnel avant que les nœuds de travail puissent enregistrer et accepter des tâches. Le provisionnement continu gère cela automatiquement grâce à un provisionnement basé sur les priorités :

  1. Le groupe d'instances du contrôleur est approvisionné en premier.

  2. Une fois qu'un nœud de contrôleur est sain, les nœuds de connexion et les nœuds de travail commencent à s'approvisionner en parallèle.

  3. Le cluster passe InService lorsqu'un nœud de contrôleur est actif et qu'un nœud de connexion est actif (si un groupe d'instances de connexion est spécifié). Si aucun groupe d'instances de connexion n'est spécifié, le cluster passe InService en cluster dès que le nœud contrôleur est provisionné.

  4. Les nœuds de travail qui ne peuvent pas être approvisionnés immédiatement en raison de contraintes de capacité entrent dans une boucle de réessai asynchrone et sont automatiquement ajoutés au cluster Slurm dès qu'ils sont disponibles.

Gestion des défaillances du contrôleur

Lors de la création du cluster, si le nœud du contrôleur ne parvient pas à se provisionner, le comportement dépend du fait que l'erreur est réessayable ou non réessayable.

Erreurs réessayables (par exemple, instance défectueuse ou défaillances transitoires) :

  • HyperPod remplace en permanence l'instance et tente à nouveau de le provisionner jusqu'à ce que le contrôleur apparaisse.

  • Les nœuds de travail et de connexion qui ont déjà été provisionnés restent disponibles, mais le cluster n'est pas transféré InService tant que le contrôleur n'est pas sain.

Non-retryable erreurs (par exemple, absence de capacité disponible pour le type d'instance du contrôleur ou échec du script de cycle de vie) :

  • Le cluster est marqué commeFailed.

  • Vous êtes informé de la raison de l'échec et devez prendre des mesures correctives, telles que le choix d'un autre type d'instance, la correction des scripts de cycle de vie ou une nouvelle tentative dans une autre zone de disponibilité.

Conditions préalables

Le provisionnement continu nécessite que les paramètres de provisionnement de Slurm (types de nœuds, noms de partitions) soient fournis via la charge utile de l'API dans le champ de chaque groupe d'instances. SlurmConfig Les clusters qui s'appuient sur l'ancien provisioning_parameters.json fichier d'Amazon S3 ne sont pas compatibles avec le provisionnement continu.

Note

Les fonctionnalités suivantes ne sont actuellement pas prises en charge avec le provisionnement continu sur les clusters Slurm : configuration de nœuds à plusieurs têtes via la topologie API-based Slurm, et. SlurmConfigStrategy Le provisionnement continu fonctionne exclusivement en mode fusion pour la slurm.conf gestion.

Comptage d’utilisation

HyperPod les clusters dotés d'un provisionnement continu utilisent des mesures au niveau de l'instance pour fournir une facturation précise qui reflète l'utilisation réelle des ressources. Cette approche des mesures diffère de la facturation traditionnelle au niveau du cluster, car elle permet de suivre chaque instance indépendamment.

Instance-level facturation

Avec le provisionnement continu, la facturation commence et s’arrête au niveau de l’instance individuelle au lieu d’attendre les changements d’état au niveau du cluster. Cette approche présente les avantages suivants :

  • Exactitude précise de la facturation : la facturation commence lorsque l’exécution du script de cycle de vie commence. Si le script de cycle de vie échoue, le provisionnement de l'instance sera réessayé et vous serez facturé pour la durée d'exécution du script de cycle de vie.

  • Mesure indépendante : le cycle de vie de facturation de chaque instance est géré séparément, ce qui permet d'éviter les erreurs de facturation en cascade.

  • Real-time mises à jour de facturation : la facturation commence lorsqu'une instance commence à exécuter son script de configuration du cycle de vie et s'arrête lorsque l'instance entre dans un état de terminaison.

Cycle de vie de facturation

Chaque instance de votre HyperPod cluster suit le cycle de vie de facturation suivant :

  • La facturation commence : lorsque l'instance démarre avec succès et commence à exécuter son script de configuration du cycle de vie.

  • La facturation continue : pendant toute la durée de vie opérationnelle de l'instance.

  • Arrêt de la facturation : lorsque l'instance entre dans un état de terminaison, quelle que soit la raison de la résiliation.

Note

La facturation ne démarre pas pour les instances qui ne démarrent pas. Si le lancement d’une instance échoue en raison d’une capacité insuffisante ou d’autres problèmes, cette tentative infructueuse ne vous est pas facturée. La facturation est calculée au niveau de l’instance et les coûts sont agrégés et signalés sous l’Amazon Resource Name (ARN) de votre cluster.

Création d’un cluster avec le provisionnement continu activé

Note

Préparez un script de configuration du cycle de vie et chargez-le dans un compartiment Amazon S3 auquel votre rôle d'exécution peut accéder. Pour de plus amples informations, veuillez consulter SageMaker HyperPod Opérations du cluster Slurm.

Préparez un fichier de demande d'CreateClusterAPI au format JSON. Définissez Continuous et fournissez NodeProvisioningMode les informations topologiques de Slurm dans le champ de chaque groupe d'instances. SlurmConfig

// create_cluster.json { "ClusterName": "my-training-cluster", "NodeProvisioningMode": "Continuous", "Orchestrator": { "Slurm": {} }, "InstanceGroups": [ { "InstanceGroupName": "controller-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster", "SlurmConfig": { "NodeType": "Controller" } }, { "InstanceGroupName": "login-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster", "SlurmConfig": { "NodeType": "Login" } }, { "InstanceGroupName": "worker-gpu-a", "InstanceType": "ml.p5.48xlarge", "InstanceCount": 16, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster", "SlurmConfig": { "NodeType": "Compute", "PartitionNames": ["gpu-training"] } } ], "VpcConfig": { "SecurityGroupIds": ["sg-12345678"], "Subnets": ["subnet-12345678"] } }

Exécutez la create-cluster commande pour envoyer la demande.

aws sagemaker create-cluster \ --cli-input-json file://complete/path/to/create_cluster.json

Cela renvoie l'ARN du nouveau cluster.

{ "ClusterArn": "arn:aws:sagemaker:us-west-2:111122223333:cluster/abcde12345" }

Gestion de la configuration de Slurm

Le provisionnement continu fonctionne exclusivement en mode fusion pour la gestion des slurm.conf partitions. En mode fusion, HyperPod applique les modifications de configuration de sa partition de manière additive à celles que vous avez modifiées. slurm.conf HyperPod met uniquement à jour les sections relatives à la partition de slurm.conf (telles que les entrées de nom de partition et de nom de nœud) ; les autres paramètres de configuration de Slurm ne sont pas modifiés. Autrement dit :

  • Vos modifications manuelles slurm.conf sont conservées.

  • Il n'y a pas de détection automatique de la dérive ni de résolution des conflits entre vos modifications et HyperPod l'état attendu.

Le SlurmConfigStrategy paramètre (Managed,Merge,Overwrite) n'est pas pris en charge avec le provisionnement continu. La transmission d'une SlurmConfigStrategy valeur entraîne une erreur d'API.

Exigences de capacité minimale (MinCount)

MinCount Cette fonctionnalité vous permet de spécifier le nombre minimum d'instances qui doivent être correctement provisionnées avant qu'un groupe d'instances ne passe au InService statut. Cette fonctionnalité permet de mieux contrôler les opérations de dimensionnement et d'éviter les scénarios dans lesquels des groupes d'instances partiellement provisionnés ne peuvent pas être utilisés efficacement pour les charges de travail de formation.

Important

MinCount n'est pas une garantie permanente de capacité minimale. Cela garantit uniquement que le nombre minimum d'instances spécifié est disponible lorsque le groupe d'instances devient disponible pour la première foisInService. De brèves baisses du niveau inférieur MinCount peuvent survenir pendant le fonctionnement normal, par exemple lors de remplacements d'instances défectueux ou d'activités de maintenance.

Comment MinCount fonctionne

Lorsque vous créez ou mettez à jour un groupe d'instances avec MinCount cette option activée, le comportement suivant se produit :

  • Nouveaux groupes d'instances : le groupe d'instances conserve Creating son statut jusqu'à ce qu'au moins les MinCount instances soient correctement provisionnées et prêtes. Une fois ce seuil atteint, le groupe d'instances passe àInService.

  • Groupes d'instances existants : lors de MinCount la mise à jour d'un groupe d'instances existant, le statut passe à Updating jusqu'à ce que la nouvelle MinCount exigence soit satisfaite.

  • Mise à l'échelle continue : si TargetCount cette valeur est supérieure à MinCount, le système de mise à l'échelle continue de tenter de lancer des instances supplémentaires jusqu'à ce qu'elle TargetCount soit atteinte.

  • Délai d'expiration et annulation : s'il MinCount ne peut pas être satisfait dans les 3 heures, le système rétablit automatiquement le dernier bon état connu du groupe d'instances. Pour plus d'informations sur le comportement de restauration, consultez la section Comportement de restauration automatique.

État du groupe d'instances pendant MinCount les opérations

Les groupes d'instances MinCount configurés présentent le comportement d'état suivant :

Création

Pour les nouveaux groupes d'instances lorsque CurrentCount < MinCount. Le groupe d'instances conserve ce statut jusqu'à ce que la capacité minimale requise soit atteinte.

Mise à jour

Pour les groupes d'instances existants, quand MinCount est modifié et CurrentCount < MinCount. Le groupe d'instances conserve ce statut jusqu'à ce que la nouvelle exigence de capacité minimale soit satisfaite.

InService

Lorsque MinCount ≤ CurrentCount ≤ TargetCount. Le groupe d'instances est prêt à être utilisé et toutes les opérations de mutation sont débloquées.

Pendant Creating notre Updating statut, les restrictions suivantes s'appliquent :

  • Opérations de mutation telles que BatchAddClusterNodesBatchDeleteClusterNodes, ou UpdateClusterSoftware bloquées

  • Vous pouvez toujours modifier MinCount les TargetCount valeurs pour corriger les erreurs de configuration

  • La suppression de clusters et de groupes d'instances est toujours autorisée

Comportement de restauration automatique

Si un groupe d'instances ne peut pas l'atteindre MinCount dans les 3 heures, le système lance automatiquement une restauration pour éviter une attente indéfinie :

  • Nouveaux groupes d'instances : MinCount et TargetCount réinitialisés à (0, 0)

  • Groupes d'instances existants : MinCount et leurs valeurs par rapport au dernier InService état TargetCount sont restaurées

  • Sélection des instances pour la résiliation : si les instances doivent être résiliées lors de la restauration, le système sélectionne d'abord les instances défectueuses, puis celles qui ont été provisionnées le plus récemment.

  • Transition de statut : le groupe d'instances passe immédiatement à l'InServiceétat après le lancement de la restauration, ce qui permet au système de dimensionnement continu de gérer la capacité en fonction des paramètres de restauration

Le délai d'expiration de 3 heures est réinitialisé chaque fois MinCount qu'il est mis à jour. Par exemple, si vous effectuez MinCount plusieurs mises à jour, le délai d'expiration commence à courir à compter de la dernière mise à jour.

MinCount événements

Le système émet des événements spécifiques pour vous aider à suivre les MinCount opérations :

  • Capacité minimale atteinte : émise lorsqu'un groupe d'instances atteint avec succès le sien MinCount et passe à InService

  • Annulation initiée : émise lorsque le délai de 3 heures expire et que la restauration automatique commence

Vous pouvez surveiller ces événements ListClusterEventspour suivre la progression de vos MinCount opérations.

Utilisation de l'API

MinCount est spécifié à l'aide du MinInstanceCount paramètre dans les configurations de groupes d'instances :

aws sagemaker create-cluster \ --cluster-name $HP_CLUSTER_NAME \ --instance-groups '[ { "InstanceGroupName": "controller-machine", "InstanceType": "ml.c5.xlarge", "InstanceCount": 1, "SlurmConfig": {"NodeType": "Controller"}, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$EXECUTION_ROLE'", "ThreadsPerCore": 2 }, { "InstanceGroupName": "my-login-group", "InstanceType": "ml.c5.xlarge", "InstanceCount": 1, "SlurmConfig": {"NodeType": "Login"}, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$EXECUTION_ROLE'", "ThreadsPerCore": 1 }, { "InstanceGroupName": "worker-group-1", "InstanceType": "ml.c5.xlarge", "MinInstanceCount": 1, "InstanceCount": 2, "SlurmConfig": { "NodeType": "Compute", "PartitionNames": ["p1"] }, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$EXECUTION_ROLE'", "ThreadsPerCore": 1 } ]' \ --vpc-config '{ "SecurityGroupIds": ["'$SECURITY_GROUP'"], "Subnets": ["'$SUBNET'"] }' \ --node-provisioning-mode Continuous

Principales considérations relatives à MinCount l'utilisation :

  • MinInstanceCountdoit être comprise entre 0 et la valeur InstanceCount (incluse) du groupe d'instances spécifié dans CreateClusterou dans la UpdateClusterdemande

  • Le réglage MinInstanceCount sur 0 (par défaut) préserve le comportement standard de mise à l'échelle continue

  • La valeur par défaut MinInstanceCount pour Controller et Login InstanceGroup est définie sur 1 lors de la création du cluster

  • La définition de la MinInstanceCount valeur égale à InstanceCount fournit un comportement de mise à l'échelle du tout ou rien

  • MinCount n'est disponible que pour les clusters dont la valeur NodeProvisioningMode est définie sur Continuous