Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Notes de mise à jour pour les versions de Slurm sur PCS AWS
Cette rubrique décrit les modifications importantes apportées à chaque version de Slurm actuellement prise en AWS charge par PCS. Nous vous recommandons de vérifier les modifications entre l'ancienne et la nouvelle version lors de la mise à niveau de votre cluster.
Changements mis en œuvre dans AWS PCS
-
Les journaux d'audit du planificateur sont désormais fournis séparément selon le type de
PCS_SCHEDULER_AUDIT_LOGSjournal, ce qui simplifie le dépannage et l'audit grâce à un contrôle indépendant de la livraison des journaux. Pour plus d'informations, consultez les journaux d'audit du planificateur dans AWS PCS. -
La file d'attente accélérée est activée par défaut. Les tâches qui échouent en raison de problèmes liés au nœud (telles que des erreurs de capacité insuffisante) peuvent être mises en file d'attente avec la priorité de planification la plus élevée en utilisant.
sbatch --requeue=expediteCeci est contrôlé par le paramètreSchedulerParameters=enable_expedited_requeue. -
Le
requeue_delayparamètre est disponible sous forme de paramètre de cluster personnalisé avec une valeur par défaut de 5 secondes. Auparavant, le délai d'attente était lié à l'expiration des informations d'identification (70 secondes). Les administrateurs peuvent désormais le configurer indépendamment viaSchedulerParameters=requeue_delay=<seconds>. -
HealthCheckNodeStateprend désormais en charge laSTART_ONLYvaleur, qui exécute le programme de vérification de l'état uniquement au démarrage du nœud (slurmd start). -
CommunicationParameters=disable_httpest configuré par défaut pour désactiver les points de terminaison HTTP (métriques et sondes de santé) introduits dans Slurm 25.11. Pour réactiver ces points de terminaison, définissez.CommunicationParameters=enable_httpPour plus d'informations, consultez les métriques Slurm dans AWS PCS.
Problèmes connus
-
Slurm 25.11 valide
AllowQOSetDenyQOSpartitionne les paramètres même s'ilsAccountingStorageEnforce=QOSne sont pas définis. Si une QOS est référencéeAllowQOSouDenyQOSn'existe pas dans la base de données de comptabilité Slurm, elle se ferme avec uneslurmctlderreur fatale. Assurez-vous que toutes les valeurs de QOS répertoriées dans la partitionAllowQOSet lesDenyQOSparamètres existent dans la base de données de comptabilité avant de procéder à la mise à niveau ou de redémarrer Slurm 25.11. -
Le
slurmdjournal peut afficher le message d'erreurerror: cannot create url_parser context for http_parser/libhttp_parser. Il s'agit d'un problème connu de Slurm qui se produit même lorsqu'ilCommunicationParameters=disable_httpest défini. L'erreur peut être ignorée en toute sécurité et n'affecte pas le fonctionnement du cluster.
Pour plus d'informations sur Slurm 25.11, consultez les publications suivantes :
-
Annonce de sortie de SchedMD : https://www.schedmd.com/slurm-version-25-11-0-is-now-available/
-
Notes de mise à jour de SchedMD : https://github.com/SchedMD/slurm/blob/slurm-25.11/RELEASE_NOTES.md
Changements mis en œuvre dans AWS PCS
-
Le Slurm requeue_on_resume_failure est désormais activé par défaut SchedulerParameter .
-
« stderr » a été supprimé en tant qu'option pour LogTimeFormat, car il était désactivé dans Slurm 25.05.
-
AWS PCS prend en charge la configuration Multi-cluster sackd : le nœud de connexion peut accéder à plusieurs clusters.
Pour plus d'informations sur Slurm 25.05, consultez les publications suivantes :
-
Annonce de sortie de SchedMD : https://www.schedmd.com/slurm-version-25-05-0-is-now-available/
-
Notes de mise à jour de SchedMD : https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE_NOTES.md
Changements mis en œuvre dans AWS PCS
-
AWS PCS prend en charge la comptabilité Slurm. Pour de plus amples informations, veuillez consulter Comptabilité Slurm dans PCS AWS.
Pour plus d'informations sur Slurm 24.11, consultez les publications suivantes :
Changements mis en œuvre dans AWS PCS
-
Le nouveau module Slurm Step Manager est désormais activé par défaut dans AWS PCS. Ce module offre des avantages significatifs en déléguant la gestion des étapes du contrôleur central aux nœuds de calcul, améliorant ainsi considérablement la simultanéité du système dans les environnements où l'utilisation d'étapes est importante. Pour prendre en charge cette configuration et améliorer l'isolation
Prologet l'exécution desEpilogprocessus, de nouveaux indicateurs de prolog (Contain,Alloc) sont activés. -
La communication hiérarchique entre le contrôleur et les nœuds de calcul est activée pour optimiser la communication intra-nœud de Slurm, ce qui améliore l'évolutivité et les performances. En outre, la configuration de routage utilise désormais des listes de nœuds de partition pour les communications provenant du contrôleur, au lieu de l'algorithme de routage par défaut du plugin, ce qui améliore la résilience du système.
-
Un nouveau plugin de hachage
HashPlugin=hash/sha3remplace le précédenthash/k12 plugin. Ceci est désormais activé par défaut dans les clusters AWS PCS. -
Les journaux du contrôleur Slurm incluent désormais des fonctionnalités d'audit améliorées pour tous les appels de procédure à distance (RPC) entrants adressés à.
slurmctldLes journaux incluent l'adresse source, l'utilisateur authentifié et le type RPC avant le traitement de la connexion.
Pour plus d'informations sur Slurm 24.05, consultez les publications suivantes :
Réglages de Slurm que vous pouvez modifier dans PCS AWS
-
La
SuspendTimevaleur par défaut est.60Utilisez le paramètrescaleDownIdleTimeInSecondsde configuration AWS PCS pour le définir. Pour plus d'informations, consultez lescaleDownIdleTimeInSecondsparamètre du type deClusterSlurmConfigurationdonnées dans le manuel de référence de l'API AWS PCS. -
Le
MaxJobCountetMaxArraySizeest basé sur la taille que vous avez choisie pour le cluster. Pour plus d'informations, consultez lesizeparamètre de l'action d'CreateClusterAPI dans la référence d'API AWS PCS. -
Le paramètre
SelectTypeParametersSlurm est défini par défaut sur.CR_CPUVous pouvez le fournir sous forme de valeurslurmCustomSettingspour le définir lorsque vous créez un cluster. Pour plus d'informations, consultez leslurmCustomSettingsparamètre de l'action d'CreateClusterAPI et le manuel SlurmCustomSettingde référence de l'API AWS PCS. -
Vous pouvez définir
PrologetEpilogau niveau du cluster. Vous pouvez le fournir sous forme de valeurslurmCustomSettingspour le définir lorsque vous créez un cluster. Pour plus d'informations, voirCreateClusteret SlurmCustomSettingdans le manuel de référence de l'API AWS PCS. -
Vous pouvez définir
WeightetRealMemoryau niveau du groupe de nœuds de calcul. Vous pouvez le fournir sous forme de valeurslurmCustomSettingspour le définir lorsque vous créez un groupe de nœuds de calcul. Pour plus d'informations, voirCreateComputeNodeGroupet SlurmCustomSettingdans le manuel de référence de l'API AWS PCS.