View a markdown version of this page

Note di rilascio per le versioni Slurm in PCS AWS - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Note di rilascio per le versioni Slurm in PCS AWS

Questo argomento descrive le modifiche importanti per ogni versione di Slurm attualmente supportata in PCS. AWS Ti consigliamo di rivedere le modifiche tra la vecchia e la nuova versione quando aggiorni il tuo cluster.

Modifiche implementate in PCS AWS
  • I log di controllo di Scheduler vengono ora forniti separatamente in base al tipo di PCS_SCHEDULER_AUDIT_LOGS registro, semplificando la risoluzione dei problemi e il controllo grazie al controllo indipendente sulla consegna dei log. Per ulteriori informazioni, consulta Scheduler audit logs in AWS PCS.

  • La richiesta rapida è abilitata per impostazione predefinita. I lavori che non riescono a causa di problemi relativi ai nodi (ad esempio errori di capacità insufficiente) possono essere richiesti con la massima priorità di pianificazione utilizzando. sbatch --requeue=expedite Questa operazione è controllata dall’impostazione SchedulerParameters=enable_expedited_requeue.

  • Il requeue_delay parametro è disponibile come impostazione cluster personalizzata con un valore predefinito di 5 secondi. In precedenza, il ritardo nella richiesta era legato alla scadenza delle credenziali (70 secondi). Gli amministratori possono ora configurarlo in modo indipendente tramite. SchedulerParameters=requeue_delay=<seconds>

  • HealthCheckNodeStateora supporta il START_ONLY valore, che esegue il programma di controllo dello stato di salute solo all'avvio del nodo (slurmd start).

  • CommunicationParameters=disable_httpè impostato di default per disabilitare gli endpoint HTTP (metriche e sonde di salute) introdotti in Slurm 25.11. Per riattivare questi endpoint, imposta. CommunicationParameters=enable_http Per ulteriori informazioni, consulta le metriche Slurm in AWS PCS.

Problemi noti
  • Slurm 25.11 convalida AllowQOS e DenyQOS partiziona le impostazioni anche quando non è impostato. AccountingStorageEnforce=QOS Se un QOS a cui si fa riferimento AllowQOS o DenyQOS non esiste nel database di contabilità Slurm, esce con un errore fatale. slurmctld Assicurati che tutti i valori QOS elencati nella partizione AllowQOS e nelle DenyQOS impostazioni esistano nel database di contabilità prima di eseguire l'aggiornamento o il riavvio di Slurm 25.11.

  • Il slurmd registro potrebbe mostrare il messaggio di errore. error: cannot create url_parser context for http_parser/libhttp_parser Si tratta di un problema noto di Slurm che si verifica anche quando CommunicationParameters=disable_http è impostato. L'errore può essere tranquillamente ignorato e non influisce sul funzionamento del cluster.

Per ulteriori informazioni su Slurm 25.11, consulta le seguenti pubblicazioni:

Modifiche implementate in PCS AWS
  • Lo Slurm requeue_on_resume_failure è ora abilitato per impostazione predefinita SchedulerParameter .

  • «stderr» è stato rimosso come opzione per, poiché era disabilitato in Slurm 25.05. LogTimeFormat

  • AWS PCS supporta la configurazione Multi-cluster sackd: il nodo di accesso può accedere a più cluster.

Per ulteriori informazioni su Slurm 25.05, consultate le seguenti pubblicazioni:

Modifiche implementate in PCS AWS

Per ulteriori informazioni su Slurm 24.11, consulta le seguenti pubblicazioni:

Modifiche implementate in PCS AWS
  • Il nuovo modulo Slurm Step Manager è ora abilitato di default in AWS PCS. Questo modulo offre vantaggi significativi trasferendo la gestione delle fasi dal controller centrale ai nodi di calcolo, migliorando notevolmente la concorrenza del sistema in ambienti con un utilizzo intensivo delle fasi. Per supportare questa configurazione e isolare Prolog ed Epilog elaborare meglio l'esecuzione, sono abilitati i nuovi flag prolog (,). Contain Alloc

  • La comunicazione gerarchica dal controller ai nodi di calcolo è abilitata per ottimizzare la comunicazione tra nodi Slurm, migliorando la scalabilità e le prestazioni. Inoltre, la configurazione di routing ora utilizza elenchi di nodi di partizione per le comunicazioni dal controller, anziché l'algoritmo di routing predefinito del plug-in, migliorando la resilienza del sistema.

  • Un nuovo plugin hash sostituisce il precedente. HashPlugin=hash/sha3 hash/k12 plugin Questo è ora abilitato di default nei cluster AWS PCS.

  • I log dei controller Slurm ora includono funzionalità di controllo avanzate per tutte le chiamate di procedura remota (RPC) in entrata verso. slurmctld I log includono l'indirizzo di origine, l'utente autenticato e il tipo di RPC prima dell'elaborazione della connessione.

Per ulteriori informazioni su Slurm 24.05, consultate le seguenti pubblicazioni:

Le impostazioni di Slurm possono essere modificate in PCS AWS
  • L'impostazione SuspendTime predefinita è. 60 Utilizzate il parametro di scaleDownIdleTimeInSeconds configurazione AWS PCS per impostarlo. Per ulteriori informazioni, consulta il scaleDownIdleTimeInSecondsparametro del tipo di ClusterSlurmConfiguration dati nel AWS PCS API Reference.

  • Il MaxJobCount and MaxArraySize si basa sulla dimensione scelta per il cluster. Per ulteriori informazioni, consulta il sizeparametro dell'azione CreateCluster API nel AWS PCS API Reference.

  • L'impostazione predefinita di SelectTypeParameters Slurm è. CR_CPU Puoi fornirlo come valore per slurmCustomSettings impostarlo quando crei un cluster. Per ulteriori informazioni, consulta il slurmCustomSettingsparametro dell'azione CreateCluster API e SlurmCustomSettingnel AWS PCS API Reference.

  • È possibile impostare Prolog e Epilog a livello di cluster. Puoi fornirlo come valore per slurmCustomSettings impostarlo quando crei un cluster. Per ulteriori informazioni, vedere CreateClustere SlurmCustomSettingnel AWS PCS API Reference.

  • È possibile impostare Weight e RealMemory a livello di gruppo di nodi di calcolo. Puoi fornirlo come valore per slurmCustomSettings impostarlo quando crei un gruppo di nodi di calcolo. Per ulteriori informazioni, vedere CreateComputeNodeGroupe SlurmCustomSettingnel AWS PCS API Reference.