Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Note di rilascio per le versioni Slurm in PCS AWS
Questo argomento descrive le modifiche importanti per ogni versione di Slurm attualmente supportata in PCS. AWS Ti consigliamo di rivedere le modifiche tra la vecchia e la nuova versione quando aggiorni il tuo cluster.
Modifiche implementate in PCS AWS
-
I log di controllo di Scheduler vengono ora forniti separatamente in base al tipo di
PCS_SCHEDULER_AUDIT_LOGSregistro, semplificando la risoluzione dei problemi e il controllo grazie al controllo indipendente sulla consegna dei log. Per ulteriori informazioni, consulta Scheduler audit logs in AWS PCS. -
La richiesta rapida è abilitata per impostazione predefinita. I lavori che non riescono a causa di problemi relativi ai nodi (ad esempio errori di capacità insufficiente) possono essere richiesti con la massima priorità di pianificazione utilizzando.
sbatch --requeue=expediteQuesta operazione è controllata dall’impostazioneSchedulerParameters=enable_expedited_requeue. -
Il
requeue_delayparametro è disponibile come impostazione cluster personalizzata con un valore predefinito di 5 secondi. In precedenza, il ritardo nella richiesta era legato alla scadenza delle credenziali (70 secondi). Gli amministratori possono ora configurarlo in modo indipendente tramite.SchedulerParameters=requeue_delay=<seconds> -
HealthCheckNodeStateora supporta ilSTART_ONLYvalore, che esegue il programma di controllo dello stato di salute solo all'avvio del nodo (slurmd start). -
CommunicationParameters=disable_httpè impostato di default per disabilitare gli endpoint HTTP (metriche e sonde di salute) introdotti in Slurm 25.11. Per riattivare questi endpoint, imposta.CommunicationParameters=enable_httpPer ulteriori informazioni, consulta le metriche Slurm in AWS PCS.
Problemi noti
-
Slurm 25.11 convalida
AllowQOSeDenyQOSpartiziona le impostazioni anche quando non è impostato.AccountingStorageEnforce=QOSSe un QOS a cui si fa riferimentoAllowQOSoDenyQOSnon esiste nel database di contabilità Slurm, esce con un errore fatale.slurmctldAssicurati che tutti i valori QOS elencati nella partizioneAllowQOSe nelleDenyQOSimpostazioni esistano nel database di contabilità prima di eseguire l'aggiornamento o il riavvio di Slurm 25.11. -
Il
slurmdregistro potrebbe mostrare il messaggio di errore.error: cannot create url_parser context for http_parser/libhttp_parserSi tratta di un problema noto di Slurm che si verifica anche quandoCommunicationParameters=disable_httpè impostato. L'errore può essere tranquillamente ignorato e non influisce sul funzionamento del cluster.
Per ulteriori informazioni su Slurm 25.11, consulta le seguenti pubblicazioni:
-
Annuncio di rilascio di SchedMD: https://www.schedmd.com/slurm-version-25-11-0-is-now-available/
-
Note di rilascio di SchedMD: https://github.com/SchedMD/slurm/blob/slurm-25.11/RELEASE_NOTES.md
Modifiche implementate in PCS AWS
-
Lo Slurm requeue_on_resume_failure è ora abilitato per impostazione predefinita SchedulerParameter .
-
«stderr» è stato rimosso come opzione per, poiché era disabilitato in Slurm 25.05. LogTimeFormat
-
AWS PCS supporta la configurazione Multi-cluster sackd: il nodo di accesso può accedere a più cluster.
Per ulteriori informazioni su Slurm 25.05, consultate le seguenti pubblicazioni:
-
Annuncio di rilascio di SchedMD: https://www.schedmd.com/slurm-version-25-05-0-is-now-available/
-
Note di rilascio di SchedMD: https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE_NOTES.md
Modifiche implementate in PCS AWS
-
AWS PCS supporta la contabilità Slurm. Per ulteriori informazioni, consulta Contabilità Slurm in PCS AWS.
Per ulteriori informazioni su Slurm 24.11, consulta le seguenti pubblicazioni:
Modifiche implementate in PCS AWS
-
Il nuovo modulo Slurm Step Manager è ora abilitato di default in AWS PCS. Questo modulo offre vantaggi significativi trasferendo la gestione delle fasi dal controller centrale ai nodi di calcolo, migliorando notevolmente la concorrenza del sistema in ambienti con un utilizzo intensivo delle fasi. Per supportare questa configurazione e isolare
PrologedEpilogelaborare meglio l'esecuzione, sono abilitati i nuovi flag prolog (,).ContainAlloc -
La comunicazione gerarchica dal controller ai nodi di calcolo è abilitata per ottimizzare la comunicazione tra nodi Slurm, migliorando la scalabilità e le prestazioni. Inoltre, la configurazione di routing ora utilizza elenchi di nodi di partizione per le comunicazioni dal controller, anziché l'algoritmo di routing predefinito del plug-in, migliorando la resilienza del sistema.
-
Un nuovo plugin hash sostituisce il precedente.
HashPlugin=hash/sha3hash/k12 pluginQuesto è ora abilitato di default nei cluster AWS PCS. -
I log dei controller Slurm ora includono funzionalità di controllo avanzate per tutte le chiamate di procedura remota (RPC) in entrata verso.
slurmctldI log includono l'indirizzo di origine, l'utente autenticato e il tipo di RPC prima dell'elaborazione della connessione.
Per ulteriori informazioni su Slurm 24.05, consultate le seguenti pubblicazioni:
Le impostazioni di Slurm possono essere modificate in PCS AWS
-
L'impostazione
SuspendTimepredefinita è.60Utilizzate il parametro discaleDownIdleTimeInSecondsconfigurazione AWS PCS per impostarlo. Per ulteriori informazioni, consulta ilscaleDownIdleTimeInSecondsparametro del tipo diClusterSlurmConfigurationdati nel AWS PCS API Reference. -
Il
MaxJobCountandMaxArraySizesi basa sulla dimensione scelta per il cluster. Per ulteriori informazioni, consulta ilsizeparametro dell'azioneCreateClusterAPI nel AWS PCS API Reference. -
L'impostazione predefinita di
SelectTypeParametersSlurm è.CR_CPUPuoi fornirlo come valore perslurmCustomSettingsimpostarlo quando crei un cluster. Per ulteriori informazioni, consulta ilslurmCustomSettingsparametro dell'azioneCreateClusterAPI e SlurmCustomSettingnel AWS PCS API Reference. -
È possibile impostare
PrologeEpiloga livello di cluster. Puoi fornirlo come valore perslurmCustomSettingsimpostarlo quando crei un cluster. Per ulteriori informazioni, vedereCreateClustere SlurmCustomSettingnel AWS PCS API Reference. -
È possibile impostare
WeighteRealMemorya livello di gruppo di nodi di calcolo. Puoi fornirlo come valore perslurmCustomSettingsimpostarlo quando crei un gruppo di nodi di calcolo. Per ulteriori informazioni, vedereCreateComputeNodeGroupe SlurmCustomSettingnel AWS PCS API Reference.