AWS ParallelCluster processi - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS ParallelCluster processi

Questa sezione si applica ai cluster distribuiti con. Slurm Se utilizzato con questo scheduler, AWS ParallelCluster interagisce con il job scheduler sottostante per gestire il provisioning e la rimozione dei nodi di calcolo.

Per i cluster HPC basati su AWS Batch, si basa sulle funzionalità fornite da per AWS ParallelCluster gestire i nodi di elaborazione. AWS Batch

clustermgtd

Il daemon di gestione del cluster () esegue le seguenti attività: clustermgtd

  • Pulisci le partizioni inattive

  • Gestisci Slurm le prenotazioni e i nodi associati ai Capacity Blocks (vedi la sezione seguente)

  • Gestisci la capacità statica per assicurarti che sia sempre attiva e integra

  • Sincronizza lo scheduler con Amazon EC2.

  • Pulisci le istanze orfane

  • Ripristina lo stato del nodo di pianificazione in caso di interruzione di Amazon EC2 che avviene al di fuori del flusso di lavoro di sospensione

  • Gestisci le istanze Amazon EC2 non integre (quelle che non superano i controlli di integrità di Amazon EC2)

  • Gestisci gli eventi di manutenzione programmata

  • Gestisci i nodi di pianificazione non integri (quelli che non superano i controlli di integrità dello scheduler)

Gestione delle Slurm prenotazioni e dei nodi associati ai Capacity Blocks

ParallelCluster supporta On-Demand Capacity Reservations (ODCR) e Capacity Blocks for Machine Learning (CB). A differenza dell'ODCR, CB può avere orari di inizio futuri ed è limitato nel tempo.

clustermgtdcerca i nodi non integri in un ciclo, termina tutte le istanze Amazon EC2 non funzionanti e le sostituisce con nuove istanze se si tratta di nodi statici.

AWS ParallelCluster gestisce i nodi statici associati a Capacity Blocks in modo diverso: crea un cluster anche se il CB non è ancora attivo e avvia automaticamente le istanze una volta che il CB è attivo.

I Slurm nodi che corrispondono alle risorse di calcolo associate CBs a quelle non ancora attive vengono mantenuti nello stato di manutenzione fino al raggiungimento dell'ora di avvio del CB. Questi Slurm nodi rimangono in uno reservation/maintenance stato associato all'utente Slurm amministratore, il che significa che possono accettare lavori, ma i lavori rimangono in sospeso fino alla rimozione della Slurm prenotazione.

clustermgtdcrea o elimina automaticamente Slurm le prenotazioni: mette i relativi nodi CB in uno stato di manutenzione basato sullo stato CB. Quando il CB diventa attivo, la Slurm prenotazione viene rimossa, i nodi si avviano e diventano disponibili per i lavori in sospeso o per l'invio di nuovi lavori.

Quando viene raggiunta l'ora di fine del CB, i nodi vengono riportati a uno stato. reservation/maintenance Spetta agli utenti eseguire resubmit/requeue il job su una nuova queue/compute risorsa quando il CB non è più attivo e le istanze vengono terminate.

clusterstatusmgtd

Il cluster status management daemon (clusterstatusmgtd) gestisce l'aggiornamento dello stato della flotta di calcolo. Ogni minuto recupera lo stato della flotta memorizzato in una tabella DynamoDB e gestisce qualsiasi richiesta. STOP/START

computemgtd

I processi di gestione del calcolo daemon (computemgtd) vengono eseguiti su ciascuno dei nodi di calcolo del cluster. Ogni cinque (5) minuti, il demone di gestione del calcolo conferma che il nodo principale è raggiungibile ed è integro. Se trascorrono cinque (5) minuti durante i quali il nodo principale non può essere raggiunto o non è integro, il nodo di elaborazione viene spento.