Come funziona Priority-based approvvigionamento Gestione degli errori del controller Prerequisiti Misurazione dell’utilizzo Creazione di un cluster con provisioning continuo abilitato Gestione della configurazione Slurm Requisiti di capacità minima (MinCount)

Provisioning continuo per operazioni avanzate del cluster con Slurm

SageMaker HyperPod I cluster Amazon creati con l'orchestrazione Slurm ora supportano il provisioning continuo, una funzionalità che consente una maggiore flessibilità ed efficienza durante l'esecuzione di carichi di lavoro su larga scala. AI/ML Il provisioning continuo consente di iniziare rapidamente l’addestramento, scalare senza problemi, eseguire la manutenzione senza interrompere le operazioni e avere una visibilità granulare sulle operazioni del cluster.

Nota

Il provisioning continuo è disponibile come configurazione opzionale per i cluster creati con l'orchestrazione Slurm. HyperPod

Come funziona

Il sistema di provisioning continuo introduce un'architettura dello stato desiderato che sostituisce il tradizionale modello di scalabilità «tutto o niente». Nel modello precedente, se non era possibile effettuare il provisioning completo di un gruppo di istanze, l'intera operazione di creazione o aggiornamento del cluster non funzionava e veniva ripristinata. Con il provisioning continuo, il sistema accetta una capacità parziale e continua a fornire le istanze rimanenti in modo asincrono.

Il sistema di provisioning continuo:

Accetta la richiesta: registra il numero di istanze di destinazione per ogni gruppo di istanze.
Avvia il provisioning: inizia a lanciare le istanze per tutti i gruppi di istanze in parallelo.
Effettua innanzitutto il provisioning dei nodi prioritari: il cluster passa a InService dopo che almeno un nodo controller (e un nodo di accesso, se viene specificato un gruppo di istanze di login) è stato eseguito correttamente.
Monitora l'avanzamento: monitora ogni tentativo di avvio dell'istanza e ne registra lo stato.
Gestisce gli errori: riprova automaticamente gli avvii non riusciti per i nodi di lavoro in modo asincrono.

Il provisioning continuo è disabilitato per impostazione predefinita. Per utilizzare questa funzionalità, impostala nella richiesta. NodeProvisioningMode Continuous CreateCluster

Con il provisioning continuo abilitato, puoi avviare più operazioni di dimensionamento contemporaneamente senza attendere il completamento delle operazioni precedenti. Ciò consente di scalare contemporaneamente diversi gruppi di istanze nello stesso cluster e di inviare più richieste di dimensionamento allo stesso gruppo di istanze.

Priority-based approvvigionamento

I cluster Slurm richiedono che un nodo controller sia operativo prima che i nodi di lavoro possano registrare e accettare lavori. Il provisioning continuo gestisce questo problema automaticamente tramite il provisioning basato sulle priorità:

Il gruppo di istanze del controller viene fornito per primo.
Una volta che un nodo controller è integro, i nodi di accesso e i nodi di lavoro iniziano il provisioning in parallelo.
Il cluster passa alla fase in InService cui un nodo di controller è attivo e un nodo di accesso è attivo (se viene specificato un gruppo di istanze di login). Se non viene specificato alcun gruppo di istanze di login, la transizione del cluster avviene non InService appena viene effettuato il provisioning del nodo di controller.
I nodi di lavoro che non possono essere immediatamente forniti a causa di vincoli di capacità entrano in un ciclo di tentativi asincrono e vengono aggiunti automaticamente al cluster Slurm non appena diventano disponibili.

Gestione degli errori del controller

Durante la creazione del cluster, se il nodo controller non riesce a eseguire il provisioning, il comportamento dipende dal fatto che l'errore sia riprovabile o meno.

Errori rieseguibili (ad esempio, istanze non integre o errori temporanei):

HyperPod sostituisce continuamente l'istanza e riprova il provisioning fino all'attivazione del controller.
I nodi di lavoro e di accesso che sono già stati forniti rimangono disponibili, ma il cluster non effettua la transizione InService finché il controller non è integro.

Non-retryable errori (ad esempio, nessuna capacità disponibile per il tipo di istanza del controller o l'errore dello script del ciclo di vita):

Il cluster è contrassegnato come. Failed
Il motivo dell'errore viene notificato all'utente e deve intraprendere azioni correttive, ad esempio scegliere un tipo di istanza diverso, correggere gli script del ciclo di vita o riprovare in un'altra zona di disponibilità.

Prerequisiti

Il provisioning continuo richiede che i parametri di provisioning di Slurm (tipi di nodi, nomi delle partizioni) siano forniti tramite il payload dell'API nel campo di ciascun gruppo di istanze. SlurmConfig I cluster che si basano sul provisioning_parameters.json file legacy in Amazon S3 non sono compatibili con il provisioning continuo.

Nota

Le seguenti funzionalità non sono attualmente supportate con il provisioning continuo sui cluster Slurm: configurazione multi-head node tramite topologia Slurm e. API-based SlurmConfigStrategy Il provisioning continuo funziona esclusivamente in modalità di fusione per la gestione. slurm.conf

Misurazione dell’utilizzo

HyperPod i cluster con provisioning continuo utilizzano la misurazione a livello di istanza per fornire una fatturazione accurata che rifletta l'utilizzo effettivo delle risorse. Questo approccio di misurazione si differenzia dalla tradizionale fatturazione a livello di cluster in quanto tiene traccia di ogni istanza in modo indipendente.

Instance-level fatturazione

Con il provisioning continuo, la fatturazione inizia e si arresta a livello della singola istanza anziché attendere le modifiche dello stato a livello di cluster. Questa funzionalità fornisce i seguenti vantaggi:

Accuratezza di fatturazione: la fatturazione inizia quando inizia l’esecuzione dello script del ciclo di vita. Se lo script del ciclo di vita fallisce, la fornitura dell'istanza verrà ritentata e all'utente verrà addebitata la durata del runtime dello script del ciclo di vita.
Misurazione indipendente: il ciclo di vita di fatturazione di ogni istanza viene gestito separatamente, evitando errori di fatturazione a cascata.
Real-time aggiornamenti di fatturazione: la fatturazione inizia quando un'istanza inizia a eseguire lo script di configurazione del ciclo di vita e si interrompe quando l'istanza entra in uno stato di terminazione.

Ciclo di vita della fatturazione

Ogni istanza del HyperPod cluster segue questo ciclo di vita di fatturazione:

La fatturazione ha inizio: quando l'istanza viene avviata correttamente e inizia a eseguire lo script di configurazione del ciclo di vita.
La fatturazione continua: per tutta la durata operativa dell'istanza.
La fatturazione si interrompe: quando l'istanza entra in uno stato di terminazione, indipendentemente dal motivo della chiusura.

Nota

La fatturazione non inizia in caso di errori di avvio delle istanze. Se l’avvio di un’istanza non riesce a causa di una capacità insufficiente o di altri problemi, non verrà addebitato alcun costo per il tentativo non riuscito. La fatturazione viene calcolata a livello di istanza e i costi sono aggregati e riportati nel nome della risorsa Amazon (ARN) del cluster.

Creazione di un cluster con provisioning continuo abilitato

Nota

Prepara uno script di configurazione del ciclo di vita e caricalo in un bucket Amazon S3 a cui può accedere il tuo ruolo di esecuzione. Per ulteriori informazioni, consulta SageMaker HyperPod Operazioni del cluster Slurm.

Prepara un file di richiesta CreateCluster API in formato JSON. Imposta NodeProvisioningMode Continuous e fornisci informazioni sulla topologia Slurm nel campo di ogni gruppo di istanze. SlurmConfig


// create_cluster.json
{
    "ClusterName": "my-training-cluster",
    "NodeProvisioningMode": "Continuous",
    "Orchestrator": {
        "Slurm": {}
    },
    "InstanceGroups": [
        {
            "InstanceGroupName": "controller-group",
            "InstanceType": "ml.m5.xlarge",
            "InstanceCount": 1,
            "LifeCycleConfig": {
                "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/",
                "OnCreate": "on_create.sh"
            },
            "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster",
            "SlurmConfig": {
                "NodeType": "Controller"
            }
        },
        {
            "InstanceGroupName": "login-group",
            "InstanceType": "ml.m5.xlarge",
            "InstanceCount": 1,
            "LifeCycleConfig": {
                "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/",
                "OnCreate": "on_create.sh"
            },
            "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster",
            "SlurmConfig": {
                "NodeType": "Login"
            }
        },
        {
            "InstanceGroupName": "worker-gpu-a",
            "InstanceType": "ml.p5.48xlarge",
            "InstanceCount": 16,
            "LifeCycleConfig": {
                "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/",
                "OnCreate": "on_create.sh"
            },
            "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster",
            "SlurmConfig": {
                "NodeType": "Compute",
                "PartitionNames": ["gpu-training"]
            }
        }
    ],
    "VpcConfig": {
        "SecurityGroupIds": ["sg-12345678"],
        "Subnets": ["subnet-12345678"]
    }
}

Esegui il create-cluster comando per inviare la richiesta.


aws sagemaker create-cluster \
    --cli-input-json file://complete/path/to/create_cluster.json

Questo restituisce l'ARN del nuovo cluster.


{
    "ClusterArn": "arn:aws:sagemaker:us-west-2:111122223333:cluster/abcde12345"
}

Gestione della configurazione Slurm

Il provisioning continuo funziona esclusivamente in modalità di fusione per la gestione delle partizioni. slurm.conf In modalità merge, HyperPod applica le modifiche alla configurazione delle partizioni in modo additivo alle modifiche apportate. slurm.conf HyperPod aggiorna solo le sezioni relative alla partizione di slurm.conf (come le voci relative al nome della partizione e al nome del nodo); gli altri parametri di configurazione di Slurm non vengono modificati. Ciò significa che:

Le modifiche manuali di vengono mantenute. slurm.conf
Non è previsto il rilevamento automatico delle deviazioni o la risoluzione dei conflitti tra le modifiche apportate e HyperPod lo stato previsto.

Il SlurmConfigStrategy parametro (Managed,Merge,Overwrite) non è supportato con il provisioning continuo. Il passaggio di qualsiasi SlurmConfigStrategy valore genera un errore API.

Requisiti di capacità minima (MinCount)

La MinCount funzionalità consente di specificare il numero minimo di istanze che devono essere fornite correttamente prima che un gruppo di istanze passi allo stato. InService Questa funzionalità offre un migliore controllo sulle operazioni di scalabilità e aiuta a prevenire scenari in cui i gruppi di istanze con provisioning parziale non possono essere utilizzati efficacemente per i carichi di lavoro di formazione.

Importante

MinCount non è una garanzia permanente di capacità minima. Assicura che il numero minimo di istanze specificato sia disponibile solo quando il gruppo di istanze diventa InService disponibile per la prima volta. Durante le normali operazioni, ad esempio sostituzioni di istanze non funzionanti o attività di manutenzione, MinCount possono verificarsi brevi cali di seguito.

Come funziona MinCount

Quando si crea o si aggiorna un gruppo di istanze con MinCount enabled, si verifica il seguente comportamento:

Nuovi gruppi di istanze: il gruppo di istanze rimane Creating attivo fino a quando almeno MinCount le istanze non vengono fornite correttamente e sono pronte. Una volta raggiunta questa soglia, il gruppo di istanze passa a. InService
Gruppi di istanze esistenti: quando si MinCount esegue l'aggiornamento su un gruppo di istanze esistente, lo stato cambia Updating fino al soddisfacimento del nuovo MinCount requisito.
Scalabilità continua: se TargetCount è maggiore di MinCount, il sistema di ridimensionamento continuo continua a tentare di avviare istanze aggiuntive finché non viene raggiunto. TargetCount
Timeout e rollback: se MinCount non possono essere soddisfatti entro 3 ore, il sistema ripristina automaticamente il gruppo di istanze all'ultimo stato valido conosciuto. Per ulteriori informazioni sul comportamento di rollback, vedete Comportamento automatico del rollback.

Stato del gruppo di istanze durante le operazioni MinCount

I gruppi di istanze MinCount configurati presentano il seguente comportamento di stato:

Creazione in corso: Per i nuovi gruppi di istanze quando CurrentCount < MinCount. Il gruppo di istanze rimane in questo stato fino al raggiungimento del requisito di capacità minima.
Aggiornamento in corso: Per i gruppi di istanze esistenti quando MinCount viene modificato e CurrentCount < MinCount. Il gruppo di istanze rimane in questo stato finché non viene soddisfatto il nuovo requisito di capacità minima.
InService: Quando MinCount ≤ CurrentCount ≤ TargetCount. Il gruppo di istanze è pronto per l'uso e tutte le operazioni di modifica sono sbloccate.

Durante il Creating nostro Updating status, si applicano le seguenti restrizioni:

Operazioni mutanti come BatchAddClusterNodesBatchDeleteClusterNodes, o UpdateClusterSoftware sono bloccate
È comunque possibile modificare TargetCount i valori MinCount e per correggere gli errori di configurazione
L'eliminazione di gruppi di cluster e istanze è sempre consentita

Comportamento automatico del rollback

Se un gruppo di istanze non riesce a raggiungerlo MinCount entro 3 ore, il sistema avvia automaticamente un rollback per evitare un'attesa indefinita:

Nuovi gruppi di istanze: MinCount e TargetCount vengono reimpostati su (0, 0)
Gruppi di istanze esistenti: MinCount e TargetCount vengono ripristinati ai loro valori dall'ultimo InService stato
Selezione delle istanze da terminare: se è necessario terminare le istanze durante il rollback, il sistema seleziona prima le istanze non integre e poi quelle a cui è stato effettuato il provisioning più recente.
Transizione dello stato: il gruppo di istanze passa immediatamente InService allo stato dopo l'avvio del rollback, consentendo al sistema di scalabilità continua di gestire la capacità in base alle impostazioni di rollback

Il timeout di 3 ore si ripristina ogni volta che viene aggiornato. MinCount Ad esempio, se si esegue l'aggiornamento MinCount più volte, il periodo di timeout ricomincia dall'aggiornamento più recente.

MinCount eventi

Il sistema emette eventi specifici per aiutarvi a tenere traccia MinCount delle operazioni:

Capacità minima raggiunta: emessa quando un gruppo di istanze raggiunge con successo la propria posizione MinCount e passa a InService
Rollback avviato: emesso quando scade il timeout di 3 ore e inizia il rollback automatico

È possibile monitorare questi eventi utilizzando per tenere traccia dello stato di avanzamento delle ListClusterEventsoperazioni. MinCount

Utilizzo delle API

MinCount viene specificato utilizzando il MinInstanceCount parametro nelle configurazioni del gruppo di istanze:


aws sagemaker create-cluster \
--cluster-name $HP_CLUSTER_NAME \
--instance-groups '[
    {
      "InstanceGroupName": "controller-machine",
      "InstanceType": "ml.c5.xlarge",
      "InstanceCount": 1,
      "SlurmConfig": {"NodeType": "Controller"},
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://'$BUCKET_NAME'",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "'$EXECUTION_ROLE'",
      "ThreadsPerCore": 2
    },
    {
      "InstanceGroupName": "my-login-group",
      "InstanceType": "ml.c5.xlarge",
      "InstanceCount": 1,
      "SlurmConfig": {"NodeType": "Login"},
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://'$BUCKET_NAME'",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "'$EXECUTION_ROLE'",
      "ThreadsPerCore": 1
    },
    {
      "InstanceGroupName": "worker-group-1",
      "InstanceType": "ml.c5.xlarge",
      "MinInstanceCount": 1,
      "InstanceCount": 2,
      "SlurmConfig": {
        "NodeType": "Compute",
        "PartitionNames": ["p1"]
      },
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://'$BUCKET_NAME'",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "'$EXECUTION_ROLE'",
      "ThreadsPerCore": 1
    }
  ]' \
  --vpc-config '{
    "SecurityGroupIds": ["'$SECURITY_GROUP'"],
    "Subnets": ["'$SUBNET'"]
  }' \
  --node-provisioning-mode Continuous

Considerazioni chiave per MinCount l'utilizzo:

MinInstanceCountdeve essere compreso tra 0 e il valore InstanceCount (incluso) del gruppo di istanze specificato nella CreateClusternostra richiesta UpdateCluster
L'impostazione MinInstanceCount su 0 (impostazione predefinita) mantiene il comportamento di ridimensionamento continuo standard
L'impostazione predefinita MinInstanceCount per Controller e Login InstanceGroup è impostata su 1 durante la creazione del cluster
L'impostazione MinInstanceCount uguale a InstanceCount fornisce un comportamento di ridimensionamento «tutto o niente»
MinCount è disponibile solo per i cluster impostati su NodeProvisioningMode Continuous

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Sostituisci o riavvia manualmente un nodo usando Slurm

Gestione dei cluster