Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Personalizzazione dei SageMaker HyperPod cluster utilizzando script del ciclo di vita
SageMaker HyperPod offre cluster di calcolo sempre attivi e funzionanti, altamente personalizzabili in quanto è possibile scrivere script del ciclo di vita per spiegare come configurare le risorse del cluster. SageMaker HyperPod I seguenti argomenti sono le best practice per preparare gli script del ciclo di vita per configurare i cluster con strumenti open source per la gestione del carico di lavoro. SageMaker HyperPod
Negli argomenti seguenti vengono illustrate le best practice approfondite per la preparazione degli script del ciclo di vita su cui configurare le configurazioni Slurm. SageMaker HyperPod
Panoramica di High-level
La procedura seguente è il flusso principale per il provisioning di un HyperPod cluster e la sua configurazione con Slurm. Le fasi sono in ordine, in base a un approccio dal basso verso l’alto.
-
Pianifica come vuoi creare i nodi Slurm su un cluster. HyperPod Ad esempio, se desideri configurare due nodi Slurm, dovrai configurare due gruppi di istanze in un cluster. HyperPod
-
Prepara la configurazione di Slurm. Scegliete uno dei seguenti approcci:
-
Opzione A: API-driven configurazione (consigliata): definisci i tipi di nodi e le partizioni Slurm direttamente nel payload dell'
CreateClusterAPI utilizzandoSlurmConfigall'interno di ciascun gruppo di istanze. Con questo approccio:-
Non è necessario alcun
provisioning_parameters.jsonfile -
La topologia Slurm è definita nel payload dell'API insieme alle definizioni dei gruppi di istanze
-
I file system FSx sono configurati per gruppo di istanze tramite
InstanceStorageConfigs -
La strategia di configurazione è controllata tramite
Orchestrator.Slurm.SlurmConfigStrategy
Esempio
SlurmConfigin un gruppo di istanze:{ "InstanceGroupName": "gpu-compute", "InstanceType": "ml.p4d.24xlarge", "InstanceCount": 8, "SlurmConfig": { "NodeType": "Compute", "PartitionNames": ["gpu-training"] } } -
-
Opzione B: configurazione precedente: prepara un
provisioning_parameters.jsonfile, che è unModulo di configurazione per provisioning_parameters.json.provisioning_parameters.jsondeve contenere informazioni sulla configurazione del nodo Slurm da fornire sul cluster. HyperPod Questo file dovrebbe riflettere la progettazione dei nodi Slurm della Fase 1.
-
-
Prepara un set di script del ciclo di vita su cui configurare Slurm per installare pacchetti software e configurare un ambiente nel cluster adatto HyperPod al tuo caso d'uso. È necessario strutturare gli script del ciclo di vita in modo che vengano eseguiti collettivamente in ordine in uno script Python centrale (
lifecycle_script.py), oltre a scrivere uno script shell del punto di ingresso (on_create.sh) per eseguire lo script Python. Lo script di shell entrypoint è ciò che devi fornire a una richiesta di creazione di HyperPod cluster più avanti nel Passaggio 5.Inoltre, si noti che è necessario scrivere gli script in modo da aspettarsi
resource_config.jsonche vengano generati HyperPod durante la creazione del cluster.resource_config.jsoncontiene informazioni sulle risorse del HyperPod cluster come indirizzi IP, tipi di istanze e ARN ed è ciò che è necessario utilizzare per configurare Slurm. -
Raccogli tutti i file delle fasi precedenti in una cartella. La struttura delle cartelle dipende dall'approccio di configurazione selezionato nel passaggio 2.
Se hai selezionato l'opzione A (API-driven configurazione):
La cartella necessita solo di script del ciclo di vita per attività di configurazione personalizzate. La configurazione Slurm e il montaggio FSx vengono gestiti automaticamente in HyperPod base al payload dell'API.
└── lifecycle_files // your local folder ├── on_create.sh ├── lifecycle_script.py └── ... // more setup scripts to be fed into lifecycle_script.pyNota
Il
provisioning_parameters.jsonfile non è richiesto quando si utilizza la configurazione. API-drivenSe hai selezionato l'opzione B (configurazione precedente):
La cartella deve includere
provisioning_parameters.jsone il set completo di script del ciclo di vita.└── lifecycle_files // your local folder ├── provisioning_parameters.json ├── on_create.sh ├── lifecycle_script.py └── ... // more setup scrips to be fed into lifecycle_script.py -
Carica tutti i file in un bucket S3. Copia e annota il percorso del bucket S3. Ricorda di creare un percorso del bucket S3 che inizi con
sagemaker-, perché dovrai scegliere un percorso del Ruolo IAM per SageMaker HyperPod collegato a AmazonSageMakerClusterInstanceRolePolicy, che consente solo i percorsi dei bucket S3 che iniziano con il prefissosagemaker-. Di seguito è riportato un comando di esempio per caricare tutti i file in un bucket S3.aws s3 cp --recursive./lifecycle_filess3://sagemaker-hyperpod-lifecycle/src -
Prepara una richiesta di creazione HyperPod del cluster.
-
Opzione 1: se utilizzi il AWS CLI, scrivi una richiesta di creazione del cluster in formato JSON (
create_cluster.json) seguendo le istruzioni all'indirizzoCreazione di un nuovo cluster. -
Opzione 2: se utilizzi l'interfaccia utente della console SageMaker AI, compila il modulo di richiesta Crea un cluster nell'interfaccia utente della HyperPod console seguendo le istruzioni riportate all'indirizzoCrea un SageMaker HyperPod cluster.
In questa fase, assicurati di creare gruppi di istanze nella stessa struttura pianificata nelle Fasi 1 e 2. Inoltre, assicurati di specificare il bucket S3 della Fase 5 nei moduli di richiesta.
-
-
Invia la richiesta di creazione del cluster. HyperPod esegue il provisioning di un cluster in base alla richiesta, quindi crea un
resource_config.jsonfile nelle istanze del HyperPod cluster e configura Slurm sul cluster che esegue gli script del ciclo di vita.
I seguenti argomenti illustrano e approfondiscono i dettagli su come organizzare i file di configurazione e gli script del ciclo di vita in modo che funzionino correttamente durante la creazione del cluster. HyperPod
Argomenti
Quali configurazioni particolari gestisce nei file di configurazione Slurm HyperPod
Montaggio di Amazon FSx for Lustre e Amazon FSx per OpenZFS su un cluster HyperPod
Convalida dei file di configurazione JSON prima di creare un cluster Slurm su HyperPod
Convalida del runtime HyperPod prima di eseguire carichi di lavoro di produzione su un cluster Slurm
Sviluppo interattivo di script del ciclo di vita su un nodo del cluster HyperPod