Usa l'accelerazione ottimizzata per EKS per le istanze AMIs GPU - Amazon EKS

Contribuisci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Usa l'accelerazione ottimizzata per EKS per le istanze AMIs GPU

Amazon EKS supporta Amazon Linux e Bottlerocket AMIs per istanze GPU ottimizzati per EKS. L'accelerato ottimizzato per EKS AMIs semplifica l'esecuzione di carichi di lavoro AI e ML nei cluster EKS fornendo immagini del sistema operativo predefinite e convalidate per lo stack Kubernetes accelerato. Oltre ai componenti principali di Kubernetes inclusi nello standard ottimizzato per EKS AMIs, l'accelerato ottimizzato per EKS AMIs include i moduli e i driver del kernel necessari per eseguire le GPU NVIDIA G e le istanze P EC2 e le istanze AWS GPU Inferentia e Trainium EC2 nei cluster EKS.

La tabella seguente mostra i tipi di istanza GPU supportati per ogni variante AMI accelerata ottimizzata per EKS. Consulta le AL2023 versioni ottimizzate per EKS e le versioni di Bottlerocket su GitHub per gli ultimi aggiornamenti alle varianti AMI.

Variante AMI EKS Tipi di istanza EC2

AL2023 NVIDIA x86_64

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, g7e, gr6, g6, g6e, g6f, gr6f, g5, g4dn

AL2023 ARM NVIDIA

p6e-gb200, p6e-gb300, g5 g

AL2023 Neurone x86_64

inf1, inf2, trn1, trn2

Portabottiglie x86_64 aws-k8s-nvidia

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, g7e, gr6, g6, g6e, g6f, gr6f, g5, g4dn

Portaborraccia aarch64/arm64 aws-k8s-nvidia

g 5 g

Portaborraccia x86_64 aws-k8s

inf1, inf2, trn1, trn2

NVIDIA ottimizzata per EKS AMIs

Utilizzando NVIDIA ottimizzata per EKS AMIs, l'utente accetta il contratto di licenza per l'utente finale del cloud (EULA) di NVIDIA.

Per trovare la versione più recente di NVIDIA ottimizzata per EKS, consulta e. AMIs Recupera le AMI Amazon Linux consigliate IDs Recupero degli ID AMI Bottlerocket consigliati

Quando si utilizza Amazon Elastic Fabric Adaptor (EFA) con NVIDIA ottimizzato per EKS AL2023 o Bottlerocket AMIs, è necessario installare il plug-in del dispositivo EFA separatamente. Per ulteriori informazioni, consulta Esecuzione dei corsi di machine learning su Amazon EKS con Elastic Fabric Adapter.

EKS NVIDIA AL2023 AMIs

Quando si utilizza l'operatore GPU NVIDIA con AL2023 NVIDIA ottimizzato per EKS AMIs, è necessario disabilitare l'installazione da parte dell'operatore del driver e del toolkit, poiché questi sono già inclusi in EKS. AMIs I prodotti AL2023 NVIDIA ottimizzati per EKS AMIs non includono il plug-in per dispositivi NVIDIA Kubernetes o il driver NVIDIA DRA, che devono essere installati separatamente. Per ulteriori informazioni, consulta Gestisci i dispositivi GPU NVIDIA su Amazon EKS.

Oltre ai componenti AMI EKS standard, AL2023 NVIDIA ottimizzata per EKS AMIs include i seguenti componenti.

  • Driver NVIDIA

  • Driver in modalità utente NVIDIA CUDA

  • Toolkit per container NVIDIA

  • NVIDIA Fabric Manager

  • NVIDIA ha persistito

  • Driver NVIDIA IMEX

  • Gestore di sottorete NVIDIA NVLink

  • EFA minimal (modulo kernel e rdma-core)

Per i dettagli sul driver in modalità utente NVIDIA CUDA e sul CUDA runtime/libraries utilizzato nei contenitori delle applicazioni, consulta la documentazione NVIDIA. La versione CUDA mostrata nvidia-smi è la versione del driver in modalità utente NVIDIA CUDA installato sull'host, che deve essere compatibile con il CUDA utilizzato nei contenitori di applicazioni. runtime/libraries

Il kernel AL2023 NVIDIA 6.12 ottimizzato per EKS AMIs supporta le versioni 1.33 e successive di Kubernetes e la versione del driver NVIDIA 580 per tutte le versioni di Kubernetes. Il driver NVIDIA 580 è necessario per utilizzare CUDA 13+.

Consulta le AL2023 versioni ottimizzate per EKS su GitHub per i dettagli sulle versioni dei componenti incluse in. AMIs Consulta lo script di installazione di EKS AL2023 NVIDIA AMI e lo script di caricamento del kernel per i dettagli su come le AMI EKS configurano le dipendenze NVIDIA. Puoi trovare l'elenco dei pacchetti installati e delle relative versioni su un'istanza EC2 in esecuzione con il comando. dnf list installed

Quando si crea una creazione personalizzata AMIs con EKS ottimizzato AMIs come base, non è consigliato o supportato l'esecuzione di un aggiornamento del sistema operativo (ad es. dnf upgrade) o aggiorna uno qualsiasi dei pacchetti Kubernetes o GPU inclusi in EKS-Optimized, poiché ciò rischia di compromettere la compatibilità AMIs dei componenti. Se si esegue l'aggiornamento del sistema operativo o dei pacchetti inclusi nei pacchetti ottimizzati per EKS AMIs, si consiglia di eseguire test approfonditi in un ambiente di sviluppo o di gestione temporanea prima di passare alla produzione.

Quando si creano istanze GPU personalizzate AMIs , si consiglia di creare istanze personalizzate separate AMIs per ogni tipo di istanza, generazione e famiglia di istanze che verrà eseguita. La versione accelerata ottimizzata per EKS installa AMIs in modo selettivo driver e pacchetti in fase di esecuzione in base alla generazione e alla famiglia di istanze sottostanti. Per ulteriori informazioni, consulta gli script EKS AMI per l'installazione e il runtime.

EKS Bottlerocket NVIDIA AMIs

Quando si utilizza l'operatore GPU NVIDIA con Bottlerocket NVIDIA ottimizzato per EKS, è necessario disabilitare l'installazione da parte dell'operatore del driver AMIs, del toolkit e del plug-in del dispositivo poiché questi sono già inclusi in EKS. AMIs

Oltre ai componenti AMI EKS standard, il Bottlerocket NVIDIA AMIs ottimizzato per EKS include i seguenti componenti. Le dipendenze minime per EFA (modulo kernel e rdma-core) sono installate in tutte le varianti di Bottlerocket.

  • Plugin per dispositivi NVIDIA Kubernetes

  • Driver NVIDIA

  • Driver in modalità utente NVIDIA CUDA

  • Toolkit per container NVIDIA

  • NVIDIA Fabric Manager

  • NVIDIA ha persistito

  • Driver NVIDIA IMEX

  • Gestore di sottorete NVIDIA NVLink

  • Gestore NVIDIA MIG

Per i dettagli sul driver in modalità utente NVIDIA CUDA e sul CUDA runtime/libraries utilizzato nei contenitori delle applicazioni, consulta la documentazione NVIDIA. La versione CUDA mostrata nvidia-smi è la versione del driver in modalità utente NVIDIA CUDA installato sull'host, che deve essere compatibile con il CUDA utilizzato nei contenitori di applicazioni. runtime/libraries

Consulta le informazioni sulla versione di Bottlerocket nella documentazione di Bottlerocket per i dettagli sui pacchetti installati e sulle relative versioni. Il Bottlerocket NVIDIA ottimizzato per EKS AMIs supporta il kernel 6.12 per le versioni 1.33 e successive di Kubernetes e la versione del driver NVIDIA 580 per le versioni 1.34 e successive di Kubernetes. Il driver NVIDIA 580 è necessario per utilizzare CUDA 13+.

Neuron ottimizzato per EKS AMIs

Per i dettagli su come eseguire carichi di lavoro di addestramento e inferenza utilizzando Neuron con Amazon EKS, consulta i seguenti riferimenti:

Per trovare la versione più recente di Neuron ottimizzata per EKS, consulta e. AMIs Recupera le AMI Amazon Linux consigliate IDs Recupero degli ID AMI Bottlerocket consigliati

Quando usi Amazon Elastic Fabric Adaptor (EFA) con un dispositivo ottimizzato per EKS AL2023 o Bottlerocket Neuron AMIs, devi installare il plug-in del dispositivo EFA separatamente. Per ulteriori informazioni, consulta Esecuzione dei corsi di machine learning su Amazon EKS con Elastic Fabric Adapter.

EKS Neuron AL2023 AMIs

I AL2023 Neuron ottimizzati per EKS AMIs non includono il driver Neuron DRA, il plug-in del dispositivo Neuron Kubernetes o l'estensione di pianificazione Neuron Kubernetes e questi devono essere installati separatamente. Per ulteriori informazioni, consulta Gestisci i dispositivi Neuron su Amazon EKS.

Oltre ai componenti AMI EKS standard, il AL2023 Neuron ottimizzato per EKS AMIs include i seguenti componenti.

  • Driver Neuron () aws-neuronx-dkms

  • Strumenti per neuroni () aws-neuronx-tools

  • EFA minimal (modulo kernel e rdma-core)

Vedi lo script di installazione dell'AMI EKS AL2023 Neuron per i dettagli su come EKS AMIs configura le dipendenze Neuron. Consulta le AL2023 versioni ottimizzate per EKS su GitHub per vedere le versioni dei componenti incluse nelle AMI. Puoi trovare l'elenco dei pacchetti installati e delle relative versioni su un'istanza EC2 in esecuzione con il comando. dnf list installed

EKS Bottlerocket Neuron AMIs

Le varianti standard di Bottlerocket (aws-k8s) includono le dipendenze Neuron che vengono rilevate e caricate automaticamente durante l'esecuzione su istanze Inferentia o Trainium EC2. AWS

Il Bottlerocket ottimizzato per EKS AMIs non include il driver Neuron DRA, il plug-in del dispositivo Neuron Kubernetes o l'estensione di pianificazione Neuron Kubernetes e questi devono essere installati separatamente. Per ulteriori informazioni, consulta Gestisci i dispositivi Neuron su Amazon EKS.

Oltre ai componenti AMI EKS standard, il Bottlerocket Neuron AMIs ottimizzato per EKS include i seguenti componenti.

  • aws-neuronx-dkmsDriver Neuron ()

  • EFA minimal (modulo kernel e rdma-core)

Quando si utilizza Bottlerocket ottimizzato per EKS AMIs con istanze Neuron, è necessario configurare quanto segue nei dati utente di Bottlerocket. Questa impostazione consente al contenitore di assumere la proprietà del dispositivo Neuron montato in base ai valori e forniti nelle specifiche del carico di lavoro. runAsUser runAsGroup Per ulteriori informazioni sul supporto di Neuron in Bottlerocket, consultate il readme di Quickstart on EKS su. GitHub

[settings] [settings.kubernetes] device-ownership-from-security-context = true

Consulta il changelog del kit kernel Bottlerocket per informazioni sulla versione del driver Neuron inclusa nel Bottlerocket ottimizzato per EKS. AMIs