Unterstützung für die Verbesserung dieser Seite beitragen
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Um zu diesem Benutzerhandbuch beizutragen, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden Sie EKS-optimierte beschleunigte AMIs GPU-Instanzen
Amazon EKS unterstützt EKS-optimiertes Amazon Linux und AMIs Bottlerocket für GPU-Instances. Die EKS-optimierten Accelerated AMIs vereinfachen die Ausführung von KI- und ML-Workloads in EKS-Clustern, indem sie vorgefertigte, validierte Betriebssystem-Images für den beschleunigten Kubernetes-Stack bereitstellen. Zusätzlich zu den Kernkomponenten von Kubernetes, die im Standard EKS-Optimized enthalten sind, enthalten die EKS-optimierten Accelerated die Kernelmodule und Treiber AMIs, die für den Betrieb der NVIDIA-GPU- und EC2-Instances sowie der GPU G Inferentia- und Trainium P EC2-Instances in EKS-Clustern erforderlich AMIs sind. AWS
Die folgende Tabelle zeigt die unterstützten GPU-Instance-Typen für jede EKS-optimierte beschleunigte AMI-Variante. Die neuesten Updates der AMI-Varianten finden Sie in den EKS-optimierten AL2023 Versionen
| EKS AMI-Variante | EC2-Instance-Typen |
|---|---|
|
AL2023 x86_64 NVIDIA |
p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, g7e, gr6, g6, g6e, g6f, gr6f, gr6f, g5, g4dn |
|
AL2023 ARM NVIDIA |
p6e-gb200, p6e-gb300, g5g |
|
AL2023 x86_64 Neuron |
inf1, inf2, trn1, trn2 |
|
Flaschenrakete x86_64 aws-k8s-nvidia |
p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, g7e, gr6, g6e, g6f, gr6f, gr6f, g5, g4dn |
|
Flaschenrakete aarch64/arm64 aws-k8s-nvidia |
g 5 g |
|
Flaschenrakete x86_64 aws-k8s |
inf1, inf2, trn1, trn2 |
EKS-optimiertes NVIDIA AMIs
Durch die Verwendung von EKS-optimiertem NVIDIA AMIs stimmen Sie der Cloud-Endbenutzer-Lizenzvereinbarung (EULA) von NVIDIA
Die neueste EKS-optimierte NVIDIA-Version finden Sie unter und. AMIs Rufen Sie das empfohlene Amazon Linux AMI ab IDs Empfohlene Bottlerocket-AMI-IDs abrufen
Wenn Sie Amazon Elastic Fabric Adaptor (EFA) mit EKS-optimiertem NVIDIA AL2023 oder Bottlerocket NVIDIA verwenden AMIs, müssen Sie das EFA-Geräte-Plugin separat installieren. Weitere Informationen finden Sie unter Ausführung von Machine-Learning-Trainings in Amazon EKS mit Elastic Fabric Adapter.
AL2023 EKS NVIDIA AMIs
Wenn Sie den NVIDIA-GPU-Operator
Zusätzlich zu den standardmäßigen EKS AMI-Komponenten AMIs umfasst das EKS-optimierte AL2023 NVIDIA die folgenden Komponenten.
-
NVIDIA-Treiber
-
NVIDIA CUDA-Benutzermodus-Treiber
-
NVIDIA-Container-Toolkit
-
NVIDIA-Fabric-Manager
-
NVIDIA blieb hartnäckig
-
NVIDIA IMEX-Treiber
-
NVLink NVIDIA-Subnetzmanager
-
EFA minimal (Kernelmodul und RDMA-Core)
Einzelheiten zum NVIDIA CUDA-Benutzermodus-Treiber und zum CUDA, der in Anwendungscontainern runtime/libraries verwendet wird, finden Sie in der NVIDIA-Dokumentation.nvidia-smi handelt es sich um die Version des NVIDIA CUDA-Benutzermodus-Treibers, der auf dem Host installiert ist und mit dem in Anwendungscontainern verwendeten CUDA runtime/libraries kompatibel sein muss.
Der EKS-optimierte AL2023 AMIs NVIDIA-Support-Kernel 6.12 für Kubernetes-Versionen 1.33 und höher und die NVIDIA-Treiberversion 580 für alle Kubernetes-Versionen. Der NVIDIA 580-Treiber ist erforderlich, um CUDA 13+ zu verwenden.
Einzelheiten zu den AL2023 Komponentenversionendnf list installed Befehl.
Bei der Erstellung benutzerdefinierter Systeme AMIs mit EKS-Optimized AMIs als Basis wird die Ausführung eines Betriebssystem-Upgrades nicht empfohlen oder unterstützt (z. dnf upgrade) oder eines der Kubernetes- oder GPU-Pakete aktualisieren, die im EKS-optimierten Paket enthalten sind AMIs, da dadurch die Komponentenkompatibilität beeinträchtigt werden kann. Wenn Sie das Betriebssystem oder die Pakete, die in EKS-Optimized enthalten sind, aktualisieren, wird empfohlen AMIs, vor der Bereitstellung in der Produktion gründliche Tests in einer Entwicklungs- oder Staging-Umgebung durchzuführen.
Bei der Erstellung benutzerdefinierter GPU-Instanzen empfiehlt es sich, AMIs AMIs für jeden Instance-Typ, jede Generation und Familie, die Sie ausführen möchten, separate benutzerdefinierte Instances zu erstellen. Die für EKS optimierten beschleunigten AMIs Systeme installieren Treiber und Pakete selektiv zur Laufzeit, basierend auf der Generation und Familie des zugrunde liegenden Instance-Typs. Weitere Informationen finden Sie in den EKS AMI-Skripts für Installation
EKS Bottlerocket NVIDIA AMIs
Wenn Sie den NVIDIA-GPU-Operator
Zusätzlich zu den standardmäßigen EKS AMI-Komponenten umfasst das EKS-optimierte Bottlerocket NVIDIA AMIs die folgenden Komponenten. Die minimalen Abhängigkeiten für EFA (Kernelmodul und RDMA-Core) sind in allen Bottlerocket-Varianten installiert.
-
NVIDIA Kubernetes-Geräte-Plugin
-
NVIDIA-Treiber
-
NVIDIA CUDA-Benutzermodus-Treiber
-
NVIDIA-Container-Toolkit
-
NVIDIA-Fabric-Manager
-
NVIDIA blieb hartnäckig
-
NVIDIA IMEX-Treiber
-
NVLink NVIDIA-Subnetzmanager
-
NVIDIA MIG-Manager
Einzelheiten zum NVIDIA CUDA-Benutzermodus-Treiber und zum in Anwendungscontainern runtime/libraries verwendeten CUDA finden Sie in der NVIDIA-Dokumentationnvidia-smi handelt es sich um die Version des NVIDIA CUDA-Benutzermodus-Treibers, der auf dem Host installiert ist und mit dem in Anwendungscontainern verwendeten CUDA runtime/libraries kompatibel sein muss.
Einzelheiten zu den installierten Paketen und ihren Versionen finden Sie in den Bottlerocket-Versionsinformationen in der Bottlerocket-Dokumentation
EKS-optimiertes Neuron AMIs
Einzelheiten zur Ausführung von Trainings- und Inferenz-Workloads mit Neuron mit Amazon EKS finden Sie in den folgenden Referenzen:
-
Container — Kubernetes — Erste Schritte
in der Neuron-Dokumentation AWS -
Schulungsbeispiel
in AWS Neuron EKS Samples auf GitHub -
Bereitstellen von ML-Inferenz-Workloads mit Inferentia auf Amazon EKS
Das neueste EKS-optimierte Neuron finden Sie unter und. AMIs Rufen Sie das empfohlene Amazon Linux AMI ab IDs Empfohlene Bottlerocket-AMI-IDs abrufen
Wenn Sie Amazon Elastic Fabric Adaptor (EFA) mit dem EKS-optimierten Neuron AL2023 oder dem Bottlerocket Neuron verwenden AMIs, müssen Sie das EFA-Geräte-Plugin separat installieren. Weitere Informationen finden Sie unter Ausführung von Machine-Learning-Trainings in Amazon EKS mit Elastic Fabric Adapter.
AL2023 EKS Neuron AMIs
Das EKS-optimierte AL2023 Neuron beinhaltet AMIs nicht den Neuron DRA-Treiber, das Neuron Kubernetes-Geräte-Plugin oder die Neuron Kubernetes Scheduler-Erweiterung, und diese müssen separat installiert
Zusätzlich zu den standardmäßigen EKS AMI-Komponenten AMIs umfasst das EKS-optimierte AL2023 Neuron die folgenden Komponenten.
-
Neuronentreiber () aws-neuronx-dkms
-
Werkzeuge für Neuronen () aws-neuronx-tools
-
EFA minimal (Kernelmodul und RDMA-Core)
Einzelheiten zur AMIs Konfiguration der AL2023 Neuron-Abhängigkeiten durch EKS Neuron AMI finden Sie im EKS Neuron AMI-Installationsskriptdnf list installed
EKS Bottlerocket Neuron AMIs
Die Standard-Bottlerocket-Varianten (aws-k8s) beinhalten die Neuron-Abhängigkeiten, die automatisch erkannt und geladen werden, wenn sie auf Inferentia- oder Trainium EC2-Instances ausgeführt werden. AWS
Die EKS-optimierten Bottlerocket enthalten weder den Neuron DRA-Treiber, das Neuron AMIs Kubernetes-Geräte-Plugin noch die Neuron Kubernetes Scheduler-Erweiterung, und diese müssen separat installiert werden.
Zusätzlich zu den standardmäßigen EKS AMI-Komponenten umfasst das EKS-optimierte Bottlerocket Neuron AMIs die folgenden Komponenten.
-
Neuronentreiber () aws-neuronx-dkms
-
EFA minimal (Kernelmodul und RDMA-Core)
Wenn Sie das EKS-optimierte Bottlerocket AMIs mit Neuron-Instances verwenden, muss Folgendes in den Bottlerocket-Benutzerdaten konfiguriert werden. Diese Einstellung ermöglicht es dem Container, den Besitz des bereitgestellten Neuron-Geräts auf der Grundlage der in der Workload-Spezifikation angegebenen Werte und zu übernehmen. runAsUser runAsGroup Weitere Informationen zur Neuron-Unterstützung in Bottlerocket finden Sie in der Readme-Datei für Schnellstart
[settings] [settings.kubernetes] device-ownership-from-security-context = true
Informationen zur Neuron-Treiberversion, die im EKS-optimierten Bottlerocket enthalten ist, finden Sie im Bottlerocket-Kernel-Kit-Changelog