Verwenden Sie EKS-optimierte beschleunigte AMIs GPU-Instanzen - Amazon EKS

Unterstützung für die Verbesserung dieser Seite beitragen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Um zu diesem Benutzerhandbuch beizutragen, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie EKS-optimierte beschleunigte AMIs GPU-Instanzen

Amazon EKS unterstützt EKS-optimiertes Amazon Linux und AMIs Bottlerocket für GPU-Instances. Die EKS-optimierten Accelerated AMIs vereinfachen die Ausführung von KI- und ML-Workloads in EKS-Clustern, indem sie vorgefertigte, validierte Betriebssystem-Images für den beschleunigten Kubernetes-Stack bereitstellen. Zusätzlich zu den Kernkomponenten von Kubernetes, die im Standard EKS-Optimized enthalten sind, enthalten die EKS-optimierten Accelerated die Kernelmodule und Treiber AMIs, die für den Betrieb der NVIDIA-GPU- und EC2-Instances sowie der GPU G Inferentia- und Trainium P EC2-Instances in EKS-Clustern erforderlich AMIs sind. AWS

Die folgende Tabelle zeigt die unterstützten GPU-Instance-Typen für jede EKS-optimierte beschleunigte AMI-Variante. Die neuesten Updates der AMI-Varianten finden Sie in den EKS-optimierten AL2023 Versionen und Bottlerocket-Versionen unter GitHub .

EKS AMI-Variante EC2-Instance-Typen

AL2023 x86_64 NVIDIA

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, g7e, gr6, g6, g6e, g6f, gr6f, gr6f, g5, g4dn

AL2023 ARM NVIDIA

p6e-gb200, p6e-gb300, g5g

AL2023 x86_64 Neuron

inf1, inf2, trn1, trn2

Flaschenrakete x86_64 aws-k8s-nvidia

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, g7e, gr6, g6e, g6f, gr6f, gr6f, g5, g4dn

Flaschenrakete aarch64/arm64 aws-k8s-nvidia

g 5 g

Flaschenrakete x86_64 aws-k8s

inf1, inf2, trn1, trn2

EKS-optimiertes NVIDIA AMIs

Durch die Verwendung von EKS-optimiertem NVIDIA AMIs stimmen Sie der Cloud-Endbenutzer-Lizenzvereinbarung (EULA) von NVIDIA zu.

Die neueste EKS-optimierte NVIDIA-Version finden Sie unter und. AMIs Rufen Sie das empfohlene Amazon Linux AMI ab IDs Empfohlene Bottlerocket-AMI-IDs abrufen

Wenn Sie Amazon Elastic Fabric Adaptor (EFA) mit EKS-optimiertem NVIDIA AL2023 oder Bottlerocket NVIDIA verwenden AMIs, müssen Sie das EFA-Geräte-Plugin separat installieren. Weitere Informationen finden Sie unter Ausführung von Machine-Learning-Trainings in Amazon EKS mit Elastic Fabric Adapter.

AL2023 EKS NVIDIA AMIs

Wenn Sie den NVIDIA-GPU-Operator mit dem EKS-optimierten AL2023 NVIDIA verwenden AMIs, müssen Sie die Installation des Treibers und des Toolkits durch den Operator deaktivieren, da diese bereits im EKS enthalten sind. AMIs Die EKS-optimierten AL2023 NVIDIA-Geräte enthalten AMIs weder das NVIDIA Kubernetes-Geräte-Plugin noch den NVIDIA-DRA-Treiber, und diese müssen separat installiert werden. Weitere Informationen finden Sie unter NVIDIA-GPU-Geräte auf Amazon EKS verwalten.

Zusätzlich zu den standardmäßigen EKS AMI-Komponenten AMIs umfasst das EKS-optimierte AL2023 NVIDIA die folgenden Komponenten.

  • NVIDIA-Treiber

  • NVIDIA CUDA-Benutzermodus-Treiber

  • NVIDIA-Container-Toolkit

  • NVIDIA-Fabric-Manager

  • NVIDIA blieb hartnäckig

  • NVIDIA IMEX-Treiber

  • NVLink NVIDIA-Subnetzmanager

  • EFA minimal (Kernelmodul und RDMA-Core)

Einzelheiten zum NVIDIA CUDA-Benutzermodus-Treiber und zum CUDA, der in Anwendungscontainern runtime/libraries verwendet wird, finden Sie in der NVIDIA-Dokumentation. Bei der von angezeigten CUDA-Version nvidia-smi handelt es sich um die Version des NVIDIA CUDA-Benutzermodus-Treibers, der auf dem Host installiert ist und mit dem in Anwendungscontainern verwendeten CUDA runtime/libraries kompatibel sein muss.

Der EKS-optimierte AL2023 AMIs NVIDIA-Support-Kernel 6.12 für Kubernetes-Versionen 1.33 und höher und die NVIDIA-Treiberversion 580 für alle Kubernetes-Versionen. Der NVIDIA 580-Treiber ist erforderlich, um CUDA 13+ zu verwenden.

Einzelheiten zu den AL2023 Komponentenversionen, die im GitHub enthalten sind, finden Sie in den EKS-optimierten Versionen unter. AMIs Einzelheiten zur Konfiguration der AL2023 NVIDIA-Abhängigkeiten durch die EKS-AMIs finden Sie im EKS NVIDIA AMI-Installationsskript und im Kernelladeskript. Sie finden die Liste der installierten Pakete und ihrer Versionen auf einer laufenden EC2-Instance mit dem dnf list installed Befehl.

Bei der Erstellung benutzerdefinierter Systeme AMIs mit EKS-Optimized AMIs als Basis wird die Ausführung eines Betriebssystem-Upgrades nicht empfohlen oder unterstützt (z. dnf upgrade) oder eines der Kubernetes- oder GPU-Pakete aktualisieren, die im EKS-optimierten Paket enthalten sind AMIs, da dadurch die Komponentenkompatibilität beeinträchtigt werden kann. Wenn Sie das Betriebssystem oder die Pakete, die in EKS-Optimized enthalten sind, aktualisieren, wird empfohlen AMIs, vor der Bereitstellung in der Produktion gründliche Tests in einer Entwicklungs- oder Staging-Umgebung durchzuführen.

Bei der Erstellung benutzerdefinierter GPU-Instanzen empfiehlt es sich, AMIs AMIs für jeden Instance-Typ, jede Generation und Familie, die Sie ausführen möchten, separate benutzerdefinierte Instances zu erstellen. Die für EKS optimierten beschleunigten AMIs Systeme installieren Treiber und Pakete selektiv zur Laufzeit, basierend auf der Generation und Familie des zugrunde liegenden Instance-Typs. Weitere Informationen finden Sie in den EKS AMI-Skripts für Installation und Laufzeit.

EKS Bottlerocket NVIDIA AMIs

Wenn Sie den NVIDIA-GPU-Operator mit dem EKS-optimierten Bottlerocket NVIDIA verwenden AMIs, müssen Sie die Operator-Installation des Treibers, des Toolkits und des Geräte-Plugins deaktivieren, da diese bereits im EKS enthalten sind. AMIs

Zusätzlich zu den standardmäßigen EKS AMI-Komponenten umfasst das EKS-optimierte Bottlerocket NVIDIA AMIs die folgenden Komponenten. Die minimalen Abhängigkeiten für EFA (Kernelmodul und RDMA-Core) sind in allen Bottlerocket-Varianten installiert.

  • NVIDIA Kubernetes-Geräte-Plugin

  • NVIDIA-Treiber

  • NVIDIA CUDA-Benutzermodus-Treiber

  • NVIDIA-Container-Toolkit

  • NVIDIA-Fabric-Manager

  • NVIDIA blieb hartnäckig

  • NVIDIA IMEX-Treiber

  • NVLink NVIDIA-Subnetzmanager

  • NVIDIA MIG-Manager

Einzelheiten zum NVIDIA CUDA-Benutzermodus-Treiber und zum in Anwendungscontainern runtime/libraries verwendeten CUDA finden Sie in der NVIDIA-Dokumentation. Bei der von angezeigten CUDA-Version nvidia-smi handelt es sich um die Version des NVIDIA CUDA-Benutzermodus-Treibers, der auf dem Host installiert ist und mit dem in Anwendungscontainern verwendeten CUDA runtime/libraries kompatibel sein muss.

Einzelheiten zu den installierten Paketen und ihren Versionen finden Sie in den Bottlerocket-Versionsinformationen in der Bottlerocket-Dokumentation. Das EKS-optimierte Bottlerocket NVIDIA AMIs unterstützt Kernel 6.12 für Kubernetes-Versionen 1.33 und höher und die NVIDIA-Treiberversion 580 für Kubernetes-Versionen 1.34 und höher. Für die Verwendung von CUDA 13+ ist der NVIDIA 580-Treiber erforderlich.

EKS-optimiertes Neuron AMIs

Einzelheiten zur Ausführung von Trainings- und Inferenz-Workloads mit Neuron mit Amazon EKS finden Sie in den folgenden Referenzen:

Das neueste EKS-optimierte Neuron finden Sie unter und. AMIs Rufen Sie das empfohlene Amazon Linux AMI ab IDs Empfohlene Bottlerocket-AMI-IDs abrufen

Wenn Sie Amazon Elastic Fabric Adaptor (EFA) mit dem EKS-optimierten Neuron AL2023 oder dem Bottlerocket Neuron verwenden AMIs, müssen Sie das EFA-Geräte-Plugin separat installieren. Weitere Informationen finden Sie unter Ausführung von Machine-Learning-Trainings in Amazon EKS mit Elastic Fabric Adapter.

AL2023 EKS Neuron AMIs

Das EKS-optimierte AL2023 Neuron beinhaltet AMIs nicht den Neuron DRA-Treiber, das Neuron Kubernetes-Geräte-Plugin oder die Neuron Kubernetes Scheduler-Erweiterung, und diese müssen separat installiert werden. Weitere Informationen finden Sie unter Neuron-Geräte auf Amazon EKS verwalten.

Zusätzlich zu den standardmäßigen EKS AMI-Komponenten AMIs umfasst das EKS-optimierte AL2023 Neuron die folgenden Komponenten.

  • Neuronentreiber () aws-neuronx-dkms

  • Werkzeuge für Neuronen () aws-neuronx-tools

  • EFA minimal (Kernelmodul und RDMA-Core)

Einzelheiten zur AMIs Konfiguration der AL2023 Neuron-Abhängigkeiten durch EKS Neuron AMI finden Sie im EKS Neuron AMI-Installationsskript. Die in den AMIs enthaltenen AL2023 Komponentenversionen finden Sie GitHub in den EKS-optimierten Versionen unter. Die Liste der installierten Pakete und ihrer Versionen auf einer laufenden EC2-Instance finden Sie mit dem Befehl. dnf list installed

EKS Bottlerocket Neuron AMIs

Die Standard-Bottlerocket-Varianten (aws-k8s) beinhalten die Neuron-Abhängigkeiten, die automatisch erkannt und geladen werden, wenn sie auf Inferentia- oder Trainium EC2-Instances ausgeführt werden. AWS

Die EKS-optimierten Bottlerocket enthalten weder den Neuron DRA-Treiber, das Neuron AMIs Kubernetes-Geräte-Plugin noch die Neuron Kubernetes Scheduler-Erweiterung, und diese müssen separat installiert werden. Weitere Informationen finden Sie unter Neuron-Geräte auf Amazon EKS verwalten.

Zusätzlich zu den standardmäßigen EKS AMI-Komponenten umfasst das EKS-optimierte Bottlerocket Neuron AMIs die folgenden Komponenten.

  • Neuronentreiber () aws-neuronx-dkms

  • EFA minimal (Kernelmodul und RDMA-Core)

Wenn Sie das EKS-optimierte Bottlerocket AMIs mit Neuron-Instances verwenden, muss Folgendes in den Bottlerocket-Benutzerdaten konfiguriert werden. Diese Einstellung ermöglicht es dem Container, den Besitz des bereitgestellten Neuron-Geräts auf der Grundlage der in der Workload-Spezifikation angegebenen Werte und zu übernehmen. runAsUser runAsGroup Weitere Informationen zur Neuron-Unterstützung in Bottlerocket finden Sie in der Readme-Datei für Schnellstart auf EKS unter. GitHub

[settings] [settings.kubernetes] device-ownership-from-security-context = true

Informationen zur Neuron-Treiberversion, die im EKS-optimierten Bottlerocket enthalten ist, finden Sie im Bottlerocket-Kernel-Kit-Changelog. AMIs