Option 1: installieren Driver-only Option 2: Das CUDA-Toolkit installieren

Öffentliche NVIDIA-Treiber installieren

Wenn die unter beschriebenen AWS Marketplace AMIs Verwenden Sie AMIs, die NVIDIA-Treiber enthalten nicht zu Ihrem Anwendungsfall passen, können Sie die öffentlichen Treiber installieren und Ihre eigene Lizenz mitbringen. Es gibt die folgenden Installationsoptionen:

Option 1: installieren Driver-only
Option 2: Installation mit dem CUDA-Toolkit (empfohlen für Linux-Distributionen)

P6-B200 und Überlegungen P6-B300 zum Instanztyp

Die P6-B300 Plattformen P6-B200 und sind insofern einzigartig, als sie der Instanz Mellanox ConnectX-Netzwerkschnittstellenkarten (NICs) als PCIe-Geräte zur Verfügung stellen. Diese NICs fungieren nicht als typische Netzwerkschnittstellen, sondern als NVSwitch-Bridges, die einen Steuerpfad für die Initialisierung und Konfiguration von NVFabric, der NVLink-Topologie der GPU-Verbindung, bereitstellen.

Um das System vollständig zu initialisieren, muss der NVIDIA Fabric Manager NVFabric konfigurieren und die NVSwitch-Topologie einrichten. Dadurch können InfiniBand Kernelmodule mit den Mellanox ConnectX-NICs kommunizieren.

NVIDIA Fabric Manager ist im CUDA-Toolkit enthalten. Wir empfehlen Option 2: Installation mit dem CUDA-Toolkit für diesen Instance-Typ.

Option 1: installieren Driver-only

Um einen bestimmten Treiber zu installieren, melden Sie sich bei Ihrer Instance an und laden Sie den öffentlichen 64-Bit-NVIDIA-Treiber für den Instance-Typ von herunter http://www.nvidia.com/Download/Find.aspx. Verwenden Sie für Produkttyp Produktserie und Produkt die Optionen in der folgenden Tabelle.

Folgen Sie anschließend den Anweisungen zur Installation des lokalen Repositorys im NVIDIA-Treiberinstallationshandbuch.

Anmerkung

P6-B200 und P6-B300 Instanztypen erfordern die Installation und Konfiguration zusätzlicher Pakete, die im NVIDIA CUDA Toolkit enthalten sind. Weitere Informationen finden Sie in den Anweisungen für Ihre Linux-Distribution in Option 2: Installation mit dem CUDA-Toolkit.

Instance	Produkttyp	Produktserie	Produkt	Minimale Treiberversion
G3	Tesla	M-Class	M60	--
G4dn	Tesla	T-Series	T4	--
G5	Tesla	A-Series	A10	470.00 oder höher
G5g¹	Tesla	T-Series	T4G	470.82.01 oder höher
G6	Tesla	L-Series	L4	525.0 oder höher
G6e	Tesla	L-Series	L40S	535.0 oder höher
Gr6	Tesla	L-Series	L4	525.0 oder höher
G7e	Tesla	RTX-Serie	RTX PRO 6000 Blackwell	575.0 oder später
P3	Tesla	V-Series	V100	--
P4d	Tesla	A-Series	A100	--
P4de	Tesla	A-Series	A100	--
P5	Tesla	H-Series	H100	530 oder höher
P5e	Tesla	H-Series	H200	550 oder höher
P5en	Tesla	H-Series	H200	550 oder höher
P6-B200²	Tesla	HGX-Series	B200	570 oder später
P6e-GB200	Tesla	HGX-Series	B200	570 oder später
P6-B300²	Tesla	HGX-Series	B300	580 oder später

¹ Das Betriebssystem für G5g-Instances ist Linux aarch64.

² Für P6-B200 P6-B300 Instance-Typen gibt es zusätzliche Installationsanforderungen für die Konfiguration von NVIDIA Fabric Manager.

Option 2: Installation mit dem CUDA-Toolkit

Die Installationsanweisungen variieren je nach Betriebssystem geringfügig. Folgen Sie den Anweisungen für das Betriebssystem Ihrer Instance, um öffentliche Treiber mit dem NVIDIA-CUDA-Toolkit auf Ihrer Instance zu installieren. Folgen Sie für Instance-Betriebssysteme, die hier nicht aufgeführt sind, den Anweisungen für Ihr Betriebssystem und Ihre Instance-Typ-Architektur auf der NVIDIA-Developer-Website. Weitere Informationen finden Sie unter CUDA-Toolkit-Downloads.

Informationen zur Instance-Typ-Architektur oder anderen Spezifikationen finden Sie in den Spezifikationen für beschleunigte Datenverarbeitung in der Amazon-EC2-Referenz zu Instance-Typen.

Dieser Abschnitt behandelt die Installation eines NVIDIA-CUDA-Toolkits auf einer Amazon-Linux-2023-Instance. Die Befehlsbeispiele in diesem Abschnitt basieren auf einer x86_64-Architektur.

arm64-sbsa-Befehle finden Sie unter CUDA-Toolkit-Downloads. Wählen Sie die Optionen aus, die für Ihre Distribution gelten. Anweisungen werden angezeigt, nachdem Sie Ihre endgültige Auswahl getroffen haben.

Voraussetzung

Führen Sie vor der Installation des Toolkits und der Treiber den folgenden Befehl aus, um sicherzustellen, dass Sie über die richtige Version der Kernel-Header und Entwicklungspakete verfügen.


[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y

Toolkit und Treiber herunterladen

Wählen Sie den Installationstyp aus, den Sie für Ihre Instance verwenden möchten, und folgen Sie den entsprechenden Schritten.

Die verbleibenden Schritte sind für die lokale RPM-Installation und die RPM-Netzwerkinstallation identisch.

Die Installation des CUDA-Toolkits abschließen


[ec2-user ~]$ sudo dnf clean all
[ec2-user ~]$ sudo dnf install cuda-toolkit -y

Die offene Kernel-Modulvariante des Treibers installieren


[ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y

GPUDirect Storage und Fabric Manager installieren


[ec2-user ~]$ sudo dnf install nvidia-gds -y
[ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y

Fabric Manager und Treiberpersistenz aktivieren


[ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager
[ec2-user ~]$ sudo systemctl enable nvidia-persistenced

(P6-B200 und P6-B300 nur) Diese Instance-Typen erfordern die Installation und Konfiguration zusätzlicher Pakete, die im NVIDIA CUDA Toolkit enthalten sind.
1. Installieren Sie den NVIDIA Link Subnet Manager und ibstat.
```
[ec2-user ~]$ sudo dnf install nvlink5
```
2. Aktivieren Sie das automatische Laden des Infiniband-Moduls beim Start.
```
[ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
```
Starten Sie die Instance neu.
```
[ec2-user ~]$ sudo reboot
```

Dieser Abschnitt behandelt die Installation eines NVIDIA-CUDA-Toolkits auf einer Ubuntu-24.04-Instance. Die Befehlsbeispiele in diesem Abschnitt basieren auf einer x86_64-Architektur.

Voraussetzung

Führen Sie vor der Installation des Toolkits und der Treiber den folgenden Befehl aus, um sicherzustellen, dass Sie über die richtige Version der Kernel-Header und Entwicklungspakete verfügen.


$ apt install linux-headers-$(uname -r)

Toolkit und Treiber herunterladen

Wählen Sie den Installationstyp aus, den Sie für Ihre Instance verwenden möchten, und folgen Sie den entsprechenden Schritten.

Die verbleibenden Schritte sind für die lokale Installation und die Netzwerkinstallation identisch.

Die Installation des CUDA-Toolkits abschließen


$ sudo apt update
$ sudo apt install cuda-toolkit -y

Die offene Kernel-Modulvariante des Treibers installieren
```
$ sudo apt install nvidia-open -y
```

GPUDirect Storage und Fabric Manager installieren


$ sudo apt install nvidia-gds -y
$ sudo apt install nvidia-fabricmanager -y

Fabric Manager und Treiberpersistenz aktivieren


$ sudo systemctl enable nvidia-fabricmanager
$ sudo systemctl enable nvidia-persistenced

(P6-B200 und P6-B300 nur) Diese Instanztypen erfordern die Installation und Konfiguration zusätzlicher Pakete, die im NVIDIA CUDA Toolkit enthalten sind.
1. Installieren Sie den neuesten InfiniBand-specific Gerätetreiber und die neuesten Diagnoseprogramme.
```
$ sudo apt install linux-modules-extra-$(uname -r) -y
$ sudo apt install infiniband-diags -y
```
2. Installieren Sie den NVIDIA Link Subnet Manager.
```
$ sudo apt install nvlsm -y
```
Starten Sie die Instance neu.
```
sudo reboot
```

Aktualisieren Sie Ihren Pfad und fügen Sie die folgende Umgebungsvariable hinzu.


$ export PATH=${PATH}:/usr/local/cuda-13.0/bin
$ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Zur Installation des NVIDIA-Treibers unter Windows führen Sie die folgenden Schritte aus:

Öffnen Sie das Verzeichnis, in das Sie den Treiber heruntergeladen haben, und starten Sie die Installationsdatei. Befolgen Sie die Anweisungen, um den Treiber zu installieren, und starten Sie die Instance neu, wenn Sie dazu aufgefordert werden.
Deaktivieren Sie im Geräte-Manager den Displayadapter mit dem Namen Microsoft Basic Display Adapter, der mit einem Warnsymbol gekennzeichnet ist. Installieren Sie die folgenden Windows-Features: Media Foundation und Quality Windows Audio Video Experience.

Wichtig
Deaktivieren Sie nicht den Displayadapter mit dem Namen Microsoft Remote Display Adapter. Wenn der Microsoft Remote Display Adapter deaktiviert ist, wird Ihre Verbindung möglicherweise unterbrochen und Versuche, nach dem Neustart eine Verbindung zur Instance herzustellen, schlagen möglicherweise fehl.
Prüfen Sie im Geräte-Manager, ob die GPU korrekt funktioniert.
Führen Sie die Optimierungsschritte unter Optimieren der GPU-Einstellungen in Amazon-EC2-Instances aus, um die beste Leistung für Ihre GPU zu erzielen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

AMIs mit NVIDIA-Treibern

GRID-Treiber installieren

Öffentliche NVIDIA-Treiber installieren

P6-B200 und Überlegungen P6-B300 zum Instanztyp

Option 1: installieren Driver-only

Anmerkung

Option 2: Installation mit dem CUDA-Toolkit

Voraussetzung

Toolkit und Treiber herunterladen

Voraussetzung

Toolkit und Treiber herunterladen

Wichtig