

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# AWS Deep-Learning-AMI-GPU PyTorch 2.4 (Ubuntu 22.04)
<a name="aws-deep-learning-ami-gpu-pytorch-2.4-ubuntu-22-04"></a>

Hilfe zu den ersten Schritten finden Sie unter[Erste Schritte mit DLAMI](getting-started.md).

#### AMI-Namensformat
<a name="name-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.4. \$1 \$1PATCH\$1VERSION\$1 (Ubuntu 22.04) \$1 \$1YYY-MM-DD\$1

#### Unterstützte EC2-Instances
<a name="instances-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ Weitere Informationen finden Sie unter [Wichtige Änderungen an DLAMI](important-changes.md).
+ Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.

#### Das AMI umfasst Folgendes:
<a name="contents-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ **Unterstützter AWS Dienst**: EC2
+ **Betriebssystem**: Ubuntu 22.04
+ **Rechenarchitektur**: x86
+ **Python**:/opt/conda/envs/pytorch/bin/python
+ **NVIDIA-Treiber**:
  + OS Nvidia-Treiber: 550.144.03
+ **NVIDIA 1.1-Stapel: CUDA12**
  + CUDA-, NCCL- und cuDDN-Installationspfad:/-12.4/ usr/local/cuda
  + **Standard-CUDA:** 12.4
    + PFADusr/local/cuda points to /usr/local/cuda/-12.4/
    + Die folgenden Umgebungsvariablen wurden aktualisiert:
      +  LD\$1LIBRARY\$1PATH soll/haben usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86\$164-linux/lib
      + PATH soll//haben usr/local/cuda/bin/:/usr/local/cuda/include
  + Die kompilierte System-NCCL-Version ist unter/usr/local/cuda/vorhanden: 2.21.5
  + PyTorch Kompilierte NCCL-Version aus der Conda-Umgebung: 2.20.5 PyTorch 
+  **Ort der NCCL-Tests:** 
  + all\$1reduce, all\$1gather und reduce\$1scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
  + Um NCCL-Tests auszuführen, wurde LD\$1LIBRARY\$1PATH bereits mit den erforderlichen Pfaden aktualisiert.
    + Häufig verwendete Dateien wurden bereits zu LD\$1LIBRARY\$1PATH hinzugefügt: PATHs 
      +  /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
  + LD\$1LIBRARY\$1PATH wurde mit CUDA-Versionspfaden aktualisiert
    +  /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86\$164-linux/lib
+ **EFA-Installationsprogramm:** 1.34.0
+ **Nvidia: GDRCopy** 2.4.1
+ **Nvidia-Transformer-Engine: v1.11.0**
+ **AWS OFI NCCL-Plugin**: wird als Teil des EFA Installer-AWS installiert
  + **Installationspfad:/wird zu LD\$1LIBRARY\$1PATH hinzugefügt**. opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib
  + **Testet den Pfad** für Ring, message\$1transfer:/opt/aws-ofi-nccl/tests
  + Hinweis: Das PyTorch Paket enthält auch das dynamisch verknüpfte AWS OFI-NCCL-Plugin als Conda-Paketpaket und PyTorch verwendet dieses aws-ofi-nccl-dlc Paket anstelle von System-OFI-NCCL. AWS 
+ **AWS CLI **v2 als aws2 und v1 als aws AWS CLI ****
+ **EBS-Volumetyp**: gp3
+ **Python-Version:** 3.11
+  **AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):** 
  +  **OSS Nvidia-Treiber:** 

    ```
    aws ssm get-parameter --region us-east-1 \
            --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \
            --query "Parameter.Value" \
            --output text
    ```
+  **AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):** 
  +  **OSS Nvidia-Treiber:** 

    ```
    aws ec2 describe-images --region us-east-1 \
        --owners amazon \
        --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
        --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
        --output text
    ```

#### Hinweise
<a name="notices-gpu-pytorch-2.4-ubuntu-22-04"></a>

**P5/P5e-Instanzen**
+ DeviceIndex ist für jede Variable eindeutig und muss eine nicht negative Ganzzahl sein NetworkCard, die unter dem Grenzwert von ENIs pro liegt. NetworkCard Auf P5 ist die Anzahl der ENIs pro NetworkCard 2, was bedeutet, dass die einzigen gültigen Werte für 0 oder 1 DeviceIndex sind. Im Folgenden finden Sie ein Beispiel für einen Befehl zum Starten einer EC2-P5-Instance mithilfe von awscli, der NetworkCardIndex von 0 bis 31 und DeviceIndex als 0 für die erste Schnittstelle und DeviceIndex als 1 für die restlichen 31 Schnittstellen angezeigt wird.

```
aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
```

#### Veröffentlichungsdatum: 2025-02-17
<a name="2025-02-17-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI-Name:** Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250216

##### Aktualisiert
<a name="w2aac25c13b7c11c13b5"></a>
+ Das NVIDIA Container Toolkit wurde von Version 1.17.3 auf Version 1.17.4 aktualisiert
  + [Weitere Informationen finden Sie auf der Seite mit den Versionshinweisen hier:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4)
  + In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. [Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD\$1LIBRARY\$1PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat)

#### Veröffentlichungsdatum: 2025-01-21
<a name="2025-01-21-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI-Name:** Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250119

##### Aktualisiert
<a name="w2aac25c13b7c11c15b5"></a>
+ [Der Nvidia-Treiber wurde von Version 550.127.05 auf 550.144.03 aktualisiert, um CVE-Probleme im NVIDIA GPU Display Driver Security Bulletin für Januar 2025 zu beheben.](https://nvidia.custhelp.com/app/answers/detail/a_id/5614)

#### Veröffentlichungsdatum: 18.11.2024
<a name="2024-11-18-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI-Name:** Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241116

##### Fixed
<a name="w2aac25c13b7c11c17b5"></a>
+ Aufgrund einer Änderung im Ubuntu-Kernel zur Behebung eines Fehlers in der KASLR-Funktionalität (Kernel Address Space Layout Randomization) können G4Dn/G5-Instances CUDA auf dem OSS-Nvidia-Treiber nicht ordnungsgemäß initialisieren. Um dieses Problem zu beheben, enthält dieses DLAMI Funktionen, die den proprietären Treiber für G4Dn- und G5-Instances dynamisch laden. Bitte rechnen Sie mit einer kurzen Initialisierungszeit für diesen Ladevorgang, um sicherzustellen, dass Ihre Instanzen ordnungsgemäß funktionieren.
  + Um den Status und den Zustand dieses Dienstes zu überprüfen, können Sie die folgenden Befehle verwenden:

```
sudo systemctl is-active dynamic_driver_load.service active
```

#### Veröffentlichungsdatum: 2024-10-16
<a name="2024-10-16-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI-Name**: Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241016

##### Hinzugefügt
<a name="w2aac25c13b7c11c19b5"></a>
+ [Nvidia TransformerEngine v1.11.0 zur Beschleunigung von Transformer-Modellen hinzugefügt (Weitere Informationen finden Sie unter Transformer- .html) https://docs.nvidia.com/deeplearning/ engine/user-guide/index](https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html)

#### Veröffentlichungsdatum: 2024-09-30
<a name="2024-09-30-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI-Name**: Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240929

##### Aktualisiert
<a name="w2aac25c13b7c11c21b5"></a>
+ [Das Nvidia Container Toolkit wurde von Version 1.16.1 auf 1.16.2 aktualisiert und die Sicherheitslücke CVE-2024-0133 behoben.](https://nvd.nist.gov/vuln/detail/CVE-2024-0133)

#### Veröffentlichungsdatum: 2024-09-26
<a name="2024-09-26-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI-Name**: Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240925

##### Hinzugefügt
<a name="w2aac25c13b7c11c23b5"></a>
+ Erste Version der Deep Learning AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) -Serie. Einschließlich einer Conda-Umgebung mit Pytorch, ergänzt durch den NVIDIA-Treiber R550, CUDA=12.4.1, CUDNN=8.9.7, NCCL=2.20.5 und EFA=1.34.0. PyTorch 