

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Ausführung verteilter Trainingsworkloads mit aktiviertem Slurm HyperPod
<a name="sagemaker-hyperpod-run-jobs-slurm-distributed-training-workload"></a>

SageMaker HyperPod ist auf das Training großer Sprachmodelle (LLMs) und Grundlagenmodelle (FMs) spezialisiert. Diese Workloads erfordern häufig den Einsatz mehrerer Parallelitätstechniken und optimierter Abläufe für die ML-Infrastruktur und -Ressourcen. Mithilfe von SageMaker HyperPod KI können Sie die folgenden verteilten SageMaker KI-Schulungs-Frameworks verwenden:
+ Die [SageMaker AI-Bibliothek für verteilte Datenparallelität (SMDDP)](data-parallel.md), die kollektive Kommunikationsoperationen bietet, die optimiert sind für. AWS
+ Die [Bibliothek für SageMaker KI-Modellparallelismus (SMP)](model-parallel-v2.md), die verschiedene Techniken zur Modellparallelität implementiert.

**Topics**
+ [Verwenden von SMDDP auf einem SageMaker HyperPod](#sagemaker-hyperpod-run-jobs-slurm-distributed-training-workload-smddp)
+ [SMP auf einem Cluster verwenden SageMaker HyperPod](#sagemaker-hyperpod-run-jobs-slurm-distributed-training-workload-smp)

## Verwenden von SMDDP auf einem SageMaker HyperPod
<a name="sagemaker-hyperpod-run-jobs-slurm-distributed-training-workload-smddp"></a>

Die [SMDDP-Bibliothek](data-parallel.md) ist eine kollektive Kommunikationsbibliothek, die die Rechenleistung von parallelem Training mit verteilten Daten verbessert. Die SMDDP-Bibliothek funktioniert mit den folgenden verteilten Trainings-Frameworks (Open Source):
+ [PyTorchparallel verteilte Daten (DDP)](https://pytorch.org/docs/stable/notes/ddp.html)
+ [PyTorch vollständig vernetzte Datenparallelität (FSDP)](https://pytorch.org/docs/stable/fsdp.html)
+ [DeepSpeed](https://github.com/microsoft/DeepSpeed)
+ [Megatron-DeepSpeed](https://github.com/microsoft/Megatron-DeepSpeed)

Die SMDDP-Bibliothek deckt den Kommunikationsaufwand der wichtigsten kollektiven Kommunikationsoperationen ab, indem sie Folgendes für anbietet. SageMaker HyperPod
+ Die Bibliothek bietet `AllGather` optimierte Angebote für. AWS`AllGather`ist eine wichtige Operation, die beim Sharded Data Parallel Training verwendet wird. Dabei handelt es sich um eine speichereffiziente Technik zur Datenparallelität, die von gängigen Bibliotheken angeboten wird. Dazu gehören die Bibliothek SageMaker AI Model Parallelism (SMP), DeepSpeed Zero Redundancy Optimizer (ZerO) und Fully Sharded Data Parallelism (FSDP). PyTorch 
+ Die Bibliothek ermöglicht eine optimierte Kommunikation von Knoten zu Knoten, indem sie die Netzwerkinfrastruktur und die KI-ML-Instanztopologie vollständig nutzt. AWS SageMaker 

**So führen Sie Beispiele für datenparallele Trainingsjobs aus**

Entdecken Sie die folgenden verteilten Trainingsbeispiele, die Datenparallelitätstechniken unter Verwendung der SMDDP-Bibliothek implementieren.
+ [https://github.com/aws-samples/awsome-distributed-training/tree/main/3.test_cases/12.SM-dataparallel-FSDP](https://github.com/aws-samples/awsome-distributed-training/tree/main/3.test_cases/12.SM-dataparallel-FSDP)
+ [https://github.com/aws-samples/awsome-distributed-training/tree/main/3.test_cases/13.SM-dataparallel-deepspeed](https://github.com/aws-samples/awsome-distributed-training/tree/main/3.test_cases/13.SM-dataparallel-deepspeed)

**Um eine Umgebung für die Verwendung der SMDDP-Bibliothek einzurichten SageMaker HyperPod**

Im Folgenden sind die Anforderungen an die Trainingsumgebung für die Verwendung der SMDDP-Bibliothek aufgeführt. SageMaker HyperPod
+ PyTorch v2.0.1 und höher
+ CUDA v11.8 und höher
+ `libstdc++`-Laufzeitversion 3 oder höher
+ Python v3.10.x oder höher
+ `ml.p4d.24xlarge` und `ml.p4de.24xlarge`, die von der SMDDP-Bibliothek unterstützte Instance-Typen sind
+ `imdsv2` auf dem Trainingshost aktiviert

Je nachdem, wie Sie den verteilten Trainingsjob ausführen möchten, gibt es zwei Möglichkeiten, die SMDDP-Bibliothek zu installieren:
+ Eine direkte Installation mithilfe der SMDDP-Binärdatei.
+ Verwendung der SageMaker AI Deep Learning Containers (DLCs), auf denen die SMDDP-Bibliothek vorinstalliert ist.

Docker-Images, auf denen die SMDDP-Bibliothek oder die URLs zu den SMDDP-Binärdateien vorinstalliert sind, sind in der Dokumentation zur SMDDP-Bibliothek unter [Unterstützte Frameworks](https://docs.aws.amazon.com/sagemaker/latest/dg/distributed-data-parallel-support.html#distributed-data-parallel-supported-frameworks) aufgeführt.

**So installieren Sie die SMDDP-Bibliothek auf dem DLAMI SageMaker HyperPod**
+ `pip install --no-cache-dir https://smdataparallel.s3.amazonaws.com/binary/pytorch/{{<pytorch-version>/cuXYZ/YYYY-MM-DD/smdistributed_dataparallel-X.Y.Z-cp310-cp310-linux_x86_64}}.whl`
**Anmerkung**  
Wenn Sie in einer Conda-Umgebung arbeiten, stellen Sie sicher, dass Sie die Installation mit statt mit. PyTorch `conda install` `pip`  

  ```
  conda install pytorch=={{X.Y.Z}}  torchvision=={{X.Y.Z}} torchaudio=={{X.Y.Z}} pytorch-cuda={{X.Y.Z}} -c pytorch -c nvidia
  ```

**So verwenden Sie die SMDDP-Bibliothek in einem Docker-Container**
+ Die SMDDP-Bibliothek ist auf den SageMaker AI Deep Learning Containers (DLCs) vorinstalliert. Eine Liste der SageMaker KI-Framework-DLCs für PyTorch die SMDDP-Bibliothek finden Sie in der Dokumentation zur SMDDP-Bibliothek unter [Unterstützte](https://docs.aws.amazon.com/sagemaker/latest/dg/distributed-data-parallel-support.html#distributed-data-parallel-supported-frameworks) Frameworks. Sie können auch Ihren eigenen Docker-Container einspielen, in dem die erforderlichen Abhängigkeiten installiert sind, um die SMDDP-Bibliothek zu verwenden. Weitere Informationen zum Einrichten eines benutzerdefinierten Docker-Containers zur Verwendung der SMDDP-Bibliothek finden Sie auch unter [Erstellen Sie Ihren eigenen Docker-Container mit der SageMaker AI Distributed Data Parallel Library](data-parallel-bring-your-own-container.md).
**Wichtig**  
Um die SMDDP-Bibliothek in einem Docker-Container zu verwenden, mounten Sie das `/var/log`-Verzeichnis vom Host-Computer auf `/var/log` im Container. Dies kann erreicht werden, indem Sie beim Ausführen Ihres Containers die folgende Option hinzufügen.  

  ```
  docker run {{<OTHER_OPTIONS>}} -v /var/log:/var/log ...
  ```

Informationen zur Ausführung datenparalleler Trainingsaufträge mit SMDDP im Allgemeinen finden Sie unter [Verteiltes Training mit der SageMaker KI-Bibliothek für verteilte Datenparallelität](data-parallel-modify-sdp.md).

## SMP auf einem Cluster verwenden SageMaker HyperPod
<a name="sagemaker-hyperpod-run-jobs-slurm-distributed-training-workload-smp"></a>

Die [SageMaker AI-Bibliothek für Modellparallelismus (SMP)](model-parallel-v2.md) bietet verschiedene Techniken zur [Modellparallelität auf dem neuesten Stand](model-parallel-core-features-v2.md) der Technik, darunter:
+ Parallelität vollständig fragmentierter Daten
+ Expertenparallelität
+ gemischtes Präzisionstraining mit den Datentypen und FP8 FP16/BF16 
+ Tensor-Parallelität

Die SMP-Bibliothek ist auch mit Open-Source-Frameworks wie PyTorch FSDP, NVIDIA Megatron und NVIDIA Transformer Engine kompatibel.

**So führen Sie ein Beispiel für einen Workload mit modellparallelem Training aus**

Die SageMaker KI-Serviceteams bieten unter Beispielschulungen zur Implementierung der Modellparallelität mit der SMP-Bibliothek an. [https://github.com/aws-samples/awsome-distributed-training/tree/main/3.test_cases/17.SM-modelparallelv2](https://github.com/aws-samples/awsome-distributed-training/tree/main/3.test_cases/17.SM-modelparallelv2)