

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Kompatibilität mit der für die Infrastruktur optimierten SMDDP-Bibliothek AWS
<a name="model-parallel-core-features-v2-smddp-allgather"></a>

Sie können die SageMaker Modellparallelismusbibliothek v2 (SMP v2) in Verbindung mit der Bibliothek für [SageMaker verteilte Datenparallelität (SMDDP) verwenden, die den für die Infrastruktur optimierten Betrieb der kollektiven Kommunikation](data-parallel.md) ermöglicht. `AllGather` AWS Beim verteilten Training sind kollektive Kommunikationsoperationen darauf ausgelegt, mehrere GPU-Worker zu synchronisieren und Informationen zwischen ihnen auszutauschen. `AllGather` ist eine der wichtigsten kollektiven Kommunikationsoperationen, die typischerweise bei der Parallelität fragmentierter Data verwendet werden. Weitere Informationen zum `AllGather` SMDDP-Betrieb finden Sie unter Die [Kollektive SMDDP-`AllGather`-Operation](data-parallel-intro.md#data-parallel-allgather) Optimierung solcher kollektiver Kommunikationsoperationen würde direkt zu einem schnelleren Training beitragen, ohne dass Nebenwirkungen auf die Konvergenz auftreten. end-to-end

**Anmerkung**  
Die SMDDP-Bibliothek unterstützt P4- und P4de-Instances (siehe auch [Unterstützte Frameworks AWS-Regionen und Instanztypen](distributed-data-parallel-support.md) von der SMDDP-Bibliothek).

[Die SMDDP-Bibliothek lässt sich PyTorch über die Prozessgruppenebene nativ integrieren.](https://pytorch.org/docs/stable/distributed.html) Um die SMDDP-Bibliothek zu verwenden, müssen Sie Ihrem Trainingsskript nur zwei Codezeilen hinzufügen. Sie unterstützt alle Schulungs-Frameworks wie SageMaker Model Parallelism Library, FSDP und. PyTorch DeepSpeed

Um SMDDP zu aktivieren und die `AllGather`-Operation zu nutzen, müssen Sie Ihrem Trainingsskript als Teil von [Schritt 1: Passen Sie Ihr PyTorch FSDP-Trainingsskript an](model-parallel-use-api-v2.md#model-parallel-adapt-pytorch-script-v2) zwei Codezeilen hinzufügen. Beachten Sie, dass Sie PyTorch Distributed zuerst mit dem SMDDP-Backend initialisieren und dann die SMP-Initialisierung ausführen müssen.

```
import torch.distributed as dist

# Initialize with SMDDP
import smdistributed.dataparallel.torch.torch_smddp
dist.init_process_group(backend="smddp") # Replacing "nccl"

 # Initialize with SMP
import torch.sagemaker as tsm
tsm.init()
```

[SageMaker Framework-Container](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) für PyTorch (siehe auch [Unterstützte Frameworks und AWS-Regionen](distributed-model-parallel-support-v2.md) von SMP v2 und [Unterstützte Frameworks AWS-Regionen und Instanztypen](distributed-data-parallel-support.md) von der SMDDP-Bibliothek) sind mit der SMP-Binärdatei und der SMDDP-Binärdatei vorkonfiguriert. Weitere Informationen zur SMDDP-Bibliothek finden Sie unter [Führen Sie verteilte Schulungen mit der SageMaker KI-Bibliothek für verteilte Datenparallelität durch](data-parallel.md). 