Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Elastic Fabric Adapter
Elastic Fabric Adapter (EFA) ist ein Netzwerkgerät, das Betriebssystem-Bypass-Funktionen für die Netzwerkkommunikation mit geringer Latenz mit anderen Instances im selben Subnetz besitzt. EFA wird mithilfe von Libfabric verfügbar gemacht und kann von Anwendungen verwendet werden, die die Messaging Passing Interface (MPI) verwenden.
Um EFA mit AWS ParallelCluster und einem Slurm Scheduler zu verwenden, setzen Sie SlurmQueues//ComputeResourcesEfa/Enabledauf. true
Eine Liste der Amazon EC2 EC2-Instances, die EFA unterstützen, finden Sie unter Unterstützte Instance-Typen im Amazon EC2 EC2-Benutzerhandbuch für Linux-Instances.
Wir empfehlen, dass Sie Ihre EFA-fähigen Instances in einer Platzierungsgruppe ausführen. Auf diese Weise werden die Instances in einer einzigen Availability Zone in einer einzigen Availability Zone in einer Gruppe mit niedriger Latenz gestartet. Weitere Informationen zur Konfiguration von Placement-Gruppen mit AWS ParallelCluster finden Sie unter SlurmQueues/Networking/PlacementGroup.
Anmerkung
Elastic Fabric Adapter (EFA) wird in verschiedenen Availability Zones nicht unterstützt. Weitere Informationen finden Sie unter Scheduling/SlurmQueues/Networking/SubnetIds.
Anmerkung
Standardmäßig aktivieren Ubuntu Distributionen den Schutz ptrace (Prozessablaufverfolgung). ptraceDer Schutz ist deaktiviert, sodass Libfabric ordnungsgemäß funktioniert. Weitere Informationen finden Sie unter Deaktivieren des Ptrace-Schutzes im Amazon EC2 EC2-Benutzerhandbuch.
Standard-EFA-Netzwerkkonfiguration
Ab AWS ParallelCluster 3.15.0 werden, wenn EFA aktiviert ist, AWS ParallelCluster automatisch reine EFA-Netzwerkschnittstellen konfiguriert, um den EFA-Verkehr vom IP-Verkehr zu trennen. Dadurch wird die EFA-Bandbreite maximiert und gleichzeitig der IP-Adressverbrauch minimiert. AWS ParallelCluster bestimmt die optimale Konfiguration auf der Grundlage der Funktionen des Instance-Typs.
Diese Standardkonfiguration wird für die meisten Workloads empfohlen, einschließlich eng gekoppelter HPC-Workloads und verteilter Schulungen. AI/ML
Anpassen der EFA-Netzwerkschnittstellen
Wenn Ihr Workload eine andere Netzwerkkonfiguration erfordert, z. B. die Maximierung der ENA-Bandbreite auf sekundären Netzwerkkarten oder die Konfiguration einer Teilmenge verfügbarer Netzwerkkarten, können Sie die Standardeinstellungen mit dem SlurmQueuesParameter//außer Kraft setzen. ComputeResourcesLaunchTemplateOverrides Dadurch wird die gesamte Netzwerkschnittstellenkonfiguration der Rechenknoten durch die in Ihrer Startvorlage definierte Konfiguration ersetzt.
Eine step-by-step exemplarische Vorgehensweise finden Sie unterPassen Sie die Netzwerkschnittstellen für Rechenknoten mit Überschreibungen für Startvorlagen an.
Warnung
Wenn Sie Netzwerkschnittstellen auf eine Weise konfigurieren, die vom Instance-Typ nicht unterstützt wird, können Instances nicht gestartet werden. Informationen zur Überprüfung der unterstützten Netzwerkkonfigurationen für Ihren Instance-Typ finden Sie DescribeInstanceTypesin der Amazon EC2 EC2-API-Referenz.
Weitere Informationen finden Sie unter Elastic Fabric Adapter im Amazon EC2 EC2-Benutzerhandbuch und Skalieren von HPC-Workloads mit Elastic Fabric Adapter und AWS ParallelCluster