Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Tiefgreifende Zustandsprüfungen
SageMaker HyperPod führt eingehende Integritätsprüfungen für Slurm-orchestrated Cluster-Instances durch, um die Zuverlässigkeit und Stabilität der zugrunde liegenden Hardware und Infrastruktur sicherzustellen. Tiefgreifende Integritätsprüfungen können automatisch ausgeführt werden, wenn Instanzen erstellt oder einem Cluster hinzugefügt werden (beim Start), oder Sie können sie mithilfe der StartClusterHealthCheckAPI jederzeit manuell (bei Bedarf) auslösen. Dieser proaktive Ansatz hilft dabei, potenzielle Probleme während des gesamten Cluster-Lebenszyklus zu identifizieren und zu beheben.
Bei gründlichen Zustandsprüfungen werden die betroffenen Knoten in eine Slurm-Wartungsreservierung aufgenommen, um zu verhindern, dass Jobs für sie geplant werden. Sobald alle Prüfungen bestanden sind, werden die Knoten aus der Reservierung entlassen und stehen für Workloads zur Verfügung.
Wichtig
Um Deep Health Checks verwenden zu können, müssen Sie auf die neueste AMI-Version aktualisieren. Führen UpdateClusterSoftwareSie das Update auf die neueste Version des AMI aus. Wenn Sie mit einer älteren AMI-Version arbeiten, funktionieren eingehende Integritätsprüfungen möglicherweise nicht wie erwartet.
Typen von tiefgreifenden Integritätsprüfungen
SageMaker HyperPod unterstützt zwei Kategorien von tiefgreifenden Zustandsprüfungen für Slurm-Cluster:
-
InstanceStress— Führt Tests auf Instanzebene durch, darunter Hardware-Stresstests (CPU, Arbeitsspeicher, Festplatte, GPU/PCI Überprüfung), DCGM-GPU-Diagnosen und EFA-Loopback-Konnektivität. Dadurch wird der Zustand der Hardware einzelner Knoten validiert.
-
InstanceConnectivity— Führt NCCL-Tests (NVIDIA Collective Communications Library) auf Clusterebene auf mehreren Knoten durch, um die Leistung der GPU-Kommunikation zwischen Knoten zu überprüfen. Diese Prüfung wird nur auf Instances mit GPU-Kommunikationsfunktionen für mehrere Knoten unterstützt.
Liste der tiefgreifenden Integritätsprüfungen, die durchgeführt wurden von SageMaker HyperPod
SageMaker HyperPod führt die folgenden umfassenden Integritätsprüfungen durch.
Instance-level gründliche Integritätsprüfungen (InstanceStress)
| Kategorie | Name des Dienstprogramms | Kompatibilität von Instance-Typen | Description |
|---|---|---|---|
| Accelerator | GPU/NVLink count | GPU | Überprüft die GPU/NVLink Anzahl. |
| Accelerator | DCGM-Diagnose Stufe |
GPU | Beurteilt den Zustand und die Funktionalität von NVIDIA-GPUs, indem DCGM-Diagnosen (NVIDIA Data Center GPU Manager) auf Stufe 4 ausgeführt werden, einschließlich zusätzlicher Speichertests. Typische Dauer: ~45-90 Minuten, abhängig von der Anzahl der GPUs. |
| Netzwerk | EFA | GPU | Führt EFA-Loopback-Bandbreiten- und Latenztests auf dem angeschlossenen EFA-Gerät durch. Typische Dauer: ~2-5 Minuten. |
Cluster-level gründliche Gesundheitschecks () InstanceConnectivity
| Kategorie | Name des Dienstprogramms | Kompatibilität von Instance-Typen | Description |
|---|---|---|---|
| Accelerator | NCCL-Prüfung | GPU | Führt all_reduce NCCL-Leistungstests auf mehreren Knoten durch, um die GPU-Kommunikationsbandbreite zwischen den Knoten zu überprüfen. Typische Dauer: ~5-15 Minuten, abhängig von der Anzahl der Knoten. |
On-start gründliche Gesundheitschecks
On-start Tiefgreifende Integritätsprüfungen werden automatisch ausgeführt, wenn Instanzen zum ersten Mal bereitgestellt werden — während der Clustererstellung oder wenn neue Instanzen hinzugefügt werden. UpdateCluster Dadurch wird sichergestellt, dass jeder Knoten die Hardwarevalidierung durchläuft, bevor er Workloads akzeptiert.
Aktivierung eingehender Integritätsprüfungen beim Start
Um eingehende Integritätsprüfungen beim Start zu aktivieren, geben Sie den OnStartDeepHealthChecks Parameter in der Instanzgruppenkonfiguration an, wenn Sie einen Cluster erstellen oder aktualisieren.
Beispiel: Erstellen Sie einen Cluster mit umfassenden Integritätsprüfungen beim Start
aws sagemaker create-cluster \ --cluster-namemy-slurm-cluster\ --instance-groups '[ { "InstanceGroupName": "controller-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1 }, { "InstanceGroupName": "worker-group", "InstanceType": "ml.p4d.24xlarge", "InstanceCount": 4, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] } ]' \ --vpc-config '{"SecurityGroupIds":["sg-12345678"],"Subnets":["subnet-12345678"]}'
Was passiert bei gründlichen Integritätsprüfungen beim Start
Wenn eingehende Integritätsprüfungen beim Start aktiviert sind, läuft der folgende Vorgang ab:
-
Bereitstellung von Knoten: Neue Instanzen werden gestartet und Lebenszyklusskripts ausgeführt.
-
Knotenisolierung: Der HyperPod Cluster-Agent platziert neue Knoten in einer Slurm-Wartungsreservierung (
hyperpod-deep-health-check) und fügt sie derhyperpod-system-maintenancePartition hinzu. Knoten sind mit der Slurm-Funktion gekennzeichnet.SageMakerDeepHealthCheck:InProgressDadurch wird verhindert, dass während des Tests Jobs auf diesen Knoten geplant werden. -
Testausführung: Die folgenden Tests werden im Rahmen der
InstanceStressPrüfung auf jedem Knoten ausgeführt:-
HARDWARE_CHECK: Wird
stress-ngfür CPU-, Arbeitsspeicher- und Festplattenbelastungstests ausgeführt, gefolgt von der Überprüfung der Anzahl der GPU- und PCI-Geräte. Typische Dauer: ~1-2 Minuten. -
DCGM: Führt NVIDIA-DCGM-Diagnosen auf Stufe 4 aus, einschließlich GPU-Speichertests. Typische Dauer: ~45-90 Minuten, abhängig von der Anzahl der GPUs.
-
EFA: Führt EFA-Loopback-Bandbreiten- und Latenztests durch. Typische Dauer: ~2-5 Minuten.
Wenn auch aktiviert
InstanceConnectivityist, wird der folgende zusätzliche Test ausgeführt:-
NCCL: Führt
all_reduceNCCL-Leistungstests auf mehreren Knoten durch, um die GPU-Kommunikationsbandbreite zwischen den Knoten zu überprüfen. Typische Dauer: ~5-15 Minuten, abhängig von der Anzahl der Knoten.
-
-
Behandlung der Ergebnisse:
-
Erfolgreich: Der Knoten wird aus der Wartungsreservierung entfernt, die Funktion zur Überprüfung der Systemintegrität wird gelöscht und der Knoten ist wieder für Jobs in der ihm zugewiesenen Partition verfügbar.
-
Fehlgeschlagen: Der Knoten bleibt isoliert. SageMaker HyperPod ersetzt automatisch den ausgefallenen Knoten und führt eingehende Integritätsprüfungen für den Ersatzknoten durch.
-
Der Cluster wechselt zu einem ZeitpunktInService, an dem mindestens der Controller-Knoten läuft. Worker-Knoten zeigen DeepHealthCheckInProgress den Status während des Tests an und gehen Running nach dem Bestehen zum Status über.
Überwachung eingehender Gesundheitschecks beim Start
Sie können den Status von Deep Health Checks beim Start mithilfe der Amazon SageMaker AI-API oder der Slurm-Befehle überwachen.
Überprüfen Sie den Knotenstatus mit dem AWS Command Line Interface
aws sagemaker list-cluster-nodes \ --cluster-namemy-slurm-cluster
Knoten, die gründlichen Integritätsprüfungen unterzogen werden, InstanceStatus.Status werden als angezeigtDeepHealthCheckInProgress.
Überprüfen Sie den Slurm-Status über SSM auf dem Controller-Knoten
# View node states sinfo -a -N -l # View maintenance reservation scontrol show reservations # View running DHC jobs squeue -a
Knoten, die einer gründlichen Integritätsprüfung unterzogen wurden, werden in der hyperpod-deep-health-check Reservierung und der hyperpod-system-maintenance Partition angezeigt.
Hinzufügen von Knoten zu einem Cluster mit aktivierten umfassenden Integritätsprüfungen beim Start
Wenn Sie einen OnStartDeepHealthChecks konfigurierten Cluster hochskalieren, werden neue Knoten automatisch einer gründlichen Integritätsprüfung unterzogen, bevor sie Workloads annehmen. Bestehende Knoten und laufende Jobs sind davon nicht betroffen.
aws sagemaker update-cluster \ --cluster-namemy-slurm-cluster\ --instance-groups '[ { "InstanceGroupName": "controller-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1 }, { "InstanceGroupName": "worker-group", "InstanceType": "ml.p4d.24xlarge", "InstanceCount": 8, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] } ]'
Die neuen Knoten werden in der Wartungsreservierung isoliert, während gründliche Integritätsprüfungen durchgeführt werden. Jobs, die die zusätzliche Kapazität der neuen Knoten benötigen, warten, bis diese Knoten die gründlichen Integritätsprüfungen bestanden haben und verfügbar werden. Jobs, die von vorhandenen verfügbaren Knoten erfüllt werden können, sind nicht betroffen.
On-demand gründliche Gesundheitschecks
On-demand Mit tiefgreifenden Integritätsprüfungen können Sie mithilfe der StartClusterHealthCheckAPI jederzeit eine Hardwarevalidierung auf vorhandenen Clusterknoten auslösen. Dies ist nützlich für die regelmäßige Integritätsprüfung oder nach vermuteten Hardwareproblemen.
Anmerkung
On-demand Tiefgreifende Integritätsprüfungen werden auf Clustern mit der NodeProvisioningMode Einstellung auf nicht unterstütztContinuous.
Tiefgreifende Integritätsprüfungen auf Abruf von der Konsole aus ausführen
Sie können eingehende Integritätsprüfungen für HyperPod Cluster-Instances direkt von der SageMaker AI-Konsole aus durchführen.
Um eingehende Integritätsprüfungen auf Abruf von der Konsole aus durchzuführen
-
Öffnen Sie die SageMaker AI-Konsole auf der SageMaker AI-Konsole
. -
Wählen Sie im Navigationsbereich unter HyperPodClusters aus.
-
Wählen Sie den Namen Ihres Clusters, um die Cluster-Detailseite zu öffnen.
-
Wählen Sie in der Tabelle Instances eine oder mehrere Instances aus, für die Sie eingehende Integritätsprüfungen durchführen möchten.
Anmerkung
Zu den unterstützten Instance-Familien gehören g5, p4 und p5. Non-accelerated Instanzen werden automatisch übersprungen.
-
Wählen Sie „Aktionen“ und anschließend „Deep Health Checks ausführen“ aus.
-
Wählen Sie Stressprüfung, Konnektivitätsprüfung oder beides aus:
-
Belastungsprüfung — Überprüft die Beschleunigerhardware unter Last (entspricht
InstanceStress). -
Konnektivitätsprüfung — Validiert die Netzwerkkommunikation zwischen Knoten (entspricht).
InstanceConnectivity
-
-
Wählen Sie Integritätsprüfungen ausführen aus.
Ein Erfolgsbanner bestätigt, dass die Prüfungen eingeleitet wurden. Während der Prüfungen, die über eine Stunde dauern können, sind Instanzen für Workloads nicht verfügbar. Überwachen Sie den Instance-Status in der Instanzen-Tabelle — dort wird angezeigt, dass während der Ausführung ein Deep Health Check läuft. Wenn Probleme gefunden werden und die automatische Wiederherstellung aktiviert ist, SageMaker HyperPod werden fehlerhafte Instances automatisch neu gestartet oder ersetzt.
Auslösen von tiefgreifenden Integritätsprüfungen auf Abruf mit dem AWS Command Line Interface
Sie können angeben, welche Instanzgruppen und welche Checks ausgeführt werden sollen. Pro Cluster kann jeweils nur eine Anforderung für eine eingehende Integritätsprüfung auf Abruf aktiv sein.
aws sagemaker start-cluster-health-check \ --cluster-namemy-slurm-cluster\ --deep-health-check-configurations '[ { "InstanceGroupName": "worker-group", "DeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] } ]'
Verhalten bei laufenden Workloads
Wenn bei Bedarf eingehende Integritätsprüfungen auf Knoten ausgelöst werden, auf denen Jobs ausgeführt werden:
-
Laufende Jobs werden nicht unterbrochen oder beendet.
-
Die eingehende Integritätsprüfung befindet sich in der Warteschlange und wartet, bis der aktuelle Job abgeschlossen ist. Wenn der laufende Job nicht innerhalb von 10 Minuten abgeschlossen wird, wird der Knoten bei der umfassenden Integritätsprüfung übersprungen.
-
Knoten werden in die Wartungsreservierung aufgenommen, um zu verhindern, dass während des Tests neue Jobs geplant werden.
Protokolle der umfassenden Gesundheitschecks
Im Folgenden finden Sie Beispielprotokolle aus den SageMaker HyperPod Deep Health Checks.
Cluster-level logs
Die Protokolle für eingehende Integritätsprüfungen auf Clusterebene werden in Ihrer CloudWatch Protokollgruppe unter gespeichert. /aws/sagemaker/Clusters/<cluster_name>/<cluster_id>
Die Protokollstream werden unter DeepHealthCheckResults/<log_stream_id> protokolliert.
Instance-level logs
Auf jedem Knoten werden Deep-Health-Check-Logs unter gespeichert. /var/log/aws/clusters/sagemaker-deep-health-check.log
Sie können über SSM auf das Protokoll zugreifen:
aws ssm start-session \ --target "sagemaker-cluster:<cluster_id>_<instance_group>-<instance_id>"
Sehen Sie sich dann das Protokoll an:
cat /var/log/aws/clusters/sagemaker-deep-health-check.log
Beispiel für eine HARDWARE_CHECK-Ausgabe
2026-03-29T18:03:14Z info Executing Hardware stress check with command: stress-ng 2026-03-29T18:04:20Z info stress-ng success 2026-03-29T18:04:20Z info GpuPci Count check success
Beispiel für eine DCGM-Ausgabe
2026-03-29T18:35:02Z info DCGM diagnostic health summary: dcgmCheckLevel: 4 dcgmVersion: 3.3.7 gpuDriverVersion: 535.183.01 gpuDeviceIds: [2237] replacementRequired: false rebootRequired: false
Beispiel für eine EFA-Ausgabe
2026-03-29T18:36:28Z info EFA Loopback check passed for device: rdmap0s29 MaxBw: 58.59, AvgBw: 32.42, MaxTypicalLat: 30.87, AvgLat: 21.63
Beispiel für eine Ausgabe eines Deep-Health-Checks
{ "level": "error", "ts": "2026-03-29T19:15:22Z", "msg": "Encountered FaultyInstance. Replace the Instance. Region: us-west-2, InstanceType: ml.g5.8xlarge. ERROR: Bandwidth has less than threshold: Expected minimum threshold: 80, NCCL Test output Bw: 30" }
Auto-resume Verhalten bei gründlichen Integritätsprüfungen
Wenn Deep Health Checks nicht aktiviert sind und ein Knoten während der automatischen Wiederaufnahme ersetzt wird, wird der Ersatzknoten sofort zum Cluster hinzugefügt, und der automatisch wiederaufgenommene Job kann sofort für ihn geplant werden.
Wenn Deep Health Checks aktiviert sind, muss der Ersatzknoten alle konfigurierten Deep Health Checks bestehen, bevor er verfügbar wird. Der automatisch wiederaufgenommene Job muss jedoch nicht auf den Ersatzknoten warten — er kann auf jedem anderen verfügbaren Knoten im Cluster geplant werden. Der Job wartet nur, wenn keine anderen Knoten verfügbar sind.
Weitere Überlegungen
-
Für eingehende Integritätsprüfungen ist die neueste AMI-Version erforderlich. Führen Sie UpdateClusterSoftwaredas Programm aus, um Ihren Cluster zu aktualisieren, bevor Sie Deep Health Checks aktivieren.
-
On-demand Deep Health Checks werden auf Clustern mit der
NodeProvisioningModeEinstellung auf nicht unterstütztContinuous. -
Tiefgreifende Integritätsprüfungen werden nur auf Worker-Knoten ausgeführt. Controller- und Login-Knoten werden keinen tiefgreifenden Integritätsprüfungen unterzogen.
-
Pro Cluster kann jeweils nur eine Anforderung für eine eingehende Integritätsprüfung auf Abruf aktiv sein.
-
Wenn eine Prüfung auf Anforderung einen Neustart oder Austausch des Knotens auslöst, führt der Ersatzknoten nur dann eingehende Integritätsprüfungen durch, wenn er für die Instanzgruppe aktiviert
OnStartDeepHealthChecksist. Andernfalls tritt der Knoten wieder bei, ohne dass erneut tiefgreifende Integritätsprüfungen durchgeführt werden müssen.