View a markdown version of this page

Tiefgreifende Zustandsprüfungen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Tiefgreifende Zustandsprüfungen

SageMaker HyperPod führt eingehende Integritätsprüfungen für Slurm-orchestrated Cluster-Instances durch, um die Zuverlässigkeit und Stabilität der zugrunde liegenden Hardware und Infrastruktur sicherzustellen. Tiefgreifende Integritätsprüfungen können automatisch ausgeführt werden, wenn Instanzen erstellt oder einem Cluster hinzugefügt werden (beim Start), oder Sie können sie mithilfe der StartClusterHealthCheckAPI jederzeit manuell (bei Bedarf) auslösen. Dieser proaktive Ansatz hilft dabei, potenzielle Probleme während des gesamten Cluster-Lebenszyklus zu identifizieren und zu beheben.

Bei gründlichen Zustandsprüfungen werden die betroffenen Knoten in eine Slurm-Wartungsreservierung aufgenommen, um zu verhindern, dass Jobs für sie geplant werden. Sobald alle Prüfungen bestanden sind, werden die Knoten aus der Reservierung entlassen und stehen für Workloads zur Verfügung.

Wichtig

Um Deep Health Checks verwenden zu können, müssen Sie auf die neueste AMI-Version aktualisieren. Führen UpdateClusterSoftwareSie das Update auf die neueste Version des AMI aus. Wenn Sie mit einer älteren AMI-Version arbeiten, funktionieren eingehende Integritätsprüfungen möglicherweise nicht wie erwartet.

Typen von tiefgreifenden Integritätsprüfungen

SageMaker HyperPod unterstützt zwei Kategorien von tiefgreifenden Zustandsprüfungen für Slurm-Cluster:

  • InstanceStress— Führt Tests auf Instanzebene durch, darunter Hardware-Stresstests (CPU, Arbeitsspeicher, Festplatte, GPU/PCI Überprüfung), DCGM-GPU-Diagnosen und EFA-Loopback-Konnektivität. Dadurch wird der Zustand der Hardware einzelner Knoten validiert.

  • InstanceConnectivity— Führt NCCL-Tests (NVIDIA Collective Communications Library) auf Clusterebene auf mehreren Knoten durch, um die Leistung der GPU-Kommunikation zwischen Knoten zu überprüfen. Diese Prüfung wird nur auf Instances mit GPU-Kommunikationsfunktionen für mehrere Knoten unterstützt.

Liste der tiefgreifenden Integritätsprüfungen, die durchgeführt wurden von SageMaker HyperPod

SageMaker HyperPod führt die folgenden umfassenden Integritätsprüfungen durch.

Instance-level gründliche Integritätsprüfungen (InstanceStress)

Kategorie Name des Dienstprogramms Kompatibilität von Instance-Typen Description
Accelerator GPU/NVLink count GPU Überprüft die GPU/NVLink Anzahl.
Accelerator DCGM-Diagnose Stufe 4 GPU Beurteilt den Zustand und die Funktionalität von NVIDIA-GPUs, indem DCGM-Diagnosen (NVIDIA Data Center GPU Manager) auf Stufe 4 ausgeführt werden, einschließlich zusätzlicher Speichertests. Typische Dauer: ~45-90 Minuten, abhängig von der Anzahl der GPUs.
Netzwerk EFA GPU Führt EFA-Loopback-Bandbreiten- und Latenztests auf dem angeschlossenen EFA-Gerät durch. Typische Dauer: ~2-5 Minuten.

Cluster-level gründliche Gesundheitschecks () InstanceConnectivity

Kategorie Name des Dienstprogramms Kompatibilität von Instance-Typen Description
Accelerator NCCL-Prüfung GPU Führt all_reduce NCCL-Leistungstests auf mehreren Knoten durch, um die GPU-Kommunikationsbandbreite zwischen den Knoten zu überprüfen. Typische Dauer: ~5-15 Minuten, abhängig von der Anzahl der Knoten.

On-start gründliche Gesundheitschecks

On-start Tiefgreifende Integritätsprüfungen werden automatisch ausgeführt, wenn Instanzen zum ersten Mal bereitgestellt werden — während der Clustererstellung oder wenn neue Instanzen hinzugefügt werden. UpdateCluster Dadurch wird sichergestellt, dass jeder Knoten die Hardwarevalidierung durchläuft, bevor er Workloads akzeptiert.

Aktivierung eingehender Integritätsprüfungen beim Start

Um eingehende Integritätsprüfungen beim Start zu aktivieren, geben Sie den OnStartDeepHealthChecks Parameter in der Instanzgruppenkonfiguration an, wenn Sie einen Cluster erstellen oder aktualisieren.

Beispiel: Erstellen Sie einen Cluster mit umfassenden Integritätsprüfungen beim Start

aws sagemaker create-cluster \ --cluster-name my-slurm-cluster \ --instance-groups '[ { "InstanceGroupName": "controller-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1 }, { "InstanceGroupName": "worker-group", "InstanceType": "ml.p4d.24xlarge", "InstanceCount": 4, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] } ]' \ --vpc-config '{"SecurityGroupIds":["sg-12345678"],"Subnets":["subnet-12345678"]}'

Was passiert bei gründlichen Integritätsprüfungen beim Start

Wenn eingehende Integritätsprüfungen beim Start aktiviert sind, läuft der folgende Vorgang ab:

  1. Bereitstellung von Knoten: Neue Instanzen werden gestartet und Lebenszyklusskripts ausgeführt.

  2. Knotenisolierung: Der HyperPod Cluster-Agent platziert neue Knoten in einer Slurm-Wartungsreservierung (hyperpod-deep-health-check) und fügt sie der hyperpod-system-maintenance Partition hinzu. Knoten sind mit der Slurm-Funktion gekennzeichnet. SageMakerDeepHealthCheck:InProgress Dadurch wird verhindert, dass während des Tests Jobs auf diesen Knoten geplant werden.

  3. Testausführung: Die folgenden Tests werden im Rahmen der InstanceStress Prüfung auf jedem Knoten ausgeführt:

    • HARDWARE_CHECK: Wird stress-ng für CPU-, Arbeitsspeicher- und Festplattenbelastungstests ausgeführt, gefolgt von der Überprüfung der Anzahl der GPU- und PCI-Geräte. Typische Dauer: ~1-2 Minuten.

    • DCGM: Führt NVIDIA-DCGM-Diagnosen auf Stufe 4 aus, einschließlich GPU-Speichertests. Typische Dauer: ~45-90 Minuten, abhängig von der Anzahl der GPUs.

    • EFA: Führt EFA-Loopback-Bandbreiten- und Latenztests durch. Typische Dauer: ~2-5 Minuten.

    Wenn auch aktiviert InstanceConnectivity ist, wird der folgende zusätzliche Test ausgeführt:

    • NCCL: Führt all_reduce NCCL-Leistungstests auf mehreren Knoten durch, um die GPU-Kommunikationsbandbreite zwischen den Knoten zu überprüfen. Typische Dauer: ~5-15 Minuten, abhängig von der Anzahl der Knoten.

  4. Behandlung der Ergebnisse:

    • Erfolgreich: Der Knoten wird aus der Wartungsreservierung entfernt, die Funktion zur Überprüfung der Systemintegrität wird gelöscht und der Knoten ist wieder für Jobs in der ihm zugewiesenen Partition verfügbar.

    • Fehlgeschlagen: Der Knoten bleibt isoliert. SageMaker HyperPod ersetzt automatisch den ausgefallenen Knoten und führt eingehende Integritätsprüfungen für den Ersatzknoten durch.

Der Cluster wechselt zu einem ZeitpunktInService, an dem mindestens der Controller-Knoten läuft. Worker-Knoten zeigen DeepHealthCheckInProgress den Status während des Tests an und gehen Running nach dem Bestehen zum Status über.

Überwachung eingehender Gesundheitschecks beim Start

Sie können den Status von Deep Health Checks beim Start mithilfe der Amazon SageMaker AI-API oder der Slurm-Befehle überwachen.

Überprüfen Sie den Knotenstatus mit dem AWS Command Line Interface

aws sagemaker list-cluster-nodes \ --cluster-name my-slurm-cluster

Knoten, die gründlichen Integritätsprüfungen unterzogen werden, InstanceStatus.Status werden als angezeigtDeepHealthCheckInProgress.

Überprüfen Sie den Slurm-Status über SSM auf dem Controller-Knoten

# View node states sinfo -a -N -l # View maintenance reservation scontrol show reservations # View running DHC jobs squeue -a

Knoten, die einer gründlichen Integritätsprüfung unterzogen wurden, werden in der hyperpod-deep-health-check Reservierung und der hyperpod-system-maintenance Partition angezeigt.

Hinzufügen von Knoten zu einem Cluster mit aktivierten umfassenden Integritätsprüfungen beim Start

Wenn Sie einen OnStartDeepHealthChecks konfigurierten Cluster hochskalieren, werden neue Knoten automatisch einer gründlichen Integritätsprüfung unterzogen, bevor sie Workloads annehmen. Bestehende Knoten und laufende Jobs sind davon nicht betroffen.

aws sagemaker update-cluster \ --cluster-name my-slurm-cluster \ --instance-groups '[ { "InstanceGroupName": "controller-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1 }, { "InstanceGroupName": "worker-group", "InstanceType": "ml.p4d.24xlarge", "InstanceCount": 8, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] } ]'

Die neuen Knoten werden in der Wartungsreservierung isoliert, während gründliche Integritätsprüfungen durchgeführt werden. Jobs, die die zusätzliche Kapazität der neuen Knoten benötigen, warten, bis diese Knoten die gründlichen Integritätsprüfungen bestanden haben und verfügbar werden. Jobs, die von vorhandenen verfügbaren Knoten erfüllt werden können, sind nicht betroffen.

On-demand gründliche Gesundheitschecks

On-demand Mit tiefgreifenden Integritätsprüfungen können Sie mithilfe der StartClusterHealthCheckAPI jederzeit eine Hardwarevalidierung auf vorhandenen Clusterknoten auslösen. Dies ist nützlich für die regelmäßige Integritätsprüfung oder nach vermuteten Hardwareproblemen.

Anmerkung

On-demand Tiefgreifende Integritätsprüfungen werden auf Clustern mit der NodeProvisioningMode Einstellung auf nicht unterstütztContinuous.

Tiefgreifende Integritätsprüfungen auf Abruf von der Konsole aus ausführen

Sie können eingehende Integritätsprüfungen für HyperPod Cluster-Instances direkt von der SageMaker AI-Konsole aus durchführen.

Um eingehende Integritätsprüfungen auf Abruf von der Konsole aus durchzuführen
  1. Öffnen Sie die SageMaker AI-Konsole auf der SageMaker AI-Konsole.

  2. Wählen Sie im Navigationsbereich unter HyperPodClusters aus.

  3. Wählen Sie den Namen Ihres Clusters, um die Cluster-Detailseite zu öffnen.

  4. Wählen Sie in der Tabelle Instances eine oder mehrere Instances aus, für die Sie eingehende Integritätsprüfungen durchführen möchten.

    Anmerkung

    Zu den unterstützten Instance-Familien gehören g5, p4 und p5. Non-accelerated Instanzen werden automatisch übersprungen.

  5. Wählen Sie „Aktionen“ und anschließend „Deep Health Checks ausführen“ aus.

  6. Wählen Sie Stressprüfung, Konnektivitätsprüfung oder beides aus:

    • Belastungsprüfung — Überprüft die Beschleunigerhardware unter Last (entsprichtInstanceStress).

    • Konnektivitätsprüfung — Validiert die Netzwerkkommunikation zwischen Knoten (entspricht). InstanceConnectivity

  7. Wählen Sie Integritätsprüfungen ausführen aus.

Ein Erfolgsbanner bestätigt, dass die Prüfungen eingeleitet wurden. Während der Prüfungen, die über eine Stunde dauern können, sind Instanzen für Workloads nicht verfügbar. Überwachen Sie den Instance-Status in der Instanzen-Tabelle — dort wird angezeigt, dass während der Ausführung ein Deep Health Check läuft. Wenn Probleme gefunden werden und die automatische Wiederherstellung aktiviert ist, SageMaker HyperPod werden fehlerhafte Instances automatisch neu gestartet oder ersetzt.

Auslösen von tiefgreifenden Integritätsprüfungen auf Abruf mit dem AWS Command Line Interface

Sie können angeben, welche Instanzgruppen und welche Checks ausgeführt werden sollen. Pro Cluster kann jeweils nur eine Anforderung für eine eingehende Integritätsprüfung auf Abruf aktiv sein.

aws sagemaker start-cluster-health-check \ --cluster-name my-slurm-cluster \ --deep-health-check-configurations '[ { "InstanceGroupName": "worker-group", "DeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] } ]'

Verhalten bei laufenden Workloads

Wenn bei Bedarf eingehende Integritätsprüfungen auf Knoten ausgelöst werden, auf denen Jobs ausgeführt werden:

  • Laufende Jobs werden nicht unterbrochen oder beendet.

  • Die eingehende Integritätsprüfung befindet sich in der Warteschlange und wartet, bis der aktuelle Job abgeschlossen ist. Wenn der laufende Job nicht innerhalb von 10 Minuten abgeschlossen wird, wird der Knoten bei der umfassenden Integritätsprüfung übersprungen.

  • Knoten werden in die Wartungsreservierung aufgenommen, um zu verhindern, dass während des Tests neue Jobs geplant werden.

Protokolle der umfassenden Gesundheitschecks

Im Folgenden finden Sie Beispielprotokolle aus den SageMaker HyperPod Deep Health Checks.

Cluster-level logs

Die Protokolle für eingehende Integritätsprüfungen auf Clusterebene werden in Ihrer CloudWatch Protokollgruppe unter gespeichert. /aws/sagemaker/Clusters/<cluster_name>/<cluster_id>

Die Protokollstream werden unter DeepHealthCheckResults/<log_stream_id> protokolliert.

Instance-level logs

Auf jedem Knoten werden Deep-Health-Check-Logs unter gespeichert. /var/log/aws/clusters/sagemaker-deep-health-check.log

Sie können über SSM auf das Protokoll zugreifen:

aws ssm start-session \ --target "sagemaker-cluster:<cluster_id>_<instance_group>-<instance_id>"

Sehen Sie sich dann das Protokoll an:

cat /var/log/aws/clusters/sagemaker-deep-health-check.log

Beispiel für eine HARDWARE_CHECK-Ausgabe

2026-03-29T18:03:14Z info Executing Hardware stress check with command: stress-ng 2026-03-29T18:04:20Z info stress-ng success 2026-03-29T18:04:20Z info GpuPci Count check success

Beispiel für eine DCGM-Ausgabe

2026-03-29T18:35:02Z info DCGM diagnostic health summary: dcgmCheckLevel: 4 dcgmVersion: 3.3.7 gpuDriverVersion: 535.183.01 gpuDeviceIds: [2237] replacementRequired: false rebootRequired: false

Beispiel für eine EFA-Ausgabe

2026-03-29T18:36:28Z info EFA Loopback check passed for device: rdmap0s29 MaxBw: 58.59, AvgBw: 32.42, MaxTypicalLat: 30.87, AvgLat: 21.63

Beispiel für eine Ausgabe eines Deep-Health-Checks

{ "level": "error", "ts": "2026-03-29T19:15:22Z", "msg": "Encountered FaultyInstance. Replace the Instance. Region: us-west-2, InstanceType: ml.g5.8xlarge. ERROR: Bandwidth has less than threshold: Expected minimum threshold: 80, NCCL Test output Bw: 30" }

Auto-resume Verhalten bei gründlichen Integritätsprüfungen

Wenn Deep Health Checks nicht aktiviert sind und ein Knoten während der automatischen Wiederaufnahme ersetzt wird, wird der Ersatzknoten sofort zum Cluster hinzugefügt, und der automatisch wiederaufgenommene Job kann sofort für ihn geplant werden.

Wenn Deep Health Checks aktiviert sind, muss der Ersatzknoten alle konfigurierten Deep Health Checks bestehen, bevor er verfügbar wird. Der automatisch wiederaufgenommene Job muss jedoch nicht auf den Ersatzknoten warten — er kann auf jedem anderen verfügbaren Knoten im Cluster geplant werden. Der Job wartet nur, wenn keine anderen Knoten verfügbar sind.

Weitere Überlegungen

  • Für eingehende Integritätsprüfungen ist die neueste AMI-Version erforderlich. Führen Sie UpdateClusterSoftwaredas Programm aus, um Ihren Cluster zu aktualisieren, bevor Sie Deep Health Checks aktivieren.

  • On-demand Deep Health Checks werden auf Clustern mit der NodeProvisioningMode Einstellung auf nicht unterstütztContinuous.

  • Tiefgreifende Integritätsprüfungen werden nur auf Worker-Knoten ausgeführt. Controller- und Login-Knoten werden keinen tiefgreifenden Integritätsprüfungen unterzogen.

  • Pro Cluster kann jeweils nur eine Anforderung für eine eingehende Integritätsprüfung auf Abruf aktiv sein.

  • Wenn eine Prüfung auf Anforderung einen Neustart oder Austausch des Knotens auslöst, führt der Ersatzknoten nur dann eingehende Integritätsprüfungen durch, wenn er für die Instanzgruppe aktiviert OnStartDeepHealthChecks ist. Andernfalls tritt der Knoten wieder bei, ohne dass erneut tiefgreifende Integritätsprüfungen durchgeführt werden müssen.