Typen von tiefgreifenden Integritätsprüfungen Liste der tiefgreifenden Integritätsprüfungen, die durchgeführt wurden von SageMaker HyperPod On-start gründliche Gesundheitschecks On-demand gründliche Gesundheitschecks Protokolle der umfassenden Gesundheitschecks Auto-resume Verhalten bei gründlichen Integritätsprüfungen Weitere Überlegungen

Tiefgreifende Zustandsprüfungen

SageMaker HyperPod führt eingehende Integritätsprüfungen für Slurm-orchestrated Cluster-Instances durch, um die Zuverlässigkeit und Stabilität der zugrunde liegenden Hardware und Infrastruktur sicherzustellen. Tiefgreifende Integritätsprüfungen können automatisch ausgeführt werden, wenn Instanzen erstellt oder einem Cluster hinzugefügt werden (beim Start), oder Sie können sie mithilfe der StartClusterHealthCheckAPI jederzeit manuell (bei Bedarf) auslösen. Dieser proaktive Ansatz hilft dabei, potenzielle Probleme während des gesamten Cluster-Lebenszyklus zu identifizieren und zu beheben.

Bei gründlichen Zustandsprüfungen werden die betroffenen Knoten in eine Slurm-Wartungsreservierung aufgenommen, um zu verhindern, dass Jobs für sie geplant werden. Sobald alle Prüfungen bestanden sind, werden die Knoten aus der Reservierung entlassen und stehen für Workloads zur Verfügung.

Wichtig

Um Deep Health Checks verwenden zu können, müssen Sie auf die neueste AMI-Version aktualisieren. Führen UpdateClusterSoftwareSie das Update auf die neueste Version des AMI aus. Wenn Sie mit einer älteren AMI-Version arbeiten, funktionieren eingehende Integritätsprüfungen möglicherweise nicht wie erwartet.

Typen von tiefgreifenden Integritätsprüfungen

SageMaker HyperPod unterstützt zwei Kategorien von tiefgreifenden Zustandsprüfungen für Slurm-Cluster:

InstanceStress— Führt Tests auf Instanzebene durch, darunter Hardware-Stresstests (CPU, Arbeitsspeicher, Festplatte, GPU/PCI Überprüfung), DCGM-GPU-Diagnosen und EFA-Loopback-Konnektivität. Dadurch wird der Zustand der Hardware einzelner Knoten validiert.
InstanceConnectivity— Führt NCCL-Tests (NVIDIA Collective Communications Library) auf Clusterebene auf mehreren Knoten durch, um die Leistung der GPU-Kommunikation zwischen Knoten zu überprüfen. Diese Prüfung wird nur auf Instances mit GPU-Kommunikationsfunktionen für mehrere Knoten unterstützt.

Liste der tiefgreifenden Integritätsprüfungen, die durchgeführt wurden von SageMaker HyperPod

SageMaker HyperPod führt die folgenden umfassenden Integritätsprüfungen durch.

Instance-level gründliche Integritätsprüfungen (InstanceStress)

Kategorie	Name des Dienstprogramms	Kompatibilität von Instance-Typen	Description
Accelerator	GPU/NVLink count	GPU	Überprüft die GPU/NVLink Anzahl.
Accelerator	DCGM-Diagnose Stufe 4	GPU	Beurteilt den Zustand und die Funktionalität von NVIDIA-GPUs, indem DCGM-Diagnosen (NVIDIA Data Center GPU Manager) auf Stufe 4 ausgeführt werden, einschließlich zusätzlicher Speichertests. Typische Dauer: ~45-90 Minuten, abhängig von der Anzahl der GPUs.
Netzwerk	EFA	GPU	Führt EFA-Loopback-Bandbreiten- und Latenztests auf dem angeschlossenen EFA-Gerät durch. Typische Dauer: ~2-5 Minuten.

Cluster-level gründliche Gesundheitschecks () InstanceConnectivity

Kategorie	Name des Dienstprogramms	Kompatibilität von Instance-Typen	Description
Accelerator	NCCL-Prüfung	GPU	Führt `all_reduce` NCCL-Leistungstests auf mehreren Knoten durch, um die GPU-Kommunikationsbandbreite zwischen den Knoten zu überprüfen. Typische Dauer: ~5-15 Minuten, abhängig von der Anzahl der Knoten.

On-start gründliche Gesundheitschecks

On-start Tiefgreifende Integritätsprüfungen werden automatisch ausgeführt, wenn Instanzen zum ersten Mal bereitgestellt werden — während der Clustererstellung oder wenn neue Instanzen hinzugefügt werden. UpdateCluster Dadurch wird sichergestellt, dass jeder Knoten die Hardwarevalidierung durchläuft, bevor er Workloads akzeptiert.

Aktivierung eingehender Integritätsprüfungen beim Start

Um eingehende Integritätsprüfungen beim Start zu aktivieren, geben Sie den OnStartDeepHealthChecks Parameter in der Instanzgruppenkonfiguration an, wenn Sie einen Cluster erstellen oder aktualisieren.

Beispiel: Erstellen Sie einen Cluster mit umfassenden Integritätsprüfungen beim Start


aws sagemaker create-cluster \
  --cluster-name my-slurm-cluster \
  --instance-groups '[
    {
      "InstanceGroupName": "controller-group",
      "InstanceType": "ml.m5.xlarge",
      "InstanceCount": 1,
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "arn:aws:iam::111122223333:role/my-role",
      "ThreadsPerCore": 1
    },
    {
      "InstanceGroupName": "worker-group",
      "InstanceType": "ml.p4d.24xlarge",
      "InstanceCount": 4,
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "arn:aws:iam::111122223333:role/my-role",
      "ThreadsPerCore": 1,
      "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"]
    }
  ]' \
  --vpc-config '{"SecurityGroupIds":["sg-12345678"],"Subnets":["subnet-12345678"]}'

Was passiert bei gründlichen Integritätsprüfungen beim Start

Wenn eingehende Integritätsprüfungen beim Start aktiviert sind, läuft der folgende Vorgang ab:

Bereitstellung von Knoten: Neue Instanzen werden gestartet und Lebenszyklusskripts ausgeführt.
Knotenisolierung: Der HyperPod Cluster-Agent platziert neue Knoten in einer Slurm-Wartungsreservierung (hyperpod-deep-health-check) und fügt sie der hyperpod-system-maintenance Partition hinzu. Knoten sind mit der Slurm-Funktion gekennzeichnet. SageMakerDeepHealthCheck:InProgress Dadurch wird verhindert, dass während des Tests Jobs auf diesen Knoten geplant werden.
Testausführung: Die folgenden Tests werden im Rahmen der InstanceStress Prüfung auf jedem Knoten ausgeführt:
- HARDWARE_CHECK: Wird stress-ng für CPU-, Arbeitsspeicher- und Festplattenbelastungstests ausgeführt, gefolgt von der Überprüfung der Anzahl der GPU- und PCI-Geräte. Typische Dauer: ~1-2 Minuten.
- DCGM: Führt NVIDIA-DCGM-Diagnosen auf Stufe 4 aus, einschließlich GPU-Speichertests. Typische Dauer: ~45-90 Minuten, abhängig von der Anzahl der GPUs.
- EFA: Führt EFA-Loopback-Bandbreiten- und Latenztests durch. Typische Dauer: ~2-5 Minuten.
Wenn auch aktiviert InstanceConnectivity ist, wird der folgende zusätzliche Test ausgeführt:
- NCCL: Führt all_reduce NCCL-Leistungstests auf mehreren Knoten durch, um die GPU-Kommunikationsbandbreite zwischen den Knoten zu überprüfen. Typische Dauer: ~5-15 Minuten, abhängig von der Anzahl der Knoten.
Behandlung der Ergebnisse:
- Erfolgreich: Der Knoten wird aus der Wartungsreservierung entfernt, die Funktion zur Überprüfung der Systemintegrität wird gelöscht und der Knoten ist wieder für Jobs in der ihm zugewiesenen Partition verfügbar.
- Fehlgeschlagen: Der Knoten bleibt isoliert. SageMaker HyperPod ersetzt automatisch den ausgefallenen Knoten und führt eingehende Integritätsprüfungen für den Ersatzknoten durch.

Der Cluster wechselt zu einem ZeitpunktInService, an dem mindestens der Controller-Knoten läuft. Worker-Knoten zeigen DeepHealthCheckInProgress den Status während des Tests an und gehen Running nach dem Bestehen zum Status über.

Überwachung eingehender Gesundheitschecks beim Start

Sie können den Status von Deep Health Checks beim Start mithilfe der Amazon SageMaker AI-API oder der Slurm-Befehle überwachen.

Überprüfen Sie den Knotenstatus mit dem AWS Command Line Interface


aws sagemaker list-cluster-nodes \
  --cluster-name my-slurm-cluster

Knoten, die gründlichen Integritätsprüfungen unterzogen werden, InstanceStatus.Status werden als angezeigtDeepHealthCheckInProgress.

Überprüfen Sie den Slurm-Status über SSM auf dem Controller-Knoten


# View node states
sinfo -a -N -l

# View maintenance reservation
scontrol show reservations

# View running DHC jobs
squeue -a

Knoten, die einer gründlichen Integritätsprüfung unterzogen wurden, werden in der hyperpod-deep-health-check Reservierung und der hyperpod-system-maintenance Partition angezeigt.

Hinzufügen von Knoten zu einem Cluster mit aktivierten umfassenden Integritätsprüfungen beim Start

Wenn Sie einen OnStartDeepHealthChecks konfigurierten Cluster hochskalieren, werden neue Knoten automatisch einer gründlichen Integritätsprüfung unterzogen, bevor sie Workloads annehmen. Bestehende Knoten und laufende Jobs sind davon nicht betroffen.


aws sagemaker update-cluster \
  --cluster-name my-slurm-cluster \
  --instance-groups '[
    {
      "InstanceGroupName": "controller-group",
      "InstanceType": "ml.m5.xlarge",
      "InstanceCount": 1,
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "arn:aws:iam::111122223333:role/my-role",
      "ThreadsPerCore": 1
    },
    {
      "InstanceGroupName": "worker-group",
      "InstanceType": "ml.p4d.24xlarge",
      "InstanceCount": 8,
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "arn:aws:iam::111122223333:role/my-role",
      "ThreadsPerCore": 1,
      "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"]
    }
  ]'

Die neuen Knoten werden in der Wartungsreservierung isoliert, während gründliche Integritätsprüfungen durchgeführt werden. Jobs, die die zusätzliche Kapazität der neuen Knoten benötigen, warten, bis diese Knoten die gründlichen Integritätsprüfungen bestanden haben und verfügbar werden. Jobs, die von vorhandenen verfügbaren Knoten erfüllt werden können, sind nicht betroffen.

On-demand gründliche Gesundheitschecks

On-demand Mit tiefgreifenden Integritätsprüfungen können Sie mithilfe der StartClusterHealthCheckAPI jederzeit eine Hardwarevalidierung auf vorhandenen Clusterknoten auslösen. Dies ist nützlich für die regelmäßige Integritätsprüfung oder nach vermuteten Hardwareproblemen.

Anmerkung

On-demand Tiefgreifende Integritätsprüfungen werden auf Clustern mit der NodeProvisioningMode Einstellung auf nicht unterstütztContinuous.

Tiefgreifende Integritätsprüfungen auf Abruf von der Konsole aus ausführen

Sie können eingehende Integritätsprüfungen für HyperPod Cluster-Instances direkt von der SageMaker AI-Konsole aus durchführen.

Um eingehende Integritätsprüfungen auf Abruf von der Konsole aus durchzuführen

Öffnen Sie die SageMaker AI-Konsole auf der SageMaker AI-Konsole.
Wählen Sie im Navigationsbereich unter HyperPodClusters aus.
Wählen Sie den Namen Ihres Clusters, um die Cluster-Detailseite zu öffnen.
Wählen Sie in der Tabelle Instances eine oder mehrere Instances aus, für die Sie eingehende Integritätsprüfungen durchführen möchten.

Anmerkung
Zu den unterstützten Instance-Familien gehören g5, p4 und p5. Non-accelerated Instanzen werden automatisch übersprungen.
Wählen Sie „Aktionen“ und anschließend „Deep Health Checks ausführen“ aus.
Wählen Sie Stressprüfung, Konnektivitätsprüfung oder beides aus:
- Belastungsprüfung — Überprüft die Beschleunigerhardware unter Last (entsprichtInstanceStress).
- Konnektivitätsprüfung — Validiert die Netzwerkkommunikation zwischen Knoten (entspricht). InstanceConnectivity
Wählen Sie Integritätsprüfungen ausführen aus.

Ein Erfolgsbanner bestätigt, dass die Prüfungen eingeleitet wurden. Während der Prüfungen, die über eine Stunde dauern können, sind Instanzen für Workloads nicht verfügbar. Überwachen Sie den Instance-Status in der Instanzen-Tabelle — dort wird angezeigt, dass während der Ausführung ein Deep Health Check läuft. Wenn Probleme gefunden werden und die automatische Wiederherstellung aktiviert ist, SageMaker HyperPod werden fehlerhafte Instances automatisch neu gestartet oder ersetzt.

Auslösen von tiefgreifenden Integritätsprüfungen auf Abruf mit dem AWS Command Line Interface

Sie können angeben, welche Instanzgruppen und welche Checks ausgeführt werden sollen. Pro Cluster kann jeweils nur eine Anforderung für eine eingehende Integritätsprüfung auf Abruf aktiv sein.


aws sagemaker start-cluster-health-check \
  --cluster-name my-slurm-cluster \
  --deep-health-check-configurations '[
    {
      "InstanceGroupName": "worker-group",
      "DeepHealthChecks": ["InstanceStress", "InstanceConnectivity"]
    }
  ]'

Verhalten bei laufenden Workloads

Wenn bei Bedarf eingehende Integritätsprüfungen auf Knoten ausgelöst werden, auf denen Jobs ausgeführt werden:

Laufende Jobs werden nicht unterbrochen oder beendet.
Die eingehende Integritätsprüfung befindet sich in der Warteschlange und wartet, bis der aktuelle Job abgeschlossen ist. Wenn der laufende Job nicht innerhalb von 10 Minuten abgeschlossen wird, wird der Knoten bei der umfassenden Integritätsprüfung übersprungen.
Knoten werden in die Wartungsreservierung aufgenommen, um zu verhindern, dass während des Tests neue Jobs geplant werden.

Protokolle der umfassenden Gesundheitschecks

Im Folgenden finden Sie Beispielprotokolle aus den SageMaker HyperPod Deep Health Checks.

Cluster-level logs

Die Protokolle für eingehende Integritätsprüfungen auf Clusterebene werden in Ihrer CloudWatch Protokollgruppe unter gespeichert. /aws/sagemaker/Clusters/<cluster_name>/<cluster_id>

Die Protokollstream werden unter DeepHealthCheckResults/<log_stream_id> protokolliert.

Instance-level logs

Auf jedem Knoten werden Deep-Health-Check-Logs unter gespeichert. /var/log/aws/clusters/sagemaker-deep-health-check.log

Sie können über SSM auf das Protokoll zugreifen:


aws ssm start-session \
  --target "sagemaker-cluster:<cluster_id>_<instance_group>-<instance_id>"

Sehen Sie sich dann das Protokoll an:


cat /var/log/aws/clusters/sagemaker-deep-health-check.log

Beispiel für eine HARDWARE_CHECK-Ausgabe


2026-03-29T18:03:14Z  info  Executing Hardware stress check with command: stress-ng
2026-03-29T18:04:20Z  info  stress-ng success
2026-03-29T18:04:20Z  info  GpuPci Count check success

Beispiel für eine DCGM-Ausgabe


2026-03-29T18:35:02Z  info  DCGM diagnostic health summary: dcgmCheckLevel: 4
  dcgmVersion: 3.3.7 gpuDriverVersion: 535.183.01
  gpuDeviceIds: [2237] replacementRequired: false rebootRequired: false

Beispiel für eine EFA-Ausgabe


2026-03-29T18:36:28Z  info  EFA Loopback check passed for device: rdmap0s29
  MaxBw: 58.59, AvgBw: 32.42, MaxTypicalLat: 30.87, AvgLat: 21.63

Beispiel für eine Ausgabe eines Deep-Health-Checks


{
    "level": "error",
    "ts": "2026-03-29T19:15:22Z",
    "msg": "Encountered FaultyInstance. Replace the Instance. Region: us-west-2, InstanceType: ml.g5.8xlarge. ERROR: Bandwidth has less than threshold: Expected minimum threshold: 80, NCCL Test output Bw: 30"
}

Auto-resume Verhalten bei gründlichen Integritätsprüfungen

Wenn Deep Health Checks nicht aktiviert sind und ein Knoten während der automatischen Wiederaufnahme ersetzt wird, wird der Ersatzknoten sofort zum Cluster hinzugefügt, und der automatisch wiederaufgenommene Job kann sofort für ihn geplant werden.

Wenn Deep Health Checks aktiviert sind, muss der Ersatzknoten alle konfigurierten Deep Health Checks bestehen, bevor er verfügbar wird. Der automatisch wiederaufgenommene Job muss jedoch nicht auf den Ersatzknoten warten — er kann auf jedem anderen verfügbaren Knoten im Cluster geplant werden. Der Job wartet nur, wenn keine anderen Knoten verfügbar sind.

Weitere Überlegungen

Für eingehende Integritätsprüfungen ist die neueste AMI-Version erforderlich. Führen Sie UpdateClusterSoftwaredas Programm aus, um Ihren Cluster zu aktualisieren, bevor Sie Deep Health Checks aktivieren.
On-demand Deep Health Checks werden auf Clustern mit der NodeProvisioningMode Einstellung auf nicht unterstütztContinuous.
Tiefgreifende Integritätsprüfungen werden nur auf Worker-Knoten ausgeführt. Controller- und Login-Knoten werden keinen tiefgreifenden Integritätsprüfungen unterzogen.
Pro Cluster kann jeweils nur eine Anforderung für eine eingehende Integritätsprüfung auf Abruf aktiv sein.
Wenn eine Prüfung auf Anforderung einen Neustart oder Austausch des Knotens auslöst, führt der Ersatzknoten nur dann eingehende Integritätsprüfungen durch, wenn er für die Instanzgruppe aktiviert OnStartDeepHealthChecks ist. Andernfalls tritt der Knoten wieder bei, ohne dass erneut tiefgreifende Integritätsprüfungen durchgeführt werden müssen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Beauftragter für Gesundheitsüberwachung

Automatische Knotenwiederherstellung und automatische Wiederaufnahme