Liste des bilans de santé approfondis effectués par SageMaker HyperPod Journaux issus des vérifications de surveillance approfondie de l’état

Vérifications de surveillance approfondie de l’état

SageMaker HyperPod effectue des contrôles de santé approfondis sur les instances de cluster lors de la création et de la mise à jour des HyperPod clusters. Vous pouvez également demander des contrôles de santé approfondis à la demande pour un SageMaker HyperPod cluster à l'aide de l'StartClusterHealthCheckAPI. Les contrôles de santé approfondis garantissent la fiabilité et la stabilité des SageMaker HyperPod clusters en testant le matériel et les composants d'infrastructure sous-jacents. Cette approche proactive permet d’identifier et d’atténuer les problèmes potentiels dès le début du cycle de vie du cluster.

Liste des bilans de santé approfondis effectués par SageMaker HyperPod

SageMaker HyperPod exécute les contrôles de santé approfondis suivants.

Instance-level bilans de santé approfondis

Catégorie	Nom de l’utilitaire	Compatibilité des types d’instance	Description
Accélérateur	GPU/NVLink nombre	GPU	Vérifie les GPU/NVLink comptes.
Accélérateur	Diagnostic DCGM niveau 4	GPU	Évalue l’intégrité et les fonctionnalités des GPU NVIDIA en exécutant des tests de diagnostic DCGM (NVIDIA Data Center GPU Manager) de niveau 4, y compris des tests de mémoire supplémentaires.
Accélérateur	Neuron sysfs	Trainium	Par Trainium-powered exemple, l'état des appareils Neuron est déterminé en lisant les compteurs des systèmes Neuron propagés directement par le pilote Neuron.
Accélérateur	Vérification du matériel neuronal	Trainium	Exécute une charge de travail de formation et vérifie les résultats pour tester le matériel.
Accélérateur	Test local NCCOM	Trainium	Évalue les performances des opérations de communication collective sur des nœuds Trainium individuels.
Réseau	EFA	GPU et Trainium	Exécute une analyse comparative de la latence et de la bande passante sur le périphérique EFA attaché.

Cluster-level bilans de santé approfondis

Catégorie	Nom de l’utilitaire	Compatibilité des types d’instance	Description
Accélérateur	Test NCCL	GPU	Vérifie les performances des opérations de communication collective sur plusieurs GPU NVIDIA.
Accélérateur	Test du cluster NCCOM	Trainium	Vérifie les performances des opérations de communication collective sur plusieurs nœuds Trainium.

Contrôles de santé approfondis avec des groupes d'instances flexibles

Pour les groupes d'instances utilisés InstanceRequirements avec plusieurs types d'instances, les contrôles de santé approfondis se comportent comme suit :

Instance-level les contrôles de santé approfondis ne sont exécutés que sur les types d'instances GPU éligibles. Les types d'instances de processeur au sein d'un groupe d'instances flexible sont ignorés.
Cluster-level les tests de connectivité (tels que NCCL AllReduce) s'exécutent uniquement entre des instances du même type au sein du groupe d'instances. Cela garantit des résultats de test précis qui reflètent les capacités réseau de chaque type d'instance.
Si les contrôles de santé approfondis sont activés, au moins un type d'instance du groupe d'instances flexible doit prendre en charge les contrôles de santé approfondis.

Journaux issus des vérifications de surveillance approfondie de l’état

Vous trouverez ci-dessous des exemples de journaux issus des bilans de santé SageMaker HyperPod approfondis.

Cluster-level journaux

Les journaux de contrôle de santé approfondis au niveau du cluster sont stockés dans votre groupe de journaux à l'adresse CloudWatch /aws/sagemaker/Clusters/<cluster_name>/<cluster_id>

Les flux de journaux sont consignés dans DeepHealthCheckResults/<log_stream_id>.

À titre d’exemple illustré ci-dessous, les journaux de sortie de surveillance approfondie de l’état indiquent l’ID de l’instance qui a échoué aux vérifications avec la cause de l’échec.


{
    "level": "error",
    "ts": "2024-06-18T21:15:22Z",
    "msg": "Encountered FaultyInstance. Replace the Instance. Region: us-west-2, InstanceType: p4d.24xlarge. ERROR:Bandwidth has less than threshold: Expected minimum threshold :80,NCCL Test output Bw: 30"
}

Instance-level journaux

Les journaux de surveillance approfondie de l’état au niveau de l’instance sont stockés dans /var/log/aws/clusters/sagemaker-deep-health-check.log sur chaque nœud. Connectez-vous via SSH au nœud et ouvrez le fichier journal en exécutant la commande suivante.


cat /var/log/aws/clusters/sagemaker-deep-health-check.log

Voici un exemple de sortie du test de stress matériel, de stress NVIDIA DCGM et de connectivité EFA.


# Hardware Stress Test output

2024-08-20T21:53:58Z info Executing Hardware stress check with command: stress-ng, and args: [--cpu 32 --vm 2 --hdd 1 --fork 8 --switch 4 --timeout 60 --metrics]

2024-08-20T21:54:58Z info stress-ng success

2024-08-20T21:54:58Z    info    GpuPci Count check success

# DCGM Stress Test

2024-08-20T22:25:02Z    info    DCGM diagnostic health summary: dcgmCheckLevel: 0 dcgmVersion: 3.3.7 gpuDriverVersion: 535.183.01, gpuDeviceIds: [2237] replacementRequired: false rebootRequired:false

# EFA Loopback Test

2024-08-20T22:26:28Z    info    EFA Loopback check passed for device: rdmap0s29 . Output summary is MaxBw: 58.590000, AvgBw: 32.420000, MaxTypicalLat: 30.870000, MinTypicalLat: 20.080000, AvgLat: 21.630000

Voici un exemple de résultat du test de connectivité NCCL.


#       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong

#        (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)       

           8             2     float     sum      -1    353.9    0.00    0.00      0    304.2    0.00    0.00      0
          16             4     float     sum      -1    352.8    0.00    0.00      0    422.9    0.00    0.00      0
          32             8     float     sum      -1    520.0    0.00    0.00      0    480.3    0.00    0.00      0
          64            16     float     sum      -1    563.0    0.00    0.00      0    416.1    0.00    0.00      0
         128            32     float     sum      -1    245.1    0.00    0.00      0    308.4    0.00    0.00      0
         256            64     float     sum      -1    310.8    0.00    0.00      0    304.9    0.00    0.00      0
         512           128     float     sum      -1    304.9    0.00    0.00      0    300.8    0.00    0.00      0
        1024           256     float     sum      -1    509.3    0.00    0.00      0    495.4    0.00    0.00      0
        2048           512     float     sum      -1    530.3    0.00    0.00      0    420.0    0.00    0.00      0
        4096          1024     float     sum      -1    391.2    0.01    0.01      0    384.5    0.01    0.01      0
        8192          2048     float     sum      -1    328.5    0.02    0.02      0    253.2    0.03    0.03      0
       16384          4096     float     sum      -1    497.6    0.03    0.03      0    490.9    0.03    0.03      0
       32768          8192     float     sum      -1    496.7    0.07    0.07      0    425.0    0.08    0.08      0
       65536         16384     float     sum      -1    448.0    0.15    0.15      0    501.0    0.13    0.13      0
      131072         32768     float     sum      -1    577.4    0.23    0.23      0    593.4    0.22    0.22      0
      262144         65536     float     sum      -1    757.8    0.35    0.35      0    721.6    0.36    0.36      0
      524288        131072     float     sum      -1   1057.1    0.50    0.50      0   1019.1    0.51    0.51      0
     1048576        262144     float     sum      -1   1460.5    0.72    0.72      0   1435.6    0.73    0.73      0
     2097152        524288     float     sum      -1   2450.6    0.86    0.86      0   2583.1    0.81    0.81      0
     4194304       1048576     float     sum      -1   4344.5    0.97    0.97      0   4419.3    0.95    0.95      0
     8388608       2097152     float     sum      -1   8176.5    1.03    1.03      0   8197.8    1.02    1.02      0
    16777216       4194304     float     sum      -1    15312    1.10    1.10      0    15426    1.09    1.09      0
    33554432       8388608     float     sum      -1    30149    1.11    1.11      0    29941    1.12    1.12      0
    67108864      16777216     float     sum      -1    57819    1.16    1.16      0    58635    1.14    1.14      0
   134217728      33554432     float     sum      -1   115699    1.16    1.16      0   115331    1.16    1.16      0
   268435456      67108864     float     sum      -1   227507    1.18    1.18      0   228047    1.18    1.18      0
   536870912     134217728     float     sum      -1   453751    1.18    1.18      0   456595    1.18    1.18      0
  1073741824     268435456     float     sum      -1   911719    1.18    1.18      0   911808    1.18    1.18      0
  2147483648     536870912     float     sum      -1  1804971    1.19    1.19      0  1806895    1.19    1.19      0

2024-08-20T16:22:43.831-07:00

# Out of bounds values : 0 OK

2024-08-20T16:22:43.831-07:00

# Avg bus bandwidth    : 0.488398 

2024-08-20T23:22:43Z    info    Nccl test successful. Summary: NcclMaxAlgoBw: 1.190000, NcclAvgAlgoBw: 0.488398, NcclThresholdAlgoBw: 1.180000, NcclOutOfBoundError: OK, NcclOperations: all_reduce_perf, NcclTotalDevices: 2, NcclNodes: 2, NcclClusterMessage:

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Vérifications de surveillance de l’état de base

Récupération automatique des nœuds