

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Comprobaciones de estado exhaustivas
<a name="sagemaker-hyperpod-eks-resiliency-deep-health-checks"></a>

SageMaker HyperPod realiza *comprobaciones exhaustivas del estado* de las instancias del clúster durante la creación y actualización de HyperPod los clústeres. También puedes solicitar comprobaciones de estado exhaustivas de un SageMaker HyperPod clúster a pedido mediante la [StartClusterHealthCheck](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StartClusterHealthCheck.html)API. Las exhaustivas comprobaciones de estado garantizan la fiabilidad y la estabilidad de los SageMaker HyperPod clústeres al probar los componentes de hardware e infraestructura subyacentes. Este método proactivo ayuda a identificar y mitigar los posibles problemas en una fase temprana del ciclo de vida del clúster.

## Lista de controles de estado exhaustivos realizados por SageMaker HyperPod
<a name="sagemaker-hyperpod-eks-resiliency-deep-health-checks-list"></a>

SageMaker HyperPod ejecuta las siguientes comprobaciones de estado exhaustivas.

**Instance-level controles de salud profundos**


| Categoría | Nombre de la utilidad | Compatibilidad de los tipos de instancias | Description (Descripción) | 
| --- | --- | --- | --- | 
| Acelerador | GPU/NVLink count | GPU | Verifica los GPU/NVLink recuentos. | 
| Acelerador | [Diagnóstico de DCGM](https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/dcgm-diagnostics.html) de nivel 4 | GPU | Evalúa el estado y la funcionalidad de las GPU de NVIDIA mediante la ejecución de diagnósticos DCGM (administrador de GPU para centros de datos de NVIDIA) del nivel 4, que incluyen pruebas de memoria adicionales. | 
| Acelerador | Neuron sysfs | Trainium | Por ejemplo Trainium-powered , el estado de los dispositivos neuronales se determina mediante la lectura de los contadores de los [sistemas neuronales propagados directamente por el controlador](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-sysfs-user-guide.html) neuronal. | 
| Acelerador | Comprobación del hardware de Neuron | Trainium | Ejecuta una carga de trabajo de entrenamiento y verifica los resultados para probar el hardware. | 
| Acelerador | Prueba local de NCCOM | Trainium | Evalúa el rendimiento de las operaciones de comunicación colectiva en nodos individuales de Trainium. | 
| Network | EFA | GPU y Trainium | Realiza una evaluación comparativa de la latencia y el ancho de banda en el dispositivo EFA asociado. | 

**Cluster-level controles de estado exhaustivos**


| Categoría | Nombre de la utilidad | Compatibilidad de los tipos de instancias | Description (Descripción) | 
| --- | --- | --- | --- | 
| Acelerador | Prueba de NCCL | GPU | Verifica el rendimiento de las operaciones de comunicación colectiva en varias GPU de NVIDIA. | 
| Acelerador | Prueba de clúster de NCCOM | Trainium | Verifica el rendimiento de las operaciones de comunicación colectiva en varios nodos de Trainium. | 

**Controles de estado exhaustivos con grupos de instancias flexibles**  
En el caso de los grupos que se utilizan `InstanceRequirements` con varios tipos de instancias, las comprobaciones de estado exhaustivas se comportan de la siguiente manera:  
Instance-level Las comprobaciones de estado exhaustivas solo se ejecutan en los tipos de instancias de GPU que cumplen los requisitos. Se omiten los tipos de instancias de CPU dentro de un grupo de instancias flexible.
Cluster-level Las pruebas de conectividad (como la NCCL AllReduce) se ejecutan solo entre instancias del mismo tipo dentro del grupo de instancias. Esto garantiza que los resultados de las pruebas sean precisos y reflejen las capacidades de red de cada tipo de instancia.
Si las comprobaciones de estado exhaustivas están habilitadas, al menos un tipo de instancia del grupo de instancias flexible debe admitir las comprobaciones de estado exhaustivas.

## Registros de las comprobaciones de estado exhaustivas
<a name="sagemaker-hyperpod-eks-resiliency-deep-health-checks-log"></a>

A continuación, se muestran ejemplos de registros de las comprobaciones de estado SageMaker HyperPod exhaustivas.

**Cluster-level logs** 

Los registros de comprobaciones de estado exhaustivas a nivel de clúster se almacenan en su CloudWatch grupo de registros en `/aws/sagemaker/Clusters/<cluster_name>/<cluster_id>`

Los flujos de registros se registran en `DeepHealthCheckResults/<log_stream_id>`.

Tal y como se muestra en el siguiente ejemplo, los registros de resultados de las comprobaciones de estado exhaustivas muestran el ID de la instancia que no aprobó las comprobaciones y el motivo del error.

```
{
    "level": "error",
    "ts": "2024-06-18T21:15:22Z",
    "msg": "Encountered FaultyInstance. Replace the Instance. Region: us-west-2, InstanceType: p4d.24xlarge. ERROR:Bandwidth has less than threshold: Expected minimum threshold :80,NCCL Test output Bw: 30"
}
```

**Instance-level logs** 

Los registros de las comprobaciones de estado exhaustivas de instancias se almacenan en `/var/log/aws/clusters/sagemaker-deep-health-check.log` en cada nodo. Para acceder al nodo mediante SSH y abrir el archivo de registro, ejecute el siguiente comando.

```
cat /var/log/aws/clusters/sagemaker-deep-health-check.log
```

A continuación se muestra un ejemplo del resultado de las pruebas de esfuerzo del hardware, las pruebas de esfuerzo de [NVIDIA DCGM](https://developer.nvidia.com/dcgm) y las pruebas de conectividad de EFA.

```
# Hardware Stress Test output

2024-08-20T21:53:58Z info Executing Hardware stress check with command: stress-ng, and args: [--cpu 32 --vm 2 --hdd 1 --fork 8 --switch 4 --timeout 60 --metrics]

2024-08-20T21:54:58Z info stress-ng success

2024-08-20T21:54:58Z    info    GpuPci Count check success

# DCGM Stress Test

2024-08-20T22:25:02Z    info    DCGM diagnostic health summary: dcgmCheckLevel: 0 dcgmVersion: 3.3.7 gpuDriverVersion: 535.183.01, gpuDeviceIds: [2237] replacementRequired: false rebootRequired:false

# EFA Loopback Test

2024-08-20T22:26:28Z    info    EFA Loopback check passed for device: rdmap0s29 . Output summary is MaxBw: 58.590000, AvgBw: 32.420000, MaxTypicalLat: 30.870000, MinTypicalLat: 20.080000, AvgLat: 21.630000
```

A continuación se muestra un ejemplo del resultado de la prueba de conectividad de NCCL.

```
#       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong

#        (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)       

           8             2     float     sum      -1    353.9    0.00    0.00      0    304.2    0.00    0.00      0
          16             4     float     sum      -1    352.8    0.00    0.00      0    422.9    0.00    0.00      0
          32             8     float     sum      -1    520.0    0.00    0.00      0    480.3    0.00    0.00      0
          64            16     float     sum      -1    563.0    0.00    0.00      0    416.1    0.00    0.00      0
         128            32     float     sum      -1    245.1    0.00    0.00      0    308.4    0.00    0.00      0
         256            64     float     sum      -1    310.8    0.00    0.00      0    304.9    0.00    0.00      0
         512           128     float     sum      -1    304.9    0.00    0.00      0    300.8    0.00    0.00      0
        1024           256     float     sum      -1    509.3    0.00    0.00      0    495.4    0.00    0.00      0
        2048           512     float     sum      -1    530.3    0.00    0.00      0    420.0    0.00    0.00      0
        4096          1024     float     sum      -1    391.2    0.01    0.01      0    384.5    0.01    0.01      0
        8192          2048     float     sum      -1    328.5    0.02    0.02      0    253.2    0.03    0.03      0
       16384          4096     float     sum      -1    497.6    0.03    0.03      0    490.9    0.03    0.03      0
       32768          8192     float     sum      -1    496.7    0.07    0.07      0    425.0    0.08    0.08      0
       65536         16384     float     sum      -1    448.0    0.15    0.15      0    501.0    0.13    0.13      0
      131072         32768     float     sum      -1    577.4    0.23    0.23      0    593.4    0.22    0.22      0
      262144         65536     float     sum      -1    757.8    0.35    0.35      0    721.6    0.36    0.36      0
      524288        131072     float     sum      -1   1057.1    0.50    0.50      0   1019.1    0.51    0.51      0
     1048576        262144     float     sum      -1   1460.5    0.72    0.72      0   1435.6    0.73    0.73      0
     2097152        524288     float     sum      -1   2450.6    0.86    0.86      0   2583.1    0.81    0.81      0
     4194304       1048576     float     sum      -1   4344.5    0.97    0.97      0   4419.3    0.95    0.95      0
     8388608       2097152     float     sum      -1   8176.5    1.03    1.03      0   8197.8    1.02    1.02      0
    16777216       4194304     float     sum      -1    15312    1.10    1.10      0    15426    1.09    1.09      0
    33554432       8388608     float     sum      -1    30149    1.11    1.11      0    29941    1.12    1.12      0
    67108864      16777216     float     sum      -1    57819    1.16    1.16      0    58635    1.14    1.14      0
   134217728      33554432     float     sum      -1   115699    1.16    1.16      0   115331    1.16    1.16      0
   268435456      67108864     float     sum      -1   227507    1.18    1.18      0   228047    1.18    1.18      0
   536870912     134217728     float     sum      -1   453751    1.18    1.18      0   456595    1.18    1.18      0
  1073741824     268435456     float     sum      -1   911719    1.18    1.18      0   911808    1.18    1.18      0
  2147483648     536870912     float     sum      -1  1804971    1.19    1.19      0  1806895    1.19    1.19      0

2024-08-20T16:22:43.831-07:00

# Out of bounds values : 0 OK

2024-08-20T16:22:43.831-07:00

# Avg bus bandwidth    : 0.488398 

2024-08-20T23:22:43Z    info    Nccl test successful. Summary: NcclMaxAlgoBw: 1.190000, NcclAvgAlgoBw: 0.488398, NcclThresholdAlgoBw: 1.180000, NcclOutOfBoundError: OK, NcclOperations: all_reduce_perf, NcclTotalDevices: 2, NcclNodes: 2, NcclClusterMessage:
```