

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# SageMaker HyperPod monitoreo de recursos de clústeres
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

Para lograr una observabilidad completa de los recursos y componentes de software de su SageMaker HyperPod clúster, integre el clúster con [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) y [Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Managed Grafana. La integración con Amazon Managed Service para Prometheus permite exportar métricas relacionadas con los recursos de HyperPod su clúster, lo que proporciona información sobre su rendimiento, uso y estado. La integración con Amazon Managed Grafana permite la visualización de estas métricas a través de varios paneles de Grafana que ofrecen una interfaz intuitiva para supervisar y analizar el comportamiento del clúster. Al aprovechar estos servicios, obtiene una visión centralizada y unificada de su HyperPod clúster, lo que facilita la supervisión proactiva, la solución de problemas y la optimización de sus cargas de trabajo de formación distribuidas.

**sugerencia**  
[Para encontrar ejemplos y soluciones prácticos, consulte también el SageMaker HyperPod taller.](https://catalog.workshops.aws/sagemaker-hyperpod)

![\[Información general sobre la configuración SageMaker HyperPod con Amazon Managed Service para Prometheus y Amazon Managed Grafana.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


Figura: Este diagrama de arquitectura muestra una descripción general de la configuración SageMaker HyperPod con Amazon Managed Service for Prometheus y Amazon Managed Grafana.

Continúe con los siguientes temas para configurar la observabilidad del clúster. SageMaker HyperPod 

**Topics**
+ [Requisitos previos para la observabilidad de los SageMaker HyperPod conglomerados](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [Instalación de paquetes de exportación de métricas en su clúster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [Validación de la configuración de Prometheus en el nodo principal de un clúster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [Configuración de un espacio de trabajo de Amazon Managed Grafana](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [Referencia de métricas exportadas](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Métricas de Amazon SageMaker HyperPod Slurm](smcluster-slurm-metrics.md)

# Requisitos previos para la observabilidad de los SageMaker HyperPod conglomerados
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites"></a>

Antes de continuar con los pasos para [Instalación de paquetes de exportación de métricas en su clúster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md), asegúrese de que se cumplen los siguientes requisitos previos.

## Activar IAM Identity Center
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-iam-id-center"></a>

Para habilitar la observabilidad de su SageMaker HyperPod clúster, primero debe habilitar el IAM Identity Center. Este es un requisito previo para implementar una CloudFormation pila que configure el espacio de trabajo de Grafana gestionado por Amazon y el Servicio gestionado de Amazon para Prometheus. Estos dos servicios también necesitan que esté habilitado IAM Identity Center para la autenticación y la autorización, lo que garantiza el acceso seguro de los usuarios y la administración de la infraestructura de supervisión.

Para obtener instrucciones detalladas sobre cómo habilitar IAM Identity Center, consulte la sección [Habilitación de AWS IAM Identity Center](https://docs.aws.amazon.com/singlesignon/latest/userguide/get-set-up-for-idc.html) en la *Guía del usuario de AWS IAM Identity Center*. 

Tras habilitar correctamente IAM Identity Center, configure una cuenta de usuario que sirva como usuario administrativo en los siguientes procedimientos de configuración.

## Cree e implemente una pila para garantizar la CloudFormation observabilidad SageMaker HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-cloudformation-stack"></a>

Cree e implemente una CloudFormation pila de SageMaker HyperPod observabilidad para monitorear las métricas de los HyperPod clústeres en tiempo real con Amazon Managed Service for Prometheus y Amazon Managed Grafana. Para implementar la pila, tenga en cuenta que también debe habilitar previamente [IAM Identity Center](https://console.aws.amazon.com/singlesignon).

Utilice el CloudFormation script de muestra [https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml)que le ayuda a configurar las subredes de Amazon VPC, los sistemas de archivos Amazon FSx for Lustre, los buckets de Amazon S3 y las funciones de IAM necesarias para crear una pila de observabilidad de clústeres. HyperPod 

# Instalación de paquetes de exportación de métricas en su clúster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-install-exporters"></a>

En la [configuración básica, los scripts del ciclo](sagemaker-hyperpod-lifecycle-best-practices-slurm-slurm-base-config.md) de vida que proporciona el SageMaker HyperPod equipo también incluyen la instalación de varios paquetes de exportación de métricas. Para activar el paso de instalación, lo único que tiene que hacer es configurar el parámetro `enable_observability=True` en el archivo [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py). Los scripts de ciclo de vida están diseñados para arrancar el clúster con los siguientes paquetes de exportador de métricas de código abierto.


|  |  |  | 
| --- |--- |--- |
| Nombre | Nodo de destino de la implementación del script | Descripción del exportador | 
| [Exportador de Slurm para Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) | Nodo principal (controlador) |  Exporta las métricas de contabilidad de Slurm.  | 
|  [Exportador de nodos de Elastic Fabric Adapter (EFA)](https://github.com/aws-samples/awsome-distributed-training/tree/main/4.validation_and_observability/3.efa-node-exporter)  |  Nodo de computación  |  Exporta métricas de los nodos del clúster y EFA. El paquete es una bifurcación del [exportador de nodos de Prometheus](https://github.com/prometheus/node_exporter).  | 
|  [Exportador de NVIDIA Data Center GPU Management (DCGM)](https://github.com/NVIDIA/dcgm-exporter)  | Nodo de computación |  Exporta las métricas DCGM de NVIDIA sobre el estado y el rendimiento de NVIDIA. GPUs  | 

Con `enable_observability=True` en el archivo [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py), se activa el siguiente paso de instalación en el script [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py). 

```
# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()
```

En los nodos de computación, el script instala el exportador de NVIDIA Data Center GPU Management (DCGM) y el exportador de nodos de Elastic Fabric Adapter (EFA). El exportador DCGM es un exportador de Prometheus que recopila métricas de NVIDIA y permite monitorear el uso GPUs, el rendimiento y el estado de la GPU. Por otro lado, el exportador de nodos de EFA recopila métricas relacionadas con la interfaz de red de EFA, que es esencial para la comunicación de baja latencia y gran ancho de banda en los clústeres de HPC.

En el nodo principal, el script instala el exportador de Slurm para Prometheus y el [software de código abierto de Prometheus](https://prometheus.io/docs/introduction/overview/). El exportador de Slurm proporciona a Prometheus métricas relacionadas con los trabajos, las particiones y los estados de los nodos de Slurm.

Tenga en cuenta que los scripts de ciclo de vida están diseñados para instalar todos los paquetes de exportador como contenedores de Docker, por lo que el paquete de Docker debe instalarse tanto en los nodos principales como en los de procesamiento. *Los scripts de estos componentes se encuentran cómodamente en la [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils)carpeta del repositorio Awsome Distributed Training. GitHub *

Una vez que haya configurado correctamente el HyperPod clúster instalado con los paquetes de exportación, continúe con el tema siguiente para terminar de configurar Amazon Managed Service para Prometheus y Amazon Managed Grafana.

# Validación de la configuración de Prometheus en el nodo principal de un clúster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

Una vez que haya configurado correctamente el HyperPod clúster instalado con los paquetes de exportación, compruebe si Prometheus está correctamente configurado en el nodo principal del clúster. HyperPod 

1. Conecte con el nodo principal del clúster. Para obtener instrucciones sobre cómo acceder a un nodo, consulte [Acceder a los nodos SageMaker HyperPod de su clúster](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md).

1. Ejecute el siguiente comando para comprobar que el archivo de configuración y servicio de Prometheus creado por el script de ciclo de vida `install_prometheus.sh` se esté ejecutando en el nodo de controlador. El resultado debería mostrar el estado Activo como **active (running)**.

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. Valide el archivo de configuración de Prometheus de la siguiente manera. El resultado debe ser similar al siguiente, con tres exportadores configurados con las direcciones IP de los nodos de computación correctas.

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Para comprobar si Prometheus está exportando correctamente las métricas de Slurm, DCGM y EFA, ejecute el siguiente comando `curl` para Prometheus en el puerto `:9090` del nodo principal.

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   Con las métricas exportadas al espacio de trabajo de Amazon Managed Service para Prometheus a través de la configuración de escritura remota de Prometheus desde el nodo de controlador, puede continuar con el siguiente tema para configurar los paneles de Amazon Managed Grafana para mostrar las métricas.

# Configuración de un espacio de trabajo de Amazon Managed Grafana
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws"></a>

Cree un nuevo espacio de trabajo de Amazon Managed Grafana o actualice un espacio de trabajo de Amazon Managed Grafana existente con Amazon Managed Service para Prometheus como origen de datos.

**Topics**
+ [Creación de un espacio de trabajo de Grafana y configuración de Amazon Managed Service para Prometheus como origen de datos](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-create)
+ [Apertura del espacio de trabajo de Grafana y finalización de la configuración del origen de datos](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-connect-data-source)
+ [Importación de paneles de código abierto de Grafana](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-import-dashboards)

## Creación de un espacio de trabajo de Grafana y configuración de Amazon Managed Service para Prometheus como origen de datos
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-create"></a>

Para visualizar las métricas de Amazon Managed Service para Prometheus, cree un espacio de trabajo de Amazon Managed Grafana y configúrelo para utilizar Amazon Managed Service para Prometheus como origen de datos.

1. Para crear un espacio de trabajo de Grafana, siga las instrucciones en [Creating a workspace](https://docs.aws.amazon.com/grafana/latest/userguide/AMG-create-workspace.html#creating-workspace) en la *Guía del usuario de Amazon Managed Service para Prometheus*.

   1. En el paso 13, seleccione Amazon Managed Service para Prometheus como origen de datos.

   1. En el paso 17, puede añadir el usuario administrador y otros usuarios a IAM Identity Center.

Para obtener más información, consulte también los siguientes recursos.
+ [Set up Amazon Managed Grafana for use with Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/AMP-amg.html) en la *Guía del usuario de Amazon Managed Service para Prometheus*.
+ [Usa la configuración de la fuente de AWS datos para añadir Amazon Managed Service for Prometheus como fuente de datos](https://docs.aws.amazon.com/grafana/latest/userguide/AMP-adding-AWS-config.html) en la Guía del usuario de *Amazon Managed Grafana*

## Apertura del espacio de trabajo de Grafana y finalización de la configuración del origen de datos
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-connect-data-source"></a>

Una vez que haya creado o actualizado correctamente un espacio de trabajo de Amazon Managed Grafana, seleccione la URL del espacio de trabajo para abrirlo. Al hacer esto, se le pedirá que introduzca un nombre de usuario y la contraseña del usuario que haya configurado en IAM Identity Center. Debe iniciar sesión con el usuario administrador para terminar de configurar el espacio de trabajo.

1. En la **Página principal** del espacio de trabajo, seleccione **Aplicaciones**, **Orígenes de datos de AWS ** y **Orígenes de datos**.

1. En la página **Orígenes de datos**, elija la pestaña **Orígenes de datos**.

1. En **Servicio**, elija Amazon Managed Service para Prometheus.

1. En la sección **Explorar y aprovisionar fuentes de datos**, elige la AWS región en la que aprovisionaste un espacio de trabajo de Amazon Managed Service for Prometheus.

1. En la lista de orígenes de datos de la región seleccionada, elija el de Amazon Managed Service para Prometheus. Asegúrese de comprobar el ID del recurso y el alias del recurso del espacio de trabajo de Amazon Managed Service for Prometheus que ha configurado HyperPod para la pila de observabilidad.

## Importación de paneles de código abierto de Grafana
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-import-dashboards"></a>

Una vez que haya configurado correctamente el espacio de trabajo de Amazon Managed Grafana con Amazon Managed Service para Prometheus como origen de datos, empezará a recopilar métricas para Prometheus y, a continuación, empezará a ver los distintos paneles con gráficos, información y mucho más. El software de código abierto de Grafana proporciona varios paneles y puede importarlos en Amazon Managed Grafana.

**Importación de paneles de Grafana de código abierto en Amazon Managed Grafana**

1. En la **Página de inicio** del espacio de trabajo de Amazon Managed Grafana, seleccione **Paneles**.

1. Seleccione el botón del menú desplegable con el texto **Nuevo** de la interfaz de usuario y elija **Importar**.

1. Pegue la URL en el [Panel de Slurm](https://grafana.com/grafana/dashboards/4323-slurm-dashboard/).

   ```
   https://grafana.com/grafana/dashboards/4323-slurm-dashboard/
   ```

1. Seleccione **Cargar**.

1. Repita los pasos anteriores para importar los siguientes paneles.

   1. [Panel del exportador de nodos completo](https://grafana.com/grafana/dashboards/1860-node-exporter-full/)

      ```
      https://grafana.com/grafana/dashboards/1860-node-exporter-full/
      ```

   1. [Panel del exportador de NVIDIA DCGM](https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/)

      ```
      https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/
      ```

   1. [Panel de métricas de EFA](https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/)

      ```
      https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/
      ```

   1. [FSx para Lustre Metrics Dashboard](https://grafana.com/grafana/dashboards/20906-fsx-lustre/)

      ```
      https://grafana.com/grafana/dashboards/20906-fsx-lustre/
      ```

# Referencia de métricas exportadas
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference"></a>

En las siguientes secciones se presentan listas completas de métricas exportadas desde SageMaker HyperPod Amazon Managed Service for Prometheus tras la correcta configuración de la pila para garantizar CloudFormation la observabilidad. SageMaker HyperPod Puede empezar a supervisar estas métricas visualizadas en los paneles de Amazon Managed Grafana.

## Panel del exportador de Slurm
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-slurm-exporter"></a>

Proporciona información visualizada de los clústeres de Slurm en. SageMaker HyperPod

**Tipos de métricas**
+ **Información general acerca del clúster:** muestra el número total de nodos, trabajos y sus estados.
+ **Métricas de trabajo:** muestran los recuentos y estados de los trabajos a lo largo del tiempo.
+ **Métricas de nodo:** muestra los estados, la asignación y los recursos disponibles de los nodos.
+ **Métricas de partición:** supervisan métricas específicas de una partición, como el uso de la CPU, la memoria y la GPU.
+ **Eficiencia del trabajo:** calcula la eficiencia del trabajo en función de los recursos utilizados.

**Lista de métricas**


| Nombre de métrica | Description (Descripción) | 
| --- | --- | 
| slurm\$1job\$1count | Número total de trabajos en el clúster de Slurm | 
| slurm\$1job\$1state\$1count | Recuento de trabajos en cada estado (p. ej., en ejecución, pendientes o completados) | 
| slurm\$1node\$1count  | Número total de nodos en el clúster de Slurm | 
| slurm\$1node\$1state\$1count  | Recuento de nodos en cada estado (p. ej., inactivos, asignados, mixtos) | 
| slurm\$1partition\$1node\$1count  | Recuento de nodos en cada partición | 
| slurm\$1partition\$1job\$1count  | Recuento de trabajos en cada partición | 
| slurm\$1partition\$1alloc\$1cpus  | Número total de unidades asignadas en cada partición CPUs  | 
| slurm\$1partition\$1free\$1cpus  | Número total de unidades disponibles CPUs en cada partición | 
| slurm\$1partition\$1alloc\$1memory  | Memoria total asignada en cada partición | 
| slurm\$1partition\$1free\$1memory  | Memoria total disponible en cada partición | 
| slurm\$1partition\$1alloc\$1gpus  | Total asignado GPUs en cada partición | 
| slurm\$1partition\$1free\$1gpus  | Total disponible GPUs en cada partición | 

## Panel del exportador de nodos
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-node-exporter"></a>

Proporciona información visualizada de las métricas del sistema recopiladas por el exportador de nodos de [Prometheus desde los nodos](https://github.com/prometheus/node_exporter) del clúster. HyperPod 

**Tipos de métricas**
+ **Información general del sistema:** muestra las cargas medias de la CPU y el uso de memoria.
+ **Métricas de memoria:** muestran el uso de la memoria, incluida la memoria total, la memoria libre y el espacio de intercambio.
+ **Uso del disco:** supervisa la utilización y la disponibilidad del espacio en disco.
+ **Tráfico de red:** muestra los bytes de red recibidos y transmitidos a lo largo del tiempo.
+ **Métricas del sistema de archivos:** analizan el uso y la disponibilidad del sistema de archivos.
+ ** I/O Métricas de disco:** visualización de la actividad de lectura y escritura del disco.

**Lista de métricas**

Para obtener una lista completa de las métricas exportadas, consulta el [exportador de nodos y los repositorios GitHub ](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default) [procfs](https://github.com/prometheus/procfs?tab=readme-ov-file). En la siguiente tabla, se muestra un subconjunto de métricas que proporciona información sobre la utilización de los recursos del sistema, como la carga de la CPU, el uso de la memoria, el espacio en disco y la actividad de la red.


| Nombre de métrica | Description (Descripción) | 
| --- | --- | 
|  node\$1load1  | Carga media en 1 minuto | 
|  node\$1load5  | Carga media en 5 minutos | 
|  node\$1load15  | Carga media en 15 minutos | 
|  node\$1memory\$1MemTotal  | Memoria total del sistema | 
|  node\$1memory\$1MemFree  | Memoria libre del sistema | 
|  node\$1memory\$1MemAvailable  | Memoria disponible para asignación a procesos | 
|  node\$1memory\$1Buffers  | Memoria utilizada por el kernel para el almacenamiento en el búfer | 
|  node\$1memory\$1Cached  | Memoria utilizada por el kernel para almacenar en caché los datos del sistema de archivos | 
|  node\$1memory\$1SwapTotal  | Espacio de intercambio total disponible | 
|  node\$1memory\$1SwapFree  | Espacio de intercambio libre | 
|  node\$1memory\$1SwapCached  | La memoria que ya se ha intercambiado antes se restaura, pero sigue en intercambio | 
|  node\$1filesystem\$1avail\$1bytes  | Espacio en disco disponible en bytes | 
|  node\$1filesystem\$1size\$1bytes  | Espacio total en disco en bytes | 
|  node\$1filesystem\$1free\$1bytes  | Espacio libre en disco en bytes | 
|  node\$1network\$1receive\$1bytes  | Bytes de red recibidos | 
|  node\$1network\$1transmit\$1bytes  | Bytes de red transmitidos | 
|  node\$1disk\$1read\$1bytes  | Bytes de disco leídos | 
|  node\$1disk\$1written\$1bytes  | Bytes de disco escritos | 

## Panel del exportador de NVIDIA DCGM
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-nvidia-dcgm-exporter"></a>

Proporciona información visualizada de las métricas de la GPU de NVIDIA que recopila el [exportador de NVIDIA DCGM](https://github.com/NVIDIA/dcgm-exporter).

**Tipos de métricas**
+ **Información general de la GPU:** muestra el uso de la GPU, las temperaturas, el consumo de energía y el uso de memoria. 
+ **Métricas de temperatura:** muestra las temperaturas de la GPU a lo largo del tiempo. 
+ **Uso de energía:** supervisa el consumo de energía de la GPU y las tendencias de uso de energía. 
+ **Utilización de memoria:** analiza el uso de la memoria de la GPU, incluida la memoria utilizada, la memoria libre y la memoria total. 
+ **Velocidad del ventilador:** muestra las velocidades y variaciones de los ventiladores de la GPU. 
+ **Errores de ECC:** realiza un seguimiento de los errores de ECC y los errores pendientes de la memoria de la GPU.

**Lista de métricas**

En la siguiente tabla, se muestra una lista de las métricas que proporcionan información sobre el estado y el rendimiento de la GPU de NVIDIA, incluidas las frecuencias de reloj, las temperaturas, el uso de la energía, la utilización de la memoria, las velocidades de los ventiladores y las métricas de error.


| Nombre de métrica | Description (Descripción) | 
| --- | --- | 
|  DCGM\$1FI\$1DEV\$1SM\$1CLOCK  | Frecuencia de reloj SM (pulgadas) MHz | 
|  DCGM\$1FI\$1DEV\$1MEM\$1CLOCK  | Frecuencia de reloj de memoria (pulgadas MHz) | 
|  DCGM\$1FI\$1DEV\$1MEMORY\$1TEMP  | Temperatura de la memoria (en °C) | 
|  DCGM\$1FI\$1DEV\$1GPU\$1TEMP  | Temperatura de la GPU (en °C) | 
|  DCGM\$1FI\$1DEV\$1POWER\$1USAGE  | Consumo de energía (en W) | 
|  DCGM\$1FI\$1DEV\$1TOTAL\$1ENERGY\$1CONSUMPTION  | Consumo total de energía desde el arranque (en mJ) | 
|  DCGM\$1FI\$1DEV\$1PCIE\$1REPLAY\$1COUNTER  | Número total de PCIe reintentos | 
|  DCGM\$1FI\$1DEV\$1MEM\$1COPY\$1UTIL  | Utilización de la memoria (en %) | 
|  DCGM\$1FI\$1DEV\$1ENC\$1UTIL  | Utilización del codificador (en %) | 
|  DCGM\$1FI\$1DEV\$1DEC\$1UTIL  | Utilización del decodificador (en %) | 
|  DCGM\$1FI\$1DEV\$1XID\$1ERRORS  | Valor del último error de XID detectado | 
|  DCGM\$1FI\$1DEV\$1FB\$1FREE  | Memoria de búfer de fotogramas libre (en MiB) | 
|  DCGM\$1FI\$1DEV\$1FB\$1USED  | Memoria de búfer de fotogramas libre (en MiB) | 
|  DCGM\$1FI\$1DEV\$1NVLINK\$1BANDWIDTH\$1TOTAL  | Número total de contadores de NVLink ancho de banda para todos los carriles | 
|  DCGM\$1FI\$1DEV\$1VGPU\$1LICENSE\$1STATUS  | Estado de las licencias de vGPU | 
|  DCGM\$1FI\$1DEV\$1UNCORRECTABLE\$1REMAPPED\$1ROWS  | Número de filas reasignadas por errores incorregibles | 
|  DCGM\$1FI\$1DEV\$1CORRECTABLE\$1REMAPPED\$1ROWS  | Número de filas reasignadas por errores corregibles | 
|  DCGM\$1FI\$1DEV\$1ROW\$1REMAP\$1FAILURE  | Si la reasignación de filas ha fallado | 

## Panel de métricas de EFA
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-efa-exporter"></a>

Proporciona información visualizada de las métricas de [Amazon Elastic Fabric Adapter (EFA)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa.html) equipadas en instancias P recopiladas por el [exportador de nodos de EFA](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md).

**Tipos de métricas**
+ **Métricas de errores de EFA:** muestran errores como errores de asignación, errores de comando y errores de mapas de memoria.
+ **Tráfico de red de EFA:** supervisa los bytes, paquetes y solicitudes de trabajo recibidos y transmitidos.
+ **Rendimiento de EFA RDMA:** analiza las operaciones de lectura y escritura de RDMA, incluidos los bytes transferidos y las tasas de error.
+ **Vida útil de los puertos de EFA:** muestra la vida útil de los puertos de EFA a lo largo del tiempo.
+ **Paquetes keep-alive de EFA**: realizan un seguimiento del número de paquetes keep-alive recibidos.

**Lista de métricas**

En la siguiente tabla, se muestra una lista de las métricas que proporcionan información sobre diversos aspectos del funcionamiento de EFA, incluidos errores, comandos completados, tráfico de red y utilización de los recursos.


| Nombre de métrica | Description (Descripción) | 
| --- | --- | 
|  node\$1amazonefa\$1info  | Datos no numéricos de/sys/class/infiniband/, el valor siempre es 1. | 
|  node\$1amazonefa\$1lifespan  | Vida útil del puerto | 
|  node\$1amazonefa\$1rdma\$1read\$1bytes  | Número de bytes leídos con RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1resp\$1bytes  | Número de bytes de respuesta de lectura con RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wr\$1err  | Número de errores de lectura/escritura con RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wrs  | Número de rs de lectura con RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1bytes  | Número de bytes escritos con RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1recv\$1bytes  | Número de bytes leídos y recibidos con RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wr\$1err  | Número de bytes escritos con error con RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wrs  | Número de bytes escritos de wrs con RDMA | 
|  node\$1amazonefa\$1recv\$1bytes  | Número de bytes recibidos | 
|  node\$1amazonefa\$1recv\$1wrs  | Número de bytes recibidos de wrs | 
|  node\$1amazonefa\$1rx\$1bytes  | Número de bytes recibidos | 
|  node\$1amazonefa\$1rx\$1drops  | Número de paquetes descartados | 
|  node\$1amazonefa\$1rx\$1pkts  | Número de paquetes recibidos | 
|  node\$1amazonefa\$1send\$1bytes  | Número de bytes enviados | 
|  node\$1amazonefa\$1send\$1wrs  | Número de wrs enviados | 
|  node\$1amazonefa\$1tx\$1bytes  | Número de bytes transmitidos | 
|  node\$1amazonefa\$1tx\$1pkts  | Número de paquetes transmitidos | 

## FSx para el panel de métricas de Lustre
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-fsx-exporter"></a>

[Proporciona información visualizada de [las métricas del sistema de archivos Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html) recopiladas por Amazon. CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html)

**nota**  
El panel de control de Grafana FSx for Lustre utiliza Amazon CloudWatch como fuente de datos, lo que difiere de los demás paneles que ha configurado para utilizar Amazon Managed Service for Prometheus. Para garantizar una supervisión y visualización precisas de las métricas relacionadas con su sistema de archivos de FSx for Lustre, configure el panel de control de FSx for Lustre para que utilice Amazon CloudWatch como fuente de datos, especificando la misma ubicación en la que Región de AWS se implementa su sistema de archivos de FSx for Lustre.

**Tipos de métricas**
+ **DataReadBytes:** el número de bytes para las operaciones de lectura del sistema de archivos.
+ **DataWriteBytes:** el número de bytes de las operaciones de escritura del sistema de archivos.
+ **DataReadOperations:** el número de operaciones de lectura.
+ **DataWriteOperations:** El número de operaciones de escritura.
+ **MetadataOperations:** El número de operaciones de metadatos.
+ **FreeDataStorageCapacity:** La cantidad de capacidad de almacenamiento disponible.

# Métricas de Amazon SageMaker HyperPod Slurm
<a name="smcluster-slurm-metrics"></a>

Amazon SageMaker HyperPod proporciona un conjunto de CloudWatch métricas de Amazon que puedes usar para monitorear el estado y el rendimiento de tus HyperPod clústeres. Estas métricas se recopilan del administrador de cargas de trabajo Slurm que se ejecuta en sus HyperPod clústeres y están disponibles en el `/aws/sagemaker/Clusters` CloudWatch espacio de nombres.

## Métricas de nivel de clúster
<a name="smcluster-slurm-metrics-cluster"></a>

Están disponibles las siguientes métricas a nivel de clúster para. HyperPod Estas métricas utilizan la `ClusterId` dimensión para identificar el clúster específico. HyperPod 


| CloudWatch nombre de la métrica | Notas | Nombre de la métrica de Información de contenedores de Amazon EKS | 
| --- | --- | --- | 
| cluster\$1node\$1count | Número total de nodos en el clúster | cluster\$1node\$1count | 
| cluster\$1idle\$1node\$1count | Número de nodos inactivos en el clúster | N/A | 
| cluster\$1failed\$1node\$1count | Número de nodos fallidos en el clúster | cluster\$1failed\$1node\$1count | 
| cluster\$1cpu\$1count | Número total de núcleos de CPU del clúster | node\$1cpu\$1limit | 
| cluster\$1idle\$1cpu\$1count | Número de nodos de CPU inactivos en el clúster | N/A | 
| cluster\$1gpu\$1count | Total GPUs del clúster | node\$1gpu\$1limit | 
| cluster\$1idle\$1gpu\$1count | Número de inactivos GPUs en el clúster | N/A | 
| cluster\$1running\$1task\$1count | Número de trabajos de Slurm en ejecución en el clúster | N/A | 
| cluster\$1pending\$1task\$1count | Número de trabajos de Slurm pendientes en el clúster | N/A | 
| cluster\$1preempted\$1task\$1count | Número de trabajos de Slurm antepuestos en el clúster | N/A | 
| cluster\$1avg\$1task\$1wait\$1time | Tiempo de espera medio de los trabajos de Slurm en el clúster | N/A | 
| cluster\$1max\$1task\$1wait\$1time | Tiempo de espera máximo de los trabajos de Slurm en el clúster | N/A | 

## Métricas de nivel de instancia
<a name="smcluster-slurm-metrics-instance"></a>

Están disponibles las siguientes métricas a nivel de instancia para. HyperPod Estas métricas también utilizan la `ClusterId` dimensión para identificar el clúster específico. HyperPod 


| CloudWatch nombre de la métrica | Notas | Nombre de la métrica de Información de contenedores de Amazon EKS | 
| --- | --- | --- | 
| node\$1gpu\$1utilization | Utilización media de la GPU en todas las instancias | node\$1gpu\$1utilization | 
| node\$1gpu\$1memory\$1utilization | Utilización media de la memoria de la GPU en todas las instancias | node\$1gpu\$1memory\$1utilization | 
| node\$1cpu\$1utilization | Utilización media de la CPU en todas las instancias | node\$1cpu\$1utilization | 
| node\$1memory\$1utilization | Utilización media de la memoria en todas las instancias | node\$1memory\$1utilization | 