

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# SageMaker HyperPod surveillance des ressources du cluster
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

Pour obtenir une observabilité complète des ressources et des composants logiciels de votre SageMaker HyperPod cluster, intégrez le cluster à [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) et à [Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Managed Grafana. L'intégration avec Amazon Managed Service for Prometheus permet d'exporter les métriques relatives aux ressources de HyperPod votre cluster, fournissant ainsi des informations sur leurs performances, leur utilisation et leur état de santé. L’intégration avec Amazon Managed Grafana permet de visualiser ces métriques via différents tableaux de bord Grafana, qui offrent une interface intuitive pour surveiller et analyser le comportement du cluster. En tirant parti de ces services, vous bénéficiez d'une vue centralisée et unifiée de votre HyperPod cluster, ce qui facilite la surveillance proactive, le dépannage et l'optimisation de vos charges de travail de formation distribuées.

**Astuce**  
Pour trouver des exemples pratiques et des solutions, consultez également l'[SageMaker HyperPodatelier](https://catalog.workshops.aws/sagemaker-hyperpod).

![\[Présentation de la configuration SageMaker HyperPod avec Amazon Managed Service pour Prometheus et Amazon Managed Grafana.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


Figure : Ce schéma d'architecture présente une vue d'ensemble de la configuration SageMaker HyperPod avec Amazon Managed Service for Prometheus et Amazon Managed Grafana.

Passez aux rubriques suivantes pour configurer l'observabilité SageMaker HyperPod du cluster.

**Topics**
+ [Conditions préalables à l'observabilité des SageMaker HyperPod clusters](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [Installation de packages d'exportation de métriques sur votre HyperPod cluster](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [Validation de la configuration de Prometheus sur le nœud principal d'un cluster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [Configuration d’un espace de travail Amazon Managed Grafana](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [Référence des métriques exportées](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Statistiques Amazon SageMaker HyperPod Slurm](smcluster-slurm-metrics.md)

# Conditions préalables à l'observabilité des SageMaker HyperPod clusters
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites"></a>

Avant de passer aux étapes d’[Installation de packages d'exportation de métriques sur votre HyperPod cluster](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md), assurez-vous de respecter les conditions préalables suivantes.

## Activer IAM Identity Center
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-iam-id-center"></a>

Pour activer l'observabilité de votre SageMaker HyperPod cluster, vous devez d'abord activer IAM Identity Center. Il s'agit d'une condition préalable au déploiement d'une CloudFormation pile qui configure l'espace de travail Amazon Managed Grafana et Amazon Managed Service pour Prometheus. Ces deux services nécessitent également IAM Identity Center pour l’authentification et l’autorisation, afin de garantir un accès utilisateur sécurisé et la gestion de l’infrastructure de surveillance.

Pour obtenir des instructions détaillées sur l’activation d’IAM Identity Center, consultez la section [Activation d’IAM Identity Center](https://docs.aws.amazon.com/singlesignon/latest/userguide/get-set-up-for-idc.html) dans le *Guide de l’utilisateur AWS IAM Identity Center*. 

Après avoir activé IAM Identity Center avec succès, configurez un compte d’utilisateur qui servira d’utilisateur administratif dans toutes les procédures de configuration suivantes.

## Créez et déployez une CloudFormation pile pour l' SageMaker HyperPod observabilité
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-cloudformation-stack"></a>

Créez et déployez une CloudFormation pile d' SageMaker HyperPod observabilité afin de surveiller les métriques du HyperPod cluster en temps réel à l'aide d'Amazon Managed Service pour Prometheus et d'Amazon Managed Grafana. Pour déployer la pile, notez que vous devez également activer [IAM Identity Center](https://console.aws.amazon.com/singlesignon) au préalable.

Utilisez l'exemple de CloudFormation script [https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml)qui vous aide à configurer les sous-réseaux Amazon VPC, les systèmes de fichiers Amazon FSx for Lustre, les compartiments Amazon S3 et les rôles IAM nécessaires à la création d'une pile d'observabilité de cluster. HyperPod 

# Installation de packages d'exportation de métriques sur votre HyperPod cluster
<a name="sagemaker-hyperpod-cluster-observability-slurm-install-exporters"></a>

Dans la [configuration de base, les scripts de cycle](sagemaker-hyperpod-lifecycle-best-practices-slurm-slurm-base-config.md) de vie fournis par l' SageMaker HyperPod équipe incluent également l'installation de divers packages d'exportation de métriques. Pour activer l’étape d’installation, il vous suffit de définir le paramètre `enable_observability=True` dans le fichier [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py). Les scripts de cycle de vie sont conçus pour amorcer votre cluster avec les packages de l’exportateur de métriques open source suivants.


|  |  |  | 
| --- |--- |--- |
| Nom | Nœud cible de déploiement des scripts | Description de l’exportateur | 
| [Exportateur Slurm pour Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) | Nœud principal (contrôleur) |  Exporte les métriques de comptabilité Slurm.  | 
|  [Exportateur de nœuds Elastic Fabric Adapter (EFA)](https://github.com/aws-samples/awsome-distributed-training/tree/main/4.validation_and_observability/3.efa-node-exporter)  |  Nœud de calcul  |  Exporte les métriques à partir des nœuds du cluster et EFA. Le package est une duplication de l’[exportateur de nœuds Prometheus](https://github.com/prometheus/node_exporter).  | 
|  [Exportateur NVIDIA Data Center GPU Management (DCGM)](https://github.com/NVIDIA/dcgm-exporter)  | Nœud de calcul |  Exporte les métriques NVIDIA DCGM relatives à l'état de santé et aux performances de NVIDIA GPUs.  | 

Avec `enable_observability=True` dans le fichier [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py), l’étape d’installation suivante est activée dans le script [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py). 

```
# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()
```

Sur les nœuds de calcul, le script installe l’exportateur NVIDIA Data Center GPU Management (DCGM) et l’exportateur de nœuds Elastic Fabric Adapter (EFA). L'exportateur DCGM est un exportateur pour Prometheus qui collecte des métriques auprès de GPUs NVIDIA, permettant de surveiller l'utilisation, les performances et l'état du GPU. L’exportateur de nœuds EFA, quant à lui, collecte les métriques relatives à l’interface réseau EFA, essentielles pour les communications à faible latence et à bande passante élevée dans les clusters HPC.

Sur le nœud principal, le script installe l’exportateur Slurm pour Prometheus et le [logiciel open source Prometheus](https://prometheus.io/docs/introduction/overview/). L’exportateur Slurm fournit à Prometheus les métriques relatives aux tâches, aux partitions et à l’état des nœuds de Slurm.

Notez que les scripts de cycle de vie sont conçus pour installer tous les packages de l’exportateur en tant que conteneurs Docker, de sorte que le package Docker doit également être installé à la fois sur le nœud principal et sur les nœuds de calcul. Les scripts de ces composants sont facilement fournis dans le [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils)dossier du * GitHub référentiel Awsome Distributed Training*.

Une fois que vous avez correctement configuré votre HyperPod cluster installé avec les packages d'exportation, passez à la rubrique suivante pour terminer la configuration d'Amazon Managed Service pour Prometheus et Amazon Managed Grafana.

# Validation de la configuration de Prometheus sur le nœud principal d'un cluster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

Après avoir correctement configuré votre HyperPod cluster installé avec les packages d'exportation, vérifiez si Prometheus est correctement configuré sur le nœud principal de votre cluster. HyperPod 

1. Connectez-vous au nœud principal de votre cluster. Pour obtenir des instructions sur la façon d’accéder à un nœud, consultez [Accès aux nœuds SageMaker HyperPod de votre cluster](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md).

1. Exécutez la commande suivante pour vérifier que le fichier de configuration et de service de Prometheus, créé par le script de cycle de vie `install_prometheus.sh`, est exécuté sur le nœud de contrôleur. La sortie doit afficher le statut Actif sous la forme **active (running)**.

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. Validez le fichier de configuration de Prometheus comme suit. La sortie doit être similaire à la suivante, avec trois exportateurs configurés avec les bonnes adresses IP des nœuds de calcul.

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Pour vérifier si Prometheus exporte correctement les métriques Slurm, DCGM et EFA, exécutez la commande `curl` suivante pour Prometheus sur le port `:9090` du nœud principal.

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   Les métriques étant exportées vers l’espace de travail Service géré Amazon pour Prometheus via la configuration d’écriture à distance de Prometheus depuis le nœud de contrôleur, vous pouvez passer à la rubrique suivante pour configurer les tableaux de bord Amazon Managed Grafana afin d’afficher ces métriques.

# Configuration d’un espace de travail Amazon Managed Grafana
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws"></a>

Créez un nouvel espace de travail Amazon Managed Grafana ou mettez à jour un espace de travail Amazon Managed Grafana existant avec le service géré Amazon pour Prometheus comme source de données.

**Topics**
+ [Création d’un espace de travail Grafana et définition du service géré Amazon pour Prometheus en tant que source de données.](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-create)
+ [Ouverture de l’espace de travail Grafana et achèvement de la configuration de la source de données](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-connect-data-source)
+ [Importation de tableaux de bord Grafana open source](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-import-dashboards)

## Création d’un espace de travail Grafana et définition du service géré Amazon pour Prometheus en tant que source de données.
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-create"></a>

Pour visualiser les métriques provenant du service géré Amazon pour Prometheus, créez un espace de travail Amazon Managed Grafana et configurez-le pour utiliser le service géré Amazon pour Prometheus comme source de données.

1. Pour créer un espace de travail Grafana, suivez les instructions fournies dans [Création d’un espace de travail](https://docs.aws.amazon.com/grafana/latest/userguide/AMG-create-workspace.html#creating-workspace), dans le *Guide de l’utilisateur du service géré Amazon pour Prometheus*.

   1. À l’étape 13, sélectionnez le service géré Amazon pour Prometheus comme source de données.

   1. À l’étape 17, vous pouvez ajouter l’utilisateur administrateur ainsi que d’autres utilisateurs dans IAM Identity Center.

Pour plus d’informations, consultez également les ressources suivantes.
+ [Configuration d’Amazon Managed Grafana pour une utilisation avec le service géré Amazon pour Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/AMP-amg.html) dans le *Guide de l’utilisateur du service géré Amazon pour Prometheus*
+ [Utilisez la configuration de la source de AWS données pour ajouter Amazon Managed Service for Prometheus en tant que source de données dans le guide de l'utilisateur d'](https://docs.aws.amazon.com/grafana/latest/userguide/AMP-adding-AWS-config.html)*Amazon Managed Grafana*

## Ouverture de l’espace de travail Grafana et achèvement de la configuration de la source de données
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-connect-data-source"></a>

Après avoir créé ou mis à jour avec succès un espace de travail Amazon Managed Grafana, sélectionnez l’URL de l’espace de travail pour ouvrir l’espace de travail. Vous êtes alors invité à saisir un nom d’utilisateur et le mot de passe de l’utilisateur que vous avez configuré dans IAM Identity Center. Vous devez vous connecter en utilisant l’utilisateur administrateur pour finir de configurer l’espace de travail.

1. Sur la page d’**accueil** de l’espace de travail, choisissez **Applications**, **Sources de données AWS ** et **Sources de données**.

1. Sur la page **Sources de données**, choisissez l’onglet **Sources de données**.

1. Pour **Service**, choisissez Service géré Amazon pour Prometheus.

1. Dans la section **Parcourir et approvisionner les sources de données**, choisissez la AWS région dans laquelle vous avez fourni un espace de travail Amazon Managed Service pour Prometheus.

1. Dans la liste des sources de données de la région sélectionnée, choisissez celle correspondant au service géré Amazon pour Prometheus. Assurez-vous de vérifier l'ID de ressource et l'alias de ressource de l'espace de travail Amazon Managed Service for Prometheus que vous avez configuré HyperPod pour la pile d'observabilité.

## Importation de tableaux de bord Grafana open source
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-import-dashboards"></a>

Après avoir configuré avec succès votre espace de travail Amazon Managed Grafana avec le service géré Amazon pour Prometheus comme source de données, vous commencerez à collecter les métriques relatives à Prometheus, puis vous devriez commencer à voir les différents tableaux de bord contenant des graphiques, des informations, etc. Le logiciel open source Grafana fournit différents tableaux de bord, que vous pouvez importer dans Amazon Managed Grafana.

**Pour importer des tableaux de bord Grafana open source dans Amazon Managed Grafana**

1. Sur la page d’**accueil** de votre espace de travail Amazon Managed Grafana, choisissez **Tableaux de bord**.

1. Cliquez sur le bouton du menu déroulant avec le texte d’interface utilisateur **Nouveau** et sélectionnez **Importer**.

1. Collez l’URL dans le [tableau de bord Slurm](https://grafana.com/grafana/dashboards/4323-slurm-dashboard/).

   ```
   https://grafana.com/grafana/dashboards/4323-slurm-dashboard/
   ```

1. Sélectionnez **Charger**.

1. Répétez les étapes précédentes pour importer les tableaux de bord suivants.

   1. [Tableau de bord Node Exporter Full](https://grafana.com/grafana/dashboards/1860-node-exporter-full/)

      ```
      https://grafana.com/grafana/dashboards/1860-node-exporter-full/
      ```

   1. [Tableau de bord de l’exportateur NVIDIA DCGM](https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/)

      ```
      https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/
      ```

   1. [Tableau de bord des métriques EFA](https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/)

      ```
      https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/
      ```

   1. [FSx pour le tableau de bord Lustre Metrics](https://grafana.com/grafana/dashboards/20906-fsx-lustre/)

      ```
      https://grafana.com/grafana/dashboards/20906-fsx-lustre/
      ```

# Référence des métriques exportées
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference"></a>

Les sections suivantes présentent des listes complètes de métriques exportées depuis SageMaker HyperPod Amazon Managed Service for Prometheus après la configuration réussie de la pile à des fins d'observabilité CloudFormation . SageMaker HyperPod Vous pouvez commencer à surveiller ces métriques visualisées dans les tableaux de bord d’Amazon Managed Grafana.

## Tableau de bord de l’exportateur Slurm
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-slurm-exporter"></a>

Fournit des informations visualisées sur les clusters Slurm sur. SageMaker HyperPod

**Types de métriques**
+ **Vue d’ensemble du cluster :** affichage du nombre total de nœuds, des tâches et de leurs états.
+ **Métriques relatives aux tâches :** visualisation du nombre de tâches et de leurs états au fil du temps.
+ **Métriques des nœuds :** affichage de l’état des nœuds, de leur allocation et des ressources disponibles.
+ **Métriques de partition :** surveillance des métriques spécifiques aux partitions, telles que l’utilisation du processeur, de la mémoire et du GPU.
+ **Efficacité du travail :** calcul de l’efficacité des tâches en fonction des ressources utilisées.

**Liste des métriques**


| Nom des métriques | Description | 
| --- | --- | 
| slurm\$1job\$1count | Nombre total de tâches dans le cluster Slurm | 
| slurm\$1job\$1state\$1count | Nombre de tâches dans chaque état (p. ex., en cours, en attente, terminées) | 
| slurm\$1node\$1count  | Nombre total de nœuds dans le cluster Slurm | 
| slurm\$1node\$1state\$1count  | Nombre de nœuds dans chaque état (p. ex., inactif, alloc, mix) | 
| slurm\$1partition\$1node\$1count  | Nombre de nœuds dans chaque partition | 
| slurm\$1partition\$1job\$1count  | Nombre de tâches dans chaque partition | 
| slurm\$1partition\$1alloc\$1cpus  | Nombre total de personnes allouées CPUs dans chaque partition | 
| slurm\$1partition\$1free\$1cpus  | Nombre total de disques disponibles CPUs dans chaque partition | 
| slurm\$1partition\$1alloc\$1memory  | Mémoire allouée totale dans chaque partition | 
| slurm\$1partition\$1free\$1memory  | Mémoire disponible totale dans chaque partition | 
| slurm\$1partition\$1alloc\$1gpus  | Total alloué GPUs dans chaque partition | 
| slurm\$1partition\$1free\$1gpus  | Total disponible GPUs dans chaque partition | 

## Tableau de bord de l’exportateur de nœuds
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-node-exporter"></a>

Fournit des informations visualisées sur les métriques du système collectées par l'exportateur de nœuds [Prometheus à partir des nœuds du cluster](https://github.com/prometheus/node_exporter). HyperPod 

**Types de métriques**
+ **Vue d’ensemble du système :** affichage des moyennes de charge du processeur et de l’utilisation de la mémoire.
+ **Métriques de la mémoire :** visualisation de l’utilisation de la mémoire, notamment de la mémoire totale, de la mémoire disponible et de l’espace d’échange.
+ **Utilisation du disque :** surveillance de l’utilisation et de la disponibilité de l’espace disque.
+ **Trafic réseau :** affichage des octets réseau reçus et transmis au fil du temps.
+ **Métriques du système de fichiers :** analyse de l’utilisation et de la disponibilité du système de fichiers.
+ ** I/O Métriques du disque :** visualisation de l'activité de lecture et d'écriture sur le disque.

**Liste des métriques**

Pour une liste complète des métriques exportées, consultez les GitHub référentiels [Node Exporter](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default) et [procfs](https://github.com/prometheus/procfs?tab=readme-ov-file). Le tableau suivant présente un sous-ensemble des métriques qui fournit des informations sur l’utilisation des ressources du système, telles que la charge du processeur, l’utilisation de la mémoire, l’espace disque et l’activité réseau.


| Nom des métriques | Description | 
| --- | --- | 
|  node\$1load1  | Moyenne de charge sur 1 minute | 
|  node\$1load5  | Moyenne de charge sur 5 minutes | 
|  node\$1load15  | Moyenne de charge sur 15 minutes | 
|  node\$1memory\$1MemTotal  | Mémoire système totale | 
|  node\$1memory\$1MemFree  | Mémoire système disponible | 
|  node\$1memory\$1MemAvailable  | Mémoire disponible à allouer aux processus | 
|  node\$1memory\$1Buffers  | Mémoire utilisée par le noyau pour la mise en mémoire tampon | 
|  node\$1memory\$1Cached  | Mémoire utilisée par le noyau pour la mise en cache des données du système de fichiers | 
|  node\$1memory\$1SwapTotal  | Espace d’échange total disponible | 
|  node\$1memory\$1SwapFree  | Espace d’échange disponible | 
|  node\$1memory\$1SwapCached  | Mémoire qui, une fois échangée, est rééchangée mais toujours en échange | 
|  node\$1filesystem\$1avail\$1bytes  | Espace disque disponible en octets | 
|  node\$1filesystem\$1size\$1bytes  | Espace disque total en octets | 
|  node\$1filesystem\$1free\$1bytes  | Espace disque disponible en octets | 
|  node\$1network\$1receive\$1bytes  | Octets réseau reçus | 
|  node\$1network\$1transmit\$1bytes  | Octets réseau transmis | 
|  node\$1disk\$1read\$1bytes  | Octets de disque lus | 
|  node\$1disk\$1written\$1bytes  | Octets de disque écrits | 

## Tableau de bord de l’exportateur NVIDIA DCGM
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-nvidia-dcgm-exporter"></a>

Fournit des informations visualisées sur les métriques des GPU NVIDIA, collectées par l’[exportateur NVIDIA DCGM](https://github.com/NVIDIA/dcgm-exporter).

**Types de métriques**
+ **Vue d’ensemble des GPU :** affichage de l’utilisation, des températures, de la consommation d’énergie et de l’utilisation de la mémoire des GPU. 
+ **Métriques de température :** visualisation des températures des GPU au fil du temps. 
+ **Consommation d’énergie :** surveillance de la consommation d’énergie des GPU et des tendances en matière de consommation d’énergie. 
+ **Utilisation de la mémoire :** analyse de l’utilisation de la mémoire des GPU, y compris la mémoire utilisée, la mémoire disponible et la mémoire totale. 
+ **Vitesse des ventilateurs :** affichage des vitesses et des variations des ventilateurs des GPU. 
+ **Erreurs ECC :** suivi des erreurs ECC de la mémoire des GPU et des erreurs en attente.

**Liste des métriques**

Le tableau suivant présente la liste des métriques qui fournissent des informations sur l’intégrité et les performances des GPU NVIDIA, notamment les fréquences d’horloge, les températures, la consommation d’énergie, l’utilisation de la mémoire, les vitesses des ventilateurs et les métriques d’erreur.


| Nom des métriques | Description | 
| --- | --- | 
|  DCGM\$1FI\$1DEV\$1SM\$1CLOCK  | Fréquence d'horloge SM (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEM\$1CLOCK  | Fréquence de l'horloge de la mémoire (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEMORY\$1TEMP  | Température de la mémoire (en °C) | 
|  DCGM\$1FI\$1DEV\$1GPU\$1TEMP  | Température du GPU (en °C) | 
|  DCGM\$1FI\$1DEV\$1POWER\$1USAGE  | Consommation électrique (en W) | 
|  DCGM\$1FI\$1DEV\$1TOTAL\$1ENERGY\$1CONSUMPTION  | Consommation d’énergie totale depuis le démarrage (en mJ) | 
|  DCGM\$1FI\$1DEV\$1PCIE\$1REPLAY\$1COUNTER  | Nombre total de PCIe tentatives | 
|  DCGM\$1FI\$1DEV\$1MEM\$1COPY\$1UTIL  | Utilisation de la mémoire (en %) | 
|  DCGM\$1FI\$1DEV\$1ENC\$1UTIL  | Utilisation de l’encodeur (en %) | 
|  DCGM\$1FI\$1DEV\$1DEC\$1UTIL  | Utilisation du décodeur (en %) | 
|  DCGM\$1FI\$1DEV\$1XID\$1ERRORS  | Valeur de la dernière erreur XID rencontrée | 
|  DCGM\$1FI\$1DEV\$1FB\$1FREE  | Mémoire tampon d’images disponible (en Mio) | 
|  DCGM\$1FI\$1DEV\$1FB\$1USED  | Mémoire tampon d’images utilisée (en Mio) | 
|  DCGM\$1FI\$1DEV\$1NVLINK\$1BANDWIDTH\$1TOTAL  | Nombre total de compteurs de NVLink bande passante pour toutes les voies | 
|  DCGM\$1FI\$1DEV\$1VGPU\$1LICENSE\$1STATUS  | Statut de la licence vGPU | 
|  DCGM\$1FI\$1DEV\$1UNCORRECTABLE\$1REMAPPED\$1ROWS  | Nombre de lignes remappées pour les erreurs non corrigeables | 
|  DCGM\$1FI\$1DEV\$1CORRECTABLE\$1REMAPPED\$1ROWS  | Nombre de lignes remappées pour les erreurs corrigeables | 
|  DCGM\$1FI\$1DEV\$1ROW\$1REMAP\$1FAILURE  | Si le remappage des lignes a échoué | 

## Tableau de bord des métriques EFA
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-efa-exporter"></a>

Fournit des informations visualisées sur les métriques provenant d’[Amazon Elastic Fabric Adapter (EFA)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa.html) équipé d’instances P collectées par l’[exportateur de nœuds EFA](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md).

**Types de métriques**
+ **Métriques d’erreur EFA :** visualisation des erreurs telles que les erreurs d’allocation, les erreurs de commande et les erreurs de mappage mémoire.
+ **Trafic réseau EFA :** surveillance des octets, des paquets et des demandes de travail reçus et transmis.
+ **Performances EFA RDMA :** analyse des opérations de lecture et d’écriture RDMA, y compris des octets transférés et des taux d’erreur.
+ **Durée de vie des ports EFA :** affichage de la durée de vie des ports EFA au fil du temps.
+ **Paquets EFA keep-alive :** suivi du nombre de paquets keep-alive reçus.

**Liste des métriques**

Le tableau suivant présente la liste des métriques qui fournissent des informations sur divers aspects du fonctionnement de l’EFA, notamment les erreurs, les commandes terminées, le trafic réseau et l’utilisation des ressources.


| Nom des métriques | Description | 
| --- | --- | 
|  node\$1amazonefa\$1info  | Données non numériques provenant de/sys/class/infiniband/, la valeur est toujours 1. | 
|  node\$1amazonefa\$1lifespan  | Durée de vie du port | 
|  node\$1amazonefa\$1rdma\$1read\$1bytes  | Nombre d’octets lus avec RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1resp\$1bytes  | Nombre d’octets de réponse de lecture avec RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wr\$1err  | Nombre d’erreurs de lecture et d’écriture avec RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wrs  | Nombre de rs lus avec RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1bytes  | Nombre d’octets écrits avec RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1recv\$1bytes  | Nombre d’octets écrits et reçus avec RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wr\$1err  | Nombre d’octets écrits avec une erreur RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wrs  | Nombre d’octets écrits wrs RDMA | 
|  node\$1amazonefa\$1recv\$1bytes  | Nombre d’octets reçus | 
|  node\$1amazonefa\$1recv\$1wrs  | Nombre d’octets reçus wrs | 
|  node\$1amazonefa\$1rx\$1bytes  | Nombre d’octets reçus | 
|  node\$1amazonefa\$1rx\$1drops  | Nombre de paquets abandonnés | 
|  node\$1amazonefa\$1rx\$1pkts  | Nombre de paquets reçus | 
|  node\$1amazonefa\$1send\$1bytes  | Nombre d’octets envoyés | 
|  node\$1amazonefa\$1send\$1wrs  | Nombre de wrs envoyés | 
|  node\$1amazonefa\$1tx\$1bytes  | Nombre d’octets transmis | 
|  node\$1amazonefa\$1tx\$1pkts  | Nombre de paquets transmis | 

## FSx pour le tableau de bord des métriques Lustre
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-fsx-exporter"></a>

Fournit des informations visualisées sur les [métriques du système de fichiers Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html) collectées par [Amazon CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html).

**Note**  
Le tableau de bord Grafana FSx for Lustre utilise CloudWatch Amazon comme source de données, ce qui est différent des autres tableaux de bord que vous avez configurés pour utiliser Amazon Managed Service for Prometheus. Pour garantir une surveillance et une visualisation précises des métriques relatives à votre système de fichiers FSx for Lustre, configurez le tableau de bord FSx for Lustre pour utiliser Amazon CloudWatch comme source de données, en spécifiant le même Région AWS endroit où votre système de fichiers FSx for Lustre est déployé.

**Types de métriques**
+ **DataReadBytes:** nombre d'octets pour les opérations de lecture du système de fichiers.
+ **DataWriteBytes:** nombre d'octets pour les opérations d'écriture dans le système de fichiers.
+ **DataReadOperations:** le nombre d'opérations de lecture.
+ **DataWriteOperations:** le nombre d'opérations d'écriture.
+ **MetadataOperations:** le nombre d'opérations sur les métadonnées.
+ **FreeDataStorageCapacity:** quantité de capacité de stockage disponible.

# Statistiques Amazon SageMaker HyperPod Slurm
<a name="smcluster-slurm-metrics"></a>

Amazon SageMaker HyperPod fournit un ensemble de CloudWatch métriques Amazon que vous pouvez utiliser pour surveiller l'état et les performances de vos HyperPod clusters. Ces métriques sont collectées à partir du gestionnaire de charge de travail Slurm exécuté sur vos HyperPod clusters et sont disponibles dans l'`/aws/sagemaker/Clusters` CloudWatch espace de noms.

## Métriques de niveau cluster
<a name="smcluster-slurm-metrics-cluster"></a>

Les métriques suivantes au niveau du cluster sont disponibles pour. HyperPod Ces métriques utilisent la `ClusterId` dimension pour identifier le HyperPod cluster spécifique.


| CloudWatch nom de la métrique | Remarques | Nom de la métrique Container Insights pour Amazon EKS | 
| --- | --- | --- | 
| cluster\$1node\$1count | Nombre total de nœuds dans le cluster | cluster\$1node\$1count | 
| cluster\$1idle\$1node\$1count | Nombre de nœuds inactifs dans le cluster | N/A | 
| cluster\$1failed\$1node\$1count | Nombre de nœuds défaillants dans le cluster | cluster\$1failed\$1node\$1count | 
| cluster\$1cpu\$1count | Nombre total de cœurs de processeur dans le cluster | node\$1cpu\$1limit | 
| cluster\$1idle\$1cpu\$1count | Nombre de cœurs de processeur inactifs dans le cluster | N/A | 
| cluster\$1gpu\$1count | Total GPUs dans le cluster | node\$1gpu\$1limit | 
| cluster\$1idle\$1gpu\$1count | Nombre de périodes inactives GPUs dans le cluster | N/A | 
| cluster\$1running\$1task\$1count | Nombre de tâches Slurm en cours d’exécution dans le cluster | N/A | 
| cluster\$1pending\$1task\$1count | Nombre de tâches Slurm en attente dans le cluster | N/A | 
| cluster\$1preempted\$1task\$1count | Nombre de tâches Slurm préemptées dans le cluster | N/A | 
| cluster\$1avg\$1task\$1wait\$1time | Temps d’attente moyen pour les tâches Slurm dans le cluster | N/A | 
| cluster\$1max\$1task\$1wait\$1time | Temps d’attente maximal pour les tâches Slurm dans le cluster | N/A | 

## Métriques de niveau instance
<a name="smcluster-slurm-metrics-instance"></a>

Les métriques suivantes au niveau de l'instance sont disponibles pour. HyperPod Ces métriques utilisent également la `ClusterId` dimension pour identifier le HyperPod cluster spécifique.


| CloudWatch nom de la métrique | Remarques | Nom de la métrique Container Insights pour Amazon EKS | 
| --- | --- | --- | 
| node\$1gpu\$1utilization | Utilisation moyenne des GPU sur toutes les instances | node\$1gpu\$1utilization | 
| node\$1gpu\$1memory\$1utilization | Utilisation moyenne de la mémoire par les GPU sur toutes les instances | node\$1gpu\$1memory\$1utilization | 
| node\$1cpu\$1utilization | Utilisation moyenne du processeur sur toutes les instances | node\$1cpu\$1utilization | 
| node\$1memory\$1utilization | Utilisation moyenne de la mémoire sur toutes les instances | node\$1memory\$1utilization | 