

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Observabilité des clusters et des tâches
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster"></a>

Il existe deux options pour surveiller les SageMaker HyperPod clusters :

**Le module complémentaire SageMaker HyperPod d'observabilité** SageMaker HyperPod fournit un tableau de out-of-the-box bord complet qui vous donne un aperçu des tâches de développement du modèle de base (FM) et des ressources du cluster. Cette solution d’observabilité unifiée publie automatiquement les métriques clés sur le service géré Amazon pour Prometheus et les affiche dans les tableaux de bord Amazon Managed Grafana. Les tableaux de bord sont optimisés spécifiquement pour le développement d’un modèle de fondation avec une couverture approfondie de l’état du matériel, de l’utilisation des ressources et des performances au niveau des tâches. Avec ce module complémentaire, vous pouvez consolider les données de santé et de performance provenant de NVIDIA DCGM, des exportateurs de nœuds Kubernetes au niveau de l'instance, de l'adaptateur Elastic Fabric, des systèmes de fichiers intégrés, de Kubernetes, de APIs Kueue et des opérateurs de tâches. SageMaker HyperPod 

**Amazon CloudWatch Insights** —Amazon CloudWatch Insights collecte des métriques relatives aux ressources informatiques, telles que le processeur, la mémoire, le disque et le réseau. Conteneur Insights fournit également des informations de diagnostic (par exemple sur les échecs de redémarrage des conteneurs) pour vous aider à isoler les problèmes et à les résoudre rapidement. Vous pouvez également définir des CloudWatch alarmes sur les métriques collectées par Container Insights.

**Topics**
+ [

# SageMaker HyperPod Observabilité d'Amazon avec Amazon Managed Grafana et Amazon Managed Service pour Prometheus
](sagemaker-hyperpod-observability-addon.md)
+ [

# Observabilité avec Amazon CloudWatch
](sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.md)

# SageMaker HyperPod Observabilité d'Amazon avec Amazon Managed Grafana et Amazon Managed Service pour Prometheus
<a name="sagemaker-hyperpod-observability-addon"></a>

Amazon SageMaker HyperPod (SageMaker HyperPod) fournit un tableau de out-of-the-box bord complet qui vous donne un aperçu des tâches de développement du modèle de base (FM) et des ressources du cluster. Cette solution d’observabilité unifiée publie automatiquement les métriques clés sur le service géré Amazon pour Prometheus et les affiche dans les tableaux de bord Amazon Managed Grafana. Les tableaux de bord sont optimisés spécifiquement pour le développement d’un modèle de fondation avec une couverture approfondie de l’état du matériel, de l’utilisation des ressources et des performances au niveau des tâches. Avec ce module complémentaire, vous pouvez consolider les données de santé et de performance provenant de NVIDIA DCGM, des exportateurs de nœuds Kubernetes au niveau de l'instance, de l'adaptateur Elastic Fabric, des systèmes de fichiers intégrés, de Kubernetes, de APIs Kueue et des opérateurs de tâches. SageMaker HyperPod 

## Support des groupes d'instances restreints (RIG)
<a name="hyperpod-observability-addon-rig-support"></a>

Le module complémentaire d'observabilité prend également en charge les clusters contenant des groupes d'instances restreints. Dans les clusters RIG, le module complémentaire adapte automatiquement sa stratégie de déploiement pour se conformer à l'isolation du réseau et aux contraintes de sécurité des nœuds restreints. DaemonSet les composants (exportateur de nœuds, exportateur DCGM, exportateur EFA, moniteur Neuron et collecteur de nœuds) s'exécutent à la fois sur des nœuds standard et restreints. Les composants de déploiement (collecteur central, Kube State Metrics et Training Metrics Agent) sont planifiés selon une logique tenant compte des limites afin de respecter l'isolation du réseau entre les groupes d'instances. La collecte de journaux de conteneurs avec Fluent Bit n'est pas disponible sur les nœuds restreints.

Pour plus d'informations sur la configuration du module complémentaire sur des clusters dotés de groupes d'instances restreints, consultez[Configuration du module complémentaire d' SageMaker HyperPod observabilité](hyperpod-observability-addon-setup.md).

**Topics**
+ [

## Support des groupes d'instances restreints (RIG)
](#hyperpod-observability-addon-rig-support)
+ [

# Configuration du module complémentaire d' SageMaker HyperPod observabilité
](hyperpod-observability-addon-setup.md)
+ [

# Tableaux de bord SageMaker HyperPod d'observabilité Amazon
](hyperpod-observability-addon-viewing-dashboards.md)
+ [

# Exploration des métriques SageMaker HyperPod du cluster dans Amazon Managed Grafana
](hyperpod-observability-addon-exploring-metrics.md)
+ [

# Personnalisation des indicateurs, des tableaux de bord et des alertes du SageMaker HyperPod cluster
](hyperpod-observability-addon-customizing.md)
+ [

# Création de métriques SageMaker HyperPod de cluster personnalisées
](hyperpod-observability-addon-custom-metrics.md)
+ [

# SageMaker HyperPod métriques du cluster
](hyperpod-observability-cluster-metrics.md)
+ [

# Alertes préconfigurées
](hyperpod-observability-addon-alerts.md)
+ [

# Résolution des problèmes liés au module complémentaire SageMaker HyperPod d'observabilité Amazon
](hyperpod-observability-addon-troubleshooting.md)

# Configuration du module complémentaire d' SageMaker HyperPod observabilité
<a name="hyperpod-observability-addon-setup"></a>

La liste suivante décrit les conditions préalables à la configuration du module complémentaire d’observabilité.

Pour que les statistiques de votre cluster Amazon SageMaker HyperPod (SageMaker HyperPod) soient envoyées à un espace de travail Amazon Managed Service for Prometheus et pour les consulter éventuellement dans Amazon Managed Grafana, associez d'abord les politiques et autorisations gérées suivantes à votre rôle de console.
+ Pour utiliser Amazon Managed Grafana, activez AWS IAM Identity Center (IAM Identity Center) dans un endroit où Région AWS Amazon Managed Grafana est disponible. Pour obtenir des instructions, consultez [Premier pas avec IAM Identity Center](https://docs.aws.amazon.com/singlesignon/latest/userguide/getting-started.html) dans le *Guide de l’utilisateur AWS IAM Identity Center *. Pour obtenir la liste des Régions AWS où Amazon Managed Grafana est disponible, consultez [Régions prises en charge](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html#AMG-supported-Regions) dans le *Guide de l’utilisateur Amazon Managed Grafana*.
+ Créez au moins un utilisateur dans IAM Identity Center.
+ Assurez-vous que le module complémentaire [Agent d’identité du pod Amazon EKS](https://docs.aws.amazon.com/eks/latest/userguide/workloads-add-ons-available-eks.html#add-ons-pod-id) est installé dans votre cluster Amazon EKS. Le module complémentaire Amazon EKS Pod Identity Agent permet au module complémentaire d' SageMaker HyperPod observabilité d'obtenir les informations d'identification nécessaires pour interagir avec Amazon Managed Service for CloudWatch Prometheus and Logs. Pour vérifier si votre cluster Amazon EKS possède le module complémentaire, accédez à la console Amazon EKS et examinez l’onglet **Modules complémentaires** de votre cluster. Pour en savoir plus sur la manière d’installer le module complémentaire s’il n’est pas installé, consultez [Création d’un module complémentaire (AWS Management Console)](https://docs.aws.amazon.com/eks/latest/userguide/creating-an-add-on.html#_create_add_on_console) dans le *Guide de l’utilisateur Amazon EKS*.
**Note**  
L'agent d'identité Amazon EKS Pod est requis pour les groupes d'instances standard. Pour les groupes d'instances restreints (RIG), le Pod Identity Agent n'est pas disponible en raison de contraintes d'isolation du réseau. Le rôle IAM d'exécution du groupe d'instances du cluster est utilisé pour interagir avec Amazon Managed Service for Prometheus. Pour plus d'informations sur la configuration de ce rôle, consultez[Conditions préalables supplémentaires pour les groupes d'instances restreints](#hyperpod-observability-addon-rig-prerequisites).
+ Assurez-vous de disposer d'au moins un nœud dans votre SageMaker HyperPod cluster avant d'installer le module complémentaire d' SageMaker HyperPod observabilité. Le plus petit type d’instance Amazon EC2 qui fonctionne dans ce cas est `4xlarge`. Cette exigence de taille de nœud minimale garantit que le nœud peut accueillir tous les pods créés par le module complémentaire d' SageMaker HyperPod observabilité aux côtés de tous les autres pods déjà en cours d'exécution sur le cluster.
+ Ajoutez les politiques et autorisations suivantes à votre rôle.
  + [AWS politique gérée : AmazonSageMakerHyperPodObservabilityAdminAccess](security-iam-awsmanpol-AmazonSageMakerHyperPodObservabilityAdminAccess.md)
  + [AWS politique gérée : AWSGrafana WorkspacePermissionManagement V2](https://docs.aws.amazon.com/grafana/latest/userguide/security-iam-awsmanpol.html#security-iam-awsmanpol-AWSGrafanaWorkspacePermissionManagementV2)
  + [AWS politique gérée : AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html)
  + Autorisations supplémentaires pour configurer les rôles IAM requis pour l’accès aux modules complémentaires Amazon Managed Grafana et Amazon Elastic Kubernetes Service :

------
#### [ JSON ]

****  

    ```
    {
        "Version":"2012-10-17",		 	 	 
        "Statement": [
            {
                "Sid": "CreateRoleAccess",
                "Effect": "Allow",
                "Action": [
                    "iam:CreateRole",
                    "iam:CreatePolicy",
                    "iam:AttachRolePolicy",
                    "iam:ListRoles"
                ],
                "Resource": [
                    "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityGrafanaAccess*",
                    "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityAddonAccess*",
                    "arn:aws:iam::*:policy/service-role/HyperPodObservabilityAddonPolicy*",
                    "arn:aws:iam::*:policy/service-role/HyperPodObservabilityGrafanaPolicy*"
                ]
            }
        ]
    }
    ```

------
  + Autorisations supplémentaires nécessaires pour gérer les utilisateurs d’IAM Identity Center pour Amazon Managed Grafana :

------
#### [ JSON ]

****  

    ```
    {
        "Version":"2012-10-17",		 	 	 
        "Statement": [
            {
                "Sid": "SSOAccess",
                "Effect": "Allow",
                "Action": [
                    "sso:ListProfileAssociations",
                    "sso-directory:SearchUsers",
                    "sso-directory:SearchGroups",
                    "sso:AssociateProfile",
                    "sso:DisassociateProfile"
                ],
                "Resource": [
                    "*"
                ]
            }
        ]
    }
    ```

------

## Conditions préalables supplémentaires pour les groupes d'instances restreints
<a name="hyperpod-observability-addon-rig-prerequisites"></a>

Si votre cluster contient des groupes d'instances restreints, le rôle d'exécution du groupe d'instances doit être autorisé à écrire des métriques dans Amazon Managed Service for Prometheus. Lorsque vous utilisez la **configuration rapide** pour créer votre cluster avec l'observabilité activée, ces autorisations sont automatiquement ajoutées au rôle d'exécution.

Si vous utilisez une **configuration personnalisée** ou si vous ajoutez de l'observabilité à un cluster RIG existant, assurez-vous que le rôle d'exécution de chaque groupe d'instances restreint dispose des autorisations suivantes :

```
{
    "Version": "2012-10-17", 		 	 	 
    "Statement": [
        {
            "Sid": "PrometheusAccess",
            "Effect": "Allow",
            "Action": "aps:RemoteWrite",
            "Resource": "arn:aws:aps:us-east-1:account_id:workspace/workspace-ID"
        }
    ]
}
```

Remplacez *us-east-1* et par votre Région AWS identifiant *workspace-ID* de compte et l'identifiant d'espace de travail Amazon Managed Service for Prometheus. *account\$1id*

Après avoir vérifié que vous avez rempli les conditions préalables ci-dessus, vous pouvez installer le module complémentaire d’observabilité.

**Pour installer rapidement le module complémentaire d’observabilité**

1. Ouvrez la console Amazon SageMaker AI à l'adresse [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Accédez à la page de détails de votre cluster.

1. Dans l'onglet **Tableau de bord**, recherchez le module complémentaire **HyperPod Monitoring & Observability**, puis sélectionnez **Installation rapide**.

**Pour effectuer une installation personnalisée du module complémentaire d’observabilité**

1. Accédez à la page de détails de votre cluster.

1. Dans l'onglet **Tableau de bord**, recherchez le module complémentaire **HyperPod Monitoring & Observability**, puis choisissez **Installation personnalisée**.

1. Spécifiez les catégories de métriques que vous souhaitez visualiser. Pour plus d’informations sur ces catégories de métriques, consultez [SageMaker HyperPod métriques du cluster](hyperpod-observability-cluster-metrics.md).

1. Spécifiez si vous souhaitez activer Amazon CloudWatch Logs.

1. Spécifiez si vous souhaitez que le service crée un nouvel espace de travail Service géré Amazon pour Prometheus.

1. Pour pouvoir visualiser les métriques dans les tableaux de bord Amazon Managed Grafana, cochez la case intitulée **Utiliser un espace de travail Grafana géré par Amazon**. Vous pouvez spécifier votre propre espace de travail ou laisser le service en créer un nouveau pour vous. 
**Note**  
Amazon Managed Grafana n'est pas disponible Régions AWS dans toutes les régions où Amazon Managed Service for Prometheus est disponible. Toutefois, vous pouvez configurer un espace de travail Grafana dans n’importe quelle Région AWS et le configurer pour obtenir des données de métriques à partir d’un espace de travail Prometheus situé dans une autre Région AWS. Pour plus d’informations, consultez [Utilisation de la configuration de la source de données AWS pour ajouter le service géré Amazon pour Prometheus en tant que source de données](https://docs.aws.amazon.com/grafana/latest/userguide/AMP-adding-AWS-config.html) et [Connexion au service géré Amazon pour Prometheus et aux sources de données open source Prometheus](https://docs.aws.amazon.com/grafana/latest/userguide/prometheus-data-source.html). 

# Tableaux de bord SageMaker HyperPod d'observabilité Amazon
<a name="hyperpod-observability-addon-viewing-dashboards"></a>

Cette rubrique explique comment consulter les tableaux de bord de métriques pour vos clusters Amazon SageMaker HyperPod (SageMaker HyperPod) et comment ajouter de nouveaux utilisateurs à un tableau de bord. La rubrique décrit également les différents types de tableaux de bord.

## Accès aux tableaux de bord
<a name="hyperpod-observability-addon-accessing-dashboards"></a>

Pour consulter les statistiques de votre SageMaker HyperPod cluster dans Amazon Managed Grafana, effectuez les étapes suivantes :

1. Ouvrez la console Amazon SageMaker AI à l'adresse [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Accédez à la page de détails de votre cluster.

1. Dans l'onglet **Tableau de bord**, recherchez la section **HyperPod Observabilité** et choisissez **Ouvrir le tableau de bord dans Grafana**.

## Ajout de nouveaux utilisateurs dans un espace de travail Amazon Managed Grafana
<a name="hyperpod-observability-addon-adding-users"></a>

Pour en savoir plus sur la façon d’ajouter des utilisateurs dans un espace de travail Amazon Managed Grafana, consultez [Utilisation d’ AWS IAM Identity Center avec votre espace de travail Amazon Managed Grafana](https://docs.aws.amazon.com/grafana/latest/userguide/authentication-in-AMG-SSO.html) dans le *Guide de l’utilisateur Amazon Managed Grafana*.

## Tableaux de bord d’observabilité
<a name="hyperpod-observability-addon-dashboards.title"></a>

Le module complémentaire SageMaker HyperPod d'observabilité fournit six tableaux de bord interconnectés dans votre espace de travail Amazon Managed Grafana par défaut. Chaque tableau de bord fournit des informations détaillées sur les différentes ressources et tâches des clusters pour différents utilisateurs tels que les scientifiques des données, les ingénieurs de machine learning et les administrateurs.

### Tableau de bord des tâches
<a name="hyperpod-observability-addon-task-dashboard"></a>

Le tableau de bord des tâches fournit une surveillance et une visualisation complètes des mesures d'utilisation des ressources pour les SageMaker HyperPod tâches. Le panneau principal affiche un tableau détaillé regroupant l’utilisation des ressources par les tâches parents, indiquant l’utilisation des CPU, des GPU et de la mémoire sur l’ensemble des pods. Des graphiques de séries temporelles interactifs suivent l’utilisation des CPU, la consommation de la mémoire système, les pourcentages d’utilisation des GPU et l’utilisation de la mémoire GPU des pods sélectionnés, vous permettant ainsi de surveiller les tendances des performances au fil du temps. Le tableau de bord propose de puissantes fonctionnalités de filtrage grâce à des variables telles que le nom du cluster, l’espace de noms, le type de tâche et des pods spécifiques, ce qui facilite l’exploration en détail de charges de travail spécifiques. Cette solution de surveillance est essentielle pour optimiser l'allocation des ressources et maintenir les performances des charges de travail de machine learning. SageMaker HyperPod

### Tableau de bord d’entraînement
<a name="hyperpod-observability-addon-training-dashboard"></a>

Le tableau de bord d’entraînement fournit une surveillance complète des métriques d’état, de fiabilité et de gestion des défaillances des tâches d’entraînement. Le tableau de bord présente des indicateurs de performance clés, notamment le nombre de tâches créées, les taux de réussite et les pourcentages de durée de fonctionnement, ainsi qu’un suivi détaillé des événements de redémarrage automatique et manuel. Il propose des visualisations détaillées des modèles de défaillances au moyen de diagrammes circulaires et de cartes thermiques qui décomposent les incidents par type et par latence de résolution, vous permettant ainsi d’identifier les problèmes récurrents et d’optimiser la fiabilité des tâches. L’interface inclut la surveillance en temps réel de métriques critiques telles que les temps de récupération du système et les latences de détection des défaillances, ce qui en fait un outil essentiel pour maintenir la haute disponibilité des charges de travail d’entraînement. En outre, la fenêtre de suivi de 24 heures du tableau de bord fournit un contexte historique permettant d’analyser les tendances et les modèles de performance des tâches d’entraînement, aidant ainsi les équipes à résoudre de manière proactive les problèmes potentiels avant qu’ils n’affectent les charges de travail de production.

### Tableau de bord d’inférence
<a name="hyperpod-observability-addon-inference-dashboard"></a>

Le tableau de bord d’inférence fournit une surveillance complète des métriques d’état et de performances de déploiement des modèles sur plusieurs dimensions. Il présente un aperçu détaillé des déploiements actifs, une surveillance en temps réel des taux de demandes, des pourcentages de réussite et des métriques de latence, ce qui vous permet de suivre les performances de service des modèles et d’identifier les goulots d’étranglement potentiels. Ce tableau de bord comprend des panneaux spécialisés pour les métriques d’inférence générales et les métriques spécifiques aux jetons pour les modèles de langage, telles que le délai jusqu’au premier jeton (TTFT) et le débit des jetons, ce qui le rend particulièrement utile pour la surveillance de déploiements de grands modèles de langage. En outre, il fournit des informations sur l’infrastructure grâce au suivi de l’allocation des pods et des nœuds, tout en offrant des fonctionnalités d’analyse détaillée des erreurs pour aider à maintenir la haute disponibilité et les performances des charges de travail d’inférence.

### Tableau de bord du cluster
<a name="hyperpod-observability-addon-cluster-dashboard"></a>

Le tableau de bord du cluster fournit une vue complète de l'état et des performances du cluster, offrant une visibilité en temps réel sur les ressources de calcul, de mémoire, de réseau et de stockage dans votre environnement Amazon SageMaker HyperPod (SageMaker HyperPod). En un coup d’œil, vous pouvez visualiser des métriques critiques telles que le nombre total d’instances, l’utilisation GPU, l’utilisation de la mémoire et les performances du réseau via une interface intuitive qui met automatiquement à jour les données à une fréquence de quelques secondes. Ce tableau de bord est organisé en sections logiques, en commençant par un aperçu de haut niveau du cluster qui affiche des métriques clés, telles que le pourcentage d’instances saines et le nombre total de ressources, suivies de sections détaillées pour les métriques de performances GPU, d’utilisation de la mémoire, de statistiques réseau et de stockage. Chaque section présente des graphiques et des panneaux interactifs qui vous permettent d’explorer en détail des métriques spécifiques, avec des plages de temps personnalisables et des options de filtrage par nom de cluster, instance ou ID de GPU.

### Tableau de bord du système de fichiers
<a name="hyperpod-observability-addon-filesystem-dashboard"></a>

Le tableau de bord du système de fichiers fournit une visibilité complète sur les performances et les indicateurs de santé du système de fichiers (Amazon FSx for Lustre). Le tableau de bord affiche les indicateurs de stockage essentiels, notamment la capacité disponible, les économies réalisées grâce à la déduplication, le taux d' CPU/memory utilisation, les IOPS du disque, le débit et les connexions client sur plusieurs visualisations. Il vous permet de surveiller à la fois les indicateurs de performance au niveau du système, tels que l'utilisation du processeur et de la mémoire, ainsi que les mesures spécifiques au stockage, telles que les read/write opérations et les modèles d'utilisation du disque. L’interface inclut des fonctionnalités de surveillance des alertes et des graphiques de séries temporelles détaillés pour suivre les tendances des performances au fil du temps, ce qui la rend précieuse pour la maintenance proactive et la planification des capacités. En outre, grâce à sa couverture complète des indicateurs, le tableau de bord permet d'identifier les goulots d'étranglement potentiels, d'optimiser les performances de stockage et de garantir le fonctionnement fiable du système de fichiers pour les charges de travail. SageMaker HyperPod 

### Tableau de bord des partitions GPU
<a name="hyperpod-observability-addon-gpu-partition-dashboard"></a>

Pour surveiller les métriques spécifiques à une partition GPU lors de l'utilisation de configurations GPU multi-instances (MIG), vous devez installer ou mettre à niveau la dernière version de l'addon Observability. SageMaker HyperPod Cet addon fournit des fonctionnalités de surveillance complètes, y compris des mesures spécifiques à MiG telles que le nombre de partitions, l'utilisation de la mémoire et l'utilisation du calcul par partition GPU.

Si SageMaker HyperPod Observability est déjà installé mais que vous avez besoin du support des métriques MIG, il vous suffit de mettre à jour l'addon vers la dernière version. Ce processus ne perturbe pas et maintient votre configuration de surveillance existante.

SageMaker HyperPod expose automatiquement les métriques spécifiques au MIG, notamment :
+ `nvidia_mig_instance_count`: nombre d'instances MIG par profil
+ `nvidia_mig_memory_usage`: utilisation de la mémoire par instance MIG
+ `nvidia_mig_compute_utilization`: utilisation du calcul par instance MIG

### Tableau de bord Cluster Logs
<a name="hyperpod-observability-addon-cluster-logs-dashboard"></a>

Le tableau de bord Cluster Logs fournit une vue centralisée des CloudWatch journaux de votre SageMaker HyperPod cluster. Le tableau de bord interroge le groupe de `/aws/sagemaker/Clusters/{cluster-name}/{cluster-id}` journaux et affiche les événements du journal avec des fonctionnalités de filtrage par ID d'instance, nom du flux de journal, niveau de journal (ERROR, WARN, INFO, DEBUG) et recherche en texte libre. Le tableau de bord comprend une chronologie des événements indiquant la distribution des événements du journal au fil du temps, un compteur total d'événements, une chronologie des événements recherchés pour les résultats filtrés et un panneau de journaux détaillé avec les messages de journal complets, les horodatages et les métadonnées du flux de journal. Ce tableau de bord est utilisé CloudWatch comme source de données et est utile pour résoudre les problèmes liés aux clusters, surveiller les événements liés à l'état des instances et enquêter sur les échecs liés aux tâches de formation.

# Exploration des métriques SageMaker HyperPod du cluster dans Amazon Managed Grafana
<a name="hyperpod-observability-addon-exploring-metrics"></a>

Après avoir connecté Amazon Managed Grafana à votre espace de travail Service géré Amazon pour Prometheus, vous pouvez utiliser l’éditeur de requêtes et les outils de visualisation de Grafana pour explorer vos données de métriques. Amazon Managed Grafana propose plusieurs manières d’interagir avec les données Prometheus, notamment un éditeur de requêtes complet pour générer des expressions PromQL, un navigateur de métriques pour découvrir les métriques et les étiquettes disponibles, et des fonctionnalités de génération de modèles pour créer des tableaux de bord dynamiques. Vous pouvez effectuer des requêtes par plage pour visualiser les données de séries temporelles sur des périodes données, et des requêtes instantanées pour extraire les dernières valeurs, avec des options de formatage des résultats sous forme de graphiques de séries temporelles, de tableaux ou de cartes thermiques. Pour des informations détaillées sur la configuration des paramètres de requête, l’utilisation du navigateur de métriques et l’utilisation des fonctionnalités de génération de modèles, consultez [Utilisation de la source de données Prometheus](https://docs.aws.amazon.com/grafana/latest/userguide/using-prometheus-datasource.html).

# Personnalisation des indicateurs, des tableaux de bord et des alertes du SageMaker HyperPod cluster
<a name="hyperpod-observability-addon-customizing"></a>

Amazon Managed Grafana vous permet de créer des tableaux de bord complets qui présentent vos données par le biais de panneaux contenant des requêtes connectées à vos sources de données. Vous pouvez générer des tableaux de bord à partir de zéro, importer des tableaux de bord existants ou exporter vos créations à des fins de partage et de sauvegarde. Les tableaux de bord Grafana prennent en charge des fonctionnalités dynamiques grâce à des variables qui remplacent les valeurs codées en dur dans les requêtes, ce qui rend vos visualisations plus flexibles et interactives. Vous pouvez également améliorer vos tableaux de bord avec des fonctionnalités telles que des annotations, des panneaux de bibliothèque pour la réutilisabilité, la gestion de l’historique des versions et des liens personnalisés pour créer une solution complète de surveillance et d’observabilité. Pour step-by-step obtenir des conseils sur la création, l'importation, la configuration et la gestion des tableaux de bord, consultez la section [Création de tableaux](https://docs.aws.amazon.com/grafana/latest/userguide/v10-dash-building-dashboards.html) de bord.

# Création de métriques SageMaker HyperPod de cluster personnalisées
<a name="hyperpod-observability-addon-custom-metrics"></a>

Le module complémentaire d'observabilité Amazon SageMaker HyperPod (SageMaker HyperPod) fournit des centaines de mesures out-of-the-box de santé, de performance et d'efficacité. Outre ces métriques, vous devrez peut-être surveiller des métriques personnalisées spécifiques à vos applications ou aux besoins de votre entreprise qui ne sont pas capturées par défaut, telles que les métriques de performance spécifiques au modèle, les statistiques de traitement des données ou les mesures spécifiques aux applications. Pour répondre à ce besoin, vous pouvez implémenter une collecte de métriques personnalisée OpenTelemetry en intégrant un extrait de code Python dans votre application.

Pour créer des métriques personnalisées, exécutez d'abord la commande shell suivante pour installer les OpenTelemetry composants principaux nécessaires pour instrumenter les applications Python à des fins d'observabilité. Cette installation permet aux applications Python qui s'exécutent sur des SageMaker HyperPod clusters d'émettre des données de télémétrie personnalisées. Ces données sont collectées par le OpenTelemetry collecteur et transmises à l'infrastructure d'observabilité.

```
pip install opentelemetry-api opentelemetry-sdk opentelemetry-exporter-otlp-proto-grpc
```

L'exemple de script suivant configure un pipeline de OpenTelemetry métriques qui balise automatiquement les métriques avec des informations sur les pods et les nœuds, garantissant ainsi une attribution correcte au sein de votre cluster, et envoie ces métriques à la pile d'observabilité SageMaker HyperPod intégrée chaque seconde. Le script établit une connexion avec le collecteur de SageMaker HyperPod mesures, définit les attributs de ressources appropriés pour l'identification et fournit une interface de mesure grâce à laquelle vous pouvez créer différents types de mesures (compteurs, jauges ou histogrammes) pour suivre tous les aspects des performances de votre application. Les métriques personnalisées s'intègrent aux tableaux de bord SageMaker HyperPod de surveillance aux côtés des métriques du système. Cette intégration permet une observabilité complète via une interface unique dans laquelle vous pouvez créer des alertes, des visualisations et des rapports personnalisés pour surveiller le profil de performance complet de votre charge de travail.

```
import os
from opentelemetry import metrics
from opentelemetry.exporter.otlp.proto.grpc.metric_exporter import OTLPMetricExporter
from opentelemetry.sdk.metrics import MeterProvider
from opentelemetry.sdk.metrics.export import PeriodicExportingMetricReader
from opentelemetry.sdk.resources import Resource

# Get hostname/pod name
hostname = os.uname()[1]
node_name = os.getenv('NODE_NAME', 'unknown')

collector_endpoint = "hyperpod-otel-collector.hyperpod-observability:4317"

# Configure the OTLP exporter
exporter = OTLPMetricExporter(
    endpoint=collector_endpoint,
    insecure=True,
    timeout=5000  # 5 seconds timeout
)

reader = PeriodicExportingMetricReader(
    exporter,
    export_interval_millis=1000
)

resource = Resource.create({
    "service.name": "metric-test",
    "pod.name": hostname,
    "node.name": node_name
})

meter_provider = MeterProvider(
    metric_readers=[reader],
    resource=resource
)
metrics.set_meter_provider(meter_provider)

# Create a meter
meter = metrics.get_meter("test-meter")

# Create a counter
counter = meter.create_counter(
    name="test.counter",
    description="A test counter"
)

counter.add(1, {"pod": hostname, "node": node_name})
```

# SageMaker HyperPod métriques du cluster
<a name="hyperpod-observability-cluster-metrics"></a>

Amazon SageMaker HyperPod (SageMaker HyperPod) publie différentes statistiques réparties dans 9 catégories distinctes sur votre espace de travail Amazon Managed Service for Prometheus. Toutes les métriques ne sont pas activées par défaut ou affichées dans votre espace de travail Amazon Managed Grafana. Le tableau suivant montre quelles métriques sont activées par défaut lorsque vous installez le module complémentaire d’observabilité, quelles catégories comportent des métriques supplémentaires qui peuvent être activées pour obtenir des informations plus granulaires sur le cluster, et où elles apparaissent dans l’espace de travail Amazon Managed Grafana.


| Catégorie de la métrique | Activée par défaut ? | Autres métriques avancées disponibles ? | Disponible dans quels tableaux de bord Grafana ? | 
| --- | --- | --- | --- | 
| Métriques d’entraînement | Oui | Oui | Entraînement | 
| Métriques d’inférence | Oui | Non | Inférence | 
| Métriques de gouvernance des tâches | Non | Oui | Aucune. Interrogez votre espace de travail Service géré Amazon pour Prometheus pour générer votre propre tableau de bord. | 
| Métriques de mise à l’échelle | Non | Oui | Aucune. Interrogez votre espace de travail Service géré Amazon pour Prometheus pour générer votre propre tableau de bord. | 
| Métriques du cluster | Oui | Oui | Cluster | 
| Métriques des instances | Oui | Oui | Cluster | 
| Métriques de calcul accéléré | Oui | Oui | Tâche, cluster | 
| Métriques de réseau | Non | Oui | Cluster | 
| Système de fichiers | Oui | Non | Système de fichiers | 

Les tableaux suivants décrivent les mesures disponibles pour surveiller votre SageMaker HyperPod cluster, organisées par catégorie.

## Disponibilité des métriques sur les groupes d'instances restreints
<a name="hyperpod-observability-rig-metrics-availability"></a>

Lorsque votre cluster contient des groupes d'instances restreints, la plupart des catégories de métriques sont disponibles sur les nœuds restreints, avec les exceptions et considérations suivantes. Vous pouvez également configurer des alertes sur n'importe quel indicateur de votre choix.


| Catégorie de la métrique | Disponible sur les nœuds RIG ? | Remarques | 
| --- | --- | --- | 
| Métriques d’entraînement | Oui | Les métriques des pods Kubeflow et Kubernetes sont collectées. Les indicateurs de KPI d'entraînement avancés (fournis par Training Metrics Agent) ne sont pas disponibles sur les nœuds RIG. | 
| Métriques d’inférence | Non | Les charges de travail d'inférence ne sont pas prises en charge sur les groupes d'instances restreints. | 
| Métriques de gouvernance des tâches | Non | Les métriques Kueue sont collectées uniquement à partir des nœuds standard, le cas échéant. | 
| Métriques de mise à l’échelle | Non | Les métriques KEDA sont collectées uniquement à partir des nœuds standard, le cas échéant. | 
| Métriques du cluster | Oui | Les métriques Kube State et les métriques du serveur API sont disponibles. Kube State Metrics est planifié de préférence sur des nœuds standard, mais peut s'exécuter sur des nœuds restreints dans des clusters RIG uniquement. | 
| Métriques des instances | Oui | Les métriques Node Exporter et cAdvisor sont collectées sur tous les nœuds, y compris les nœuds restreints. | 
| Métriques de calcul accéléré | Oui | DCGM Exporter s'exécute sur des nœuds restreints compatibles avec le GPU. Neuron Monitor s'exécute sur les nœuds restreints compatibles avec Neuron lorsque le mode avancé est activé. | 
| Métriques de réseau | Oui | EFA Exporter s'exécute sur des nœuds restreints compatibles EFA lorsque le mode avancé est activé. | 
| Métriques du système de fichiers | Oui | FSx pour les clusters Lustre, les métriques d'utilisation sont prises en charge sur les groupes d'instances restreints. | 

**Note**  
La collecte de journaux de conteneurs avec Fluent Bit n'est pas déployée sur des nœuds restreints. Les journaux de cluster provenant de nœuds restreints sont disponibles via la SageMaker HyperPod plateforme indépendamment du module complémentaire d'observabilité. Vous pouvez consulter ces journaux dans le tableau de bord Cluster Logs.

## Métriques d’entraînement
<a name="hyperpod-observability-training-metrics"></a>

Utilisez ces indicateurs pour suivre les performances des tâches de formation exécutées sur le SageMaker HyperPod cluster.


| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique | 
| --- | --- | --- | --- | 
| Métriques Kubeflow | [https://github.com/kubeflow/entraîneur](https://github.com/kubeflow/trainer) | Oui | Kubeflow | 
| Métriques des pods Kubernetes | [https://github.com/kubernetes/kube-state-metrics](https://github.com/kubernetes/kube-state-metrics) | Oui | Kubernetes | 
| training\$1uptime\$1percentage | Pourcentage du temps d’entraînement par rapport à la taille totale de la fenêtre | Non | SageMaker HyperPod opérateur de formation | 
| training\$1manual\$1recovery\$1count | Nombre total de redémarrages manuels effectués au cours de la tâche | Non | SageMaker HyperPod opérateur de formation | 
| training\$1manual\$1downtime\$1ms | Durée totale en millisecondes pendant laquelle la tâche a été interrompue en raison d’interventions manuelles | Non | SageMaker HyperPod opérateur de formation | 
| training\$1auto\$1recovery\$1count | Nombre total de récupérations automatiques | Non | SageMaker HyperPod opérateur de formation | 
| training\$1auto\$1recovery\$1downtime | Temps total de surcharge de l’infrastructure en millisecondes pendant la reprise après panne | Non | SageMaker HyperPod opérateur de formation | 
| training\$1fault\$1count | Nombre total de défaillances rencontrées pendant l’entraînement | Non | SageMaker HyperPod opérateur de formation | 
| training\$1fault\$1type\$1count | Distribution des défaillances par type | Non | SageMaker HyperPod opérateur de formation | 
| training\$1fault\$1recovery\$1time\$1ms | Temps de récupération en millisecondes pour chaque type de défaillance | Non | SageMaker HyperPod opérateur de formation | 
| training\$1time\$1ms | Temps total en millisecondes consacré à l’entraînement réel | Non | SageMaker HyperPod opérateur de formation | 

## Métriques d’inférence
<a name="hyperpod-observability-inference-metrics"></a>

Utilisez ces mesures pour suivre les performances des tâches d'inférence sur le SageMaker HyperPod cluster.


| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique | 
| --- | --- | --- | --- | 
| model\$1invocations\$1total | Nombre total de demandes d’invocation adressées au modèle | Oui | SageMaker HyperPod opérateur d'inférence | 
| model\$1errors\$1total | Nombre total d’erreurs lors de l’invocation du modèle | Oui | SageMaker HyperPod opérateur d'inférence | 
| model\$1concurrent\$1requests | Demandes de modèle simultanées actives | Oui | SageMaker HyperPod opérateur d'inférence | 
| model\$1latency\$1milliseconds | Latence d’invocation de modèle en millisecondes | Oui | SageMaker HyperPod opérateur d'inférence | 
| model\$1ttfb\$1milliseconds | Latence du délai jusqu’au premier octet en millisecondes | Oui | SageMaker HyperPod opérateur d'inférence | 
| TGI | Ces métriques peuvent être utilisées pour surveiller les performances de TGI, effectuer l’autoscaling du déploiement et aider à identifier les goulots d’étranglement. Pour une liste détaillée des métriques, consultez [https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md) | Oui | Conteneur de modèle | 
| LMI | Ces métriques peuvent être utilisées pour surveiller les performances de LMI et aider à identifier les goulots d’étranglement. Pour une liste détaillée des métriques, consultez [https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md) | Oui | Conteneur de modèle | 

## Métriques de gouvernance des tâches
<a name="hyperpod-observability-task-governance-metrics"></a>

Utilisez ces mesures pour surveiller la gouvernance des tâches et l'allocation des ressources sur le SageMaker HyperPod cluster.


| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique | 
| --- | --- | --- | --- | 
| Kueue | Voir [https://kueue.sigs.k8s. io/docs/reference/metrics](https://kueue.sigs.k8s.io/docs/reference/metrics/)/. | Non | Kueue | 

## Métriques de mise à l’échelle
<a name="hyperpod-observability-scaling-metrics"></a>

Utilisez ces mesures pour surveiller le comportement et les performances de l'auto-scaling sur le SageMaker HyperPod cluster.


| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique | 
| --- | --- | --- | --- | 
| Métriques de l’opérateur KEDA | Voir [https://keda. sh/docs/2.17/integrations/prometheus/\$1operator](https://keda.sh/docs/2.17/integrations/prometheus/#operator). | Non | Kubernetes Event-driven Autoscaler (KEDA) | 
| Métriques du webhook KEDA | Voir [https://keda. sh/docs/2.17/integrations/prometheus/\$1admission -webhooks](https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks). | Non | Kubernetes Event-driven Autoscaler (KEDA) | 
| Métriques du serveur de métriques KEDA | Voir [https://keda. sh/docs/2.17/integrations/prometheus/\$1metrics -serveur.](https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server) | Non | Kubernetes Event-driven Autoscaler (KEDA) | 

## Métriques du cluster
<a name="hyperpod-observability-cluster-health-metrics"></a>

Utilisez ces métriques pour surveiller l’état général du cluster et l’allocation des ressources.


| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique | 
| --- | --- | --- | --- | 
| État du cluster | Métriques du serveur d’API Kubernetes. Voir [https://kubernetes. io/docs/reference/instrumentation/metrics](https://kubernetes.io/docs/reference/instrumentation/metrics/)/. | Oui | Kubernetes | 
| Kubestate | Voir [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\$1default -resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources). | Limité | Kubernetes | 
| KubeState Avancé | Voir [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\$1optional -resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources). | Non | Kubernetes | 

## Métriques des instances
<a name="hyperpod-observability-instance-metrics"></a>

Utilisez ces métriques pour surveiller les performances et l’état de chaque instance.


| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique | 
| --- | --- | --- | --- | 
| Métriques des nœuds | Voir [https://github.com/prometheus/node\$1exporter ? tab= readme-ov-file \$1. enabled-by-default](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default) | Oui | Kubernetes | 
| Métriques des conteneurs | Métriques relatives aux conteneurs, exposées par Cadvisor. Voir le [https://github.com/google/conseiller.](https://github.com/google/cadvisor) | Oui | Kubernetes | 

## Métriques de calcul accéléré
<a name="hyperpod-observability-accelerated-compute-metrics"></a>

Utilisez ces métriques pour surveiller les performances, l’état et l’utilisation des différents appareils de calcul accéléré de votre cluster.

**Note**  
Lorsque le partitionnement du GPU avec MIG (GPU multi-instance) est activé sur votre cluster, les métriques DCGM fournissent automatiquement une granularité au niveau de la partition pour surveiller les instances MIG individuelles. Chaque partition MIG est exposée en tant que périphérique GPU distinct avec ses propres mesures de température, de puissance, d'utilisation de la mémoire et d'activité de calcul. Cela vous permet de suivre l'utilisation des ressources et l'état de santé de chaque partition GPU indépendamment, ce qui permet de surveiller avec précision les charges de travail exécutées sur des ressources GPU fractionnées. Pour plus d'informations sur la configuration du partitionnement du GPU, consultez[Utilisation de partitions GPU dans Amazon SageMaker HyperPod](sagemaker-hyperpod-eks-gpu-partitioning.md).


| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique | 
| --- | --- | --- | --- | 
| GPU NVIDIA | Métriques DCGM. Voir [https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv). | Limité |  Data Center GPU Manager (DCGM) NVIDIA  | 
|  GPU NVIDIA (avancé)  | Métriques DCGM mises en commentaires dans le fichier CSV suivant :[https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv) | Non |  Data Center GPU Manager (DCGM) NVIDIA  | 
| AWS Trainium | Métriques neuronales. Voir [https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html\$1. neuron-monitor-nc-counters](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters) | Non | AWS Moniteur Neuron | 

## Métriques de réseau
<a name="hyperpod-observability-network-metrics"></a>

Utilisez ces métriques pour surveiller les performances et l’état des adaptateurs Elastic Fabric Adapters (EFA) de votre cluster.


| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique | 
| --- | --- | --- | --- | 
| EFA | Voir [https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation\$1and\$1observability/3.efa-node-exporter/README.md.](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md) | Non | Elastic Fabric Adapter | 

## Métriques du système de fichiers
<a name="hyperpod-observability-file-system-metrics"></a>


| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique | 
| --- | --- | --- | --- | 
| Système de fichiers | Statistiques Amazon FSx for Lustre publiées par Amazon CloudWatch :[Surveillance avec Amazon CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html). | Oui | Amazon FSx pour Lustre | 

# Alertes préconfigurées
<a name="hyperpod-observability-addon-alerts"></a>

Le module complémentaire d'observabilité Amazon SageMaker HyperPod (SageMaker HyperPod) active des alertes par défaut pour votre cluster et vos charges de travail afin de vous avertir lorsque le système détecte des indicateurs précoces courants de sous-performance du cluster. Ces alertes sont définies dans le système d’alerte intégré d’Amazon Managed Grafana. Pour en savoir plus sur la façon de modifier ces alertes préconfigurées ou d’en créer de nouvelles, consultez [Alertes dans Grafana version 10](https://docs.aws.amazon.com/grafana/latest/userguide/v10-alerts.html) dans le *Guide de l’utilisateur Amazon Managed Grafana*. Le code YAML suivant montre les alertes par défaut.

```
groups:
- name: sagemaker_hyperpod_alerts
  rules:
  # GPU_TEMP_ABOVE_80C
  - alert: GPUHighTemperature
    expr: DCGM_FI_DEV_GPU_TEMP > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "GPU Temperature Above 80C"
      description: "GPU {{ $labels.gpu }} temperature is {{ $value }}°C."

  # GPU_TEMP_ABOVE_85C  
  - alert: GPUCriticalTemperature  
    expr: DCGM_FI_DEV_GPU_TEMP > 85
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "GPU Temperature Above 85C"
      description: "GPU {{ $labels.gpu }} temperature is {{ $value }}°C."

  # GPU_MEMORY_ERROR
  # Any ECC double-bit errors indicate serious memory issues requiring immediate attention
  - alert: GPUMemoryErrorDetected
    expr: DCGM_FI_DEV_ECC_DBE_VOL_TOTAL > 0 or DCGM_FI_DEV_ECC_DBE_AGG_TOTAL > DCGM_FI_DEV_ECC_DBE_AGG_TOTAL offset 5m
    labels:
      severity: critical
    annotations:
      summary: "GPU ECC Double-Bit Error Detected"
      description: "GPU {{ $labels.gpu }} has detected ECC double-bit errors."

  # GPU_POWER_WARNING
  # Sustained power limit violations can impact performance and stability
  - alert: GPUPowerViolation
    expr: DCGM_FI_DEV_POWER_VIOLATION > 100
    for: 5m
    labels:
      severity: warning  
    annotations:
      summary: "GPU Power Violation"
      description: "GPU {{ $labels.gpu }} has been operating at power limit for extended period."

  # GPU_NVLINK_ERROR
  # NVLink errors above threshold indicate interconnect stability issues
  - alert: NVLinkErrorsDetected
    expr: DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_TOTAL > 0 or DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_TOTAL > 10
    labels:
      severity: warning
    annotations:
      summary: "NVLink Errors Detected" 
      description: "GPU {{ $labels.gpu }} has detected NVLink errors."

  # GPU_THERMAL_VIOLATION  
  # Immediate alert on thermal violations to prevent hardware damage
  - alert: GPUThermalViolation
    expr: increase(DCGM_FI_DEV_THERMAL_VIOLATION[5m]) > 0
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "GPU Thermal Violation Detected"
      description: "GPU {{ $labels.gpu }} has thermal violations on node {{ $labels.Hostname }}"

  # GPU_XID_ERROR
  # XID errors indicate driver or hardware level GPU issues requiring investigation
  - alert: GPUXidError
    expr: DCGM_FI_DEV_XID_ERRORS > 0
    for: 0m
    labels:
      severity: critical
    annotations:
      summary: "GPU XID Error Detected"
      description: "GPU {{ $labels.gpu }} experienced XID error {{ $value }} on node {{ $labels.Hostname }}"

  # MIG_CONFIG_FAILURE
  # MIG configuration failures indicate issues with GPU partitioning setup
  - alert: MIGConfigFailure
    expr: kubelet_node_name{nvidia_com_mig_config_state="failed"} > 0
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "MIG Configuration Failed"
      description: "MIG configuration failed on node {{ $labels.instance }}"

  # DISK_SPACE_WARNING
  # 90% threshold ensures time to respond before complete disk exhaustion
  - alert: NodeDiskSpaceWarning
    expr: (node_filesystem_size_bytes - node_filesystem_free_bytes) / node_filesystem_size_bytes * 100 > 90
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "High Disk Usage"
      description: "Node {{ $labels.instance }} disk usage is above 90%"

  # FSX_STORAGE_WARNING
  # 80% FSx utilization allows buffer for burst workloads
  - alert: FsxLustreStorageWarning
    expr: fsx_lustre_storage_used_bytes / fsx_lustre_storage_capacity_bytes * 100 > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "High FSx Lustre Usage"
      description: "FSx Lustre storage usage is above 80% on file system {{ $labels.filesystem_id }}"
```

# Résolution des problèmes liés au module complémentaire SageMaker HyperPod d'observabilité Amazon
<a name="hyperpod-observability-addon-troubleshooting"></a>

Suivez les instructions suivantes pour résoudre les problèmes courants liés au module complémentaire d'observabilité Amazon SageMaker HyperPod (SageMaker HyperPod).

## Résolution du problème de métriques manquantes dans Amazon Managed Grafana
<a name="troubleshooting-missing-metrics"></a>

Si les statistiques n’apparaissent pas dans vos tableaux de bord Amazon Managed Grafana, effectuez les étapes suivantes pour identifier et résoudre le problème.

### Vérification de la connexion du service géré Amazon pour Prometheus et d’Amazon Managed Grafana
<a name="verify-amp-grafana-connection"></a>

1. Connectez-vous à la console Amazon Managed Grafana.

1. Dans le volet de gauche, choisissez **Tous les espaces de travail**.

1. Dans le tableau **Espaces de travail**, choisissez votre espace de travail.

1. Sur la page de détails de l’espace de travail, choisissez l’onglet **Sources de données**.

1. Vérifiez que la source de données Service géré Amazon pour Prometheus existe.

1. Vérifiez les paramètres de connexion :
   + Confirmez que l’URL du point de terminaison est correcte.
   + Vérifiez que l’authentification IAM est correctement configurée.
   + Choisissez **Test connection** (Tester la connexion). Vérifiez que le statut est **La source de données fonctionne**.

### Vérification du statut du module complémentaire Amazon EKS
<a name="verify-eks-addon-status"></a>

1. Ouvrez la console Amazon EKS à l'adresse [https://console.aws.amazon.com/eks/home\$1/clusters](https://console.aws.amazon.com/eks/home#/clusters).

1. Sélectionnez votre cluster.

1. Choisissez l’onglet **Modules complémentaires**.

1. Vérifiez que le module complémentaire SageMaker HyperPod d'observabilité est répertorié et que son statut est **ACTIF**.

1. Si le statut n’est pas **ACTIF**, consultez [Résolution des échecs d’installation du module complémentaire](#troubleshooting-addon-installation-failures).

### Vérification de l’association d’identité du pod
<a name="verify-pod-identity-association"></a>

1. Ouvrez la console Amazon EKS à l'adresse [https://console.aws.amazon.com/eks/home\$1/clusters](https://console.aws.amazon.com/eks/home#/clusters).

1. Sélectionnez votre cluster.

1. Sur la page de détails du cluster, choisissez l’onglet **Accès**.

1. Dans le tableau **Associations d’identité du pod**, choisissez l’association dont les valeurs de propriété sont les suivantes :
   + **Espace de noms** : `hyperpod-observability`
   + **Compte de service** : `hyperpod-observability-operator-otel-collector`
   + **Module complémentaire** : `amazon-sagemaker-hyperpod-observability`

1. Assurez-vous que le rôle IAM attaché à cette association dispose des autorisations suivantes.

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Sid": "PrometheusAccess",
               "Effect": "Allow",
               "Action": "aps:RemoteWrite",
               "Resource": "arn:aws:aps:us-east-1:111122223333:workspace/workspace-ID"
           },
           {
               "Sid": "CloudwatchLogsAccess",
               "Effect": "Allow",
               "Action": [
                   "logs:CreateLogGroup",
                   "logs:CreateLogStream",
                   "logs:DescribeLogGroups",
                   "logs:DescribeLogStreams",
                   "logs:PutLogEvents",
                   "logs:GetLogEvents",
                   "logs:FilterLogEvents",
                   "logs:GetLogRecord",
                   "logs:StartQuery",
                   "logs:StopQuery",
                   "logs:GetQueryResults"
               ],
               "Resource": [
                   "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*",
                   "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*:log-stream:*"
               ]
           }
       ]
   }
   ```

------

1. Assurez-vous que le rôle IAM attaché à cette association possède la politique d’approbation suivante. Vérifiez que l’ARN source et le compte source sont corrects.

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Sid": "AllowEksAuthToAssumeRoleForPodIdentity",
               "Effect": "Allow",
               "Principal": {
                   "Service": "pods.eks.amazonaws.com"
               },
               "Action": [
                   "sts:AssumeRole",
                   "sts:TagSession"
               ],
               "Condition": {
                   "StringEquals": {
                       "aws:SourceArn": "arn:aws:eks:us-east-1:111122223333:cluster/cluster-name",
                       "aws:SourceAccount": "111122223333"
                   }
               }
           }
       ]
   }
   ```

------

### Vérification de la limitation du service géré Amazon pour Prometheus
<a name="check-amp-throttling"></a>

1. Connectez-vous à la console Service Quotas AWS Management Console et ouvrez-la à l'adresse [https://console.aws.amazon.com/servicequotas/](https://console.aws.amazon.com/servicequotas/).

1. Dans la zone **Quotas gérés**, recherchez et sélectionnez le service géré Amazon pour Prometheus.

1. Choisissez le quota **Série active par espace de travail**.

1. Dans l’onglet **Quotas au niveau des ressources**, sélectionnez votre espace de travail Service géré Amazon pour Prometheus.

1. Assurez-vous que l’utilisation est inférieure à votre quota actuel.

1. Si vous avez atteint la limite de quota, sélectionnez votre espace de travail en choisissant la case d’option située à sa gauche, puis choisissez **Demander une augmentation au niveau des ressources**.

### Vérifiez que la mise en cache KV et le routage intelligent sont activés
<a name="verify-caching-routing"></a>

Si le `KVCache Metrics` tableau de bord est absent, la fonctionnalité n'est pas activée ou le port n'est pas mentionné dans le`modelMetrics`. Pour plus d'informations sur la façon de l'activer, reportez-vous aux étapes 1 et 3 de[Configurez la mise en cache KV et le routage intelligent pour améliorer les performances](sagemaker-hyperpod-model-deployment-deploy-ftm.md#sagemaker-hyperpod-model-deployment-deploy-ftm-cache-route). 

Si le `Intelligent Router Metrics` tableau de bord est absent, activez la fonctionnalité pour qu'ils apparaissent. Pour plus d'informations sur la façon de l'activer, consultez[Configurez la mise en cache KV et le routage intelligent pour améliorer les performances](sagemaker-hyperpod-model-deployment-deploy-ftm.md#sagemaker-hyperpod-model-deployment-deploy-ftm-cache-route). 

## Résolution des échecs d’installation du module complémentaire
<a name="troubleshooting-addon-installation-failures"></a>

Si le module complémentaire d’observabilité ne s’installe pas, suivez les étapes ci-dessous pour diagnostiquer et résoudre le problème.

### Vérification du statut de vérification de l’état
<a name="check-health-probe-status"></a>

1. Ouvrez la console Amazon EKS à l'adresse [https://console.aws.amazon.com/eks/home\$1/clusters](https://console.aws.amazon.com/eks/home#/clusters).

1. Sélectionnez votre cluster.

1. Choisissez l’onglet **Modules complémentaires**.

1. Choisissez le module complémentaire qui a échoué.

1. Examinez la section **Problèmes de santé**.

1. Si le problème d’état est lié aux informations d’identification ou à l’identité du pod, consultez [Vérification de l’association d’identité du pod](#verify-pod-identity-association). Assurez-vous également que le module complémentaire d’agent d’identité du pod est en cours d’exécution dans le cluster.

1. Recherchez des erreurs dans les journaux du gestionnaire. Pour obtenir des instructions, veuillez consulter [Examen des journaux du gestionnaire](#review-manager-logs).

1. Contactez le AWS Support pour obtenir les détails du problème.

### Examen des journaux du gestionnaire
<a name="review-manager-logs"></a>

1. Obtenez le pod de gestion du module complémentaire :

   ```
   kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager
   ```

1. Pour des problèmes urgents, contactez Support.

## Examen de tous les pods d’observabilité
<a name="review-all-observability-pods"></a>

Tous les pods créés par le module complémentaire SageMaker HyperPod d'observabilité se trouvent dans l'espace de `hyperpod-observability` noms. Pour obtenir le statut de ces pods, exécutez la commande suivante.

```
kubectl get pods -n hyperpod-observability
```

Recherchez les pods dont le statut est `pending` ou `crashloopbackoff`. Exécutez la commande suivante pour obtenir les journaux de ces pods en attente ou défaillants.

```
kubectl logs -n hyperpod-observability pod-name
```

Si vous ne trouvez aucune erreur dans les journaux, exécutez la commande suivante pour décrire les pods et rechercher des erreurs.

```
kubectl describe -n hyperpod-observability pod pod-name
```

Pour obtenir plus de contexte, exécutez les deux commandes suivantes pour décrire les déploiements et les daemonsets de ces pods.

```
kubectl describe -n hyperpod-observability deployment deployment-name
```

```
kubectl describe -n hyperpod-observability daemonset daemonset-name
```

## Résolution des problèmes liés aux pods bloqués avec le statut En attente
<a name="pods-stuck-in-pending"></a>

Si vous constatez que certains pods sont bloqués avec le statut `pending`, assurez-vous que le nœud est suffisamment grand pour contenir tous les pods. Pour vérifier cela, effectuez les opérations suivantes.

1. Ouvrez la console Amazon EKS à l'adresse [https://console.aws.amazon.com/eks/home\$1/clusters](https://console.aws.amazon.com/eks/home#/clusters).

1. Choisissez votre cluster.

1. Choisissez l’onglet **Calcul** du cluster.

1. Choisissez le nœud avec le plus petit type d’instance.

1. Dans la section d’allocation de capacité, recherchez les pods disponibles.

1. Si aucun pod n’est disponible, vous avez besoin d’un type d’instance plus grand.

Pour des problèmes urgents, contactez AWS Support.

## Résolution des problèmes d'observabilité sur les groupes d'instances restreints
<a name="troubleshooting-rig-observability"></a>

Suivez les instructions suivantes pour résoudre les problèmes spécifiques aux clusters dotés de groupes d'instances restreints.

### Les pods d'observabilité ne démarrent pas sur des nœuds restreints
<a name="troubleshooting-rig-pods-not-starting"></a>

Si les pods d'observabilité ne démarrent pas sur des nœuds restreints, vérifiez l'état et les événements du pod :

```
kubectl get pods -n hyperpod-observability -o wide
kubectl describe pod pod-name -n hyperpod-observability
```

Les causes courantes incluent :
+ **Échec de l'extraction d'images :** les événements du pod peuvent provoquer des erreurs d'extraction d'images si les images du conteneur d'observabilité ne sont pas encore autorisées sur les nœuds restreints. Assurez-vous que vous utilisez la dernière version du module complémentaire d'observabilité. Si le problème persiste après la mise à niveau, contactez Support.
+ **Tolérances d'altération :** vérifiez que les spécifications du pod incluent la tolérance requise pour les nœuds restreints. Le module complémentaire à partir de la version ajoute `v1.0.5-eksbuild.1` automatiquement cette tolérance lorsque le support RIG est activé. Si vous utilisez une ancienne version, veuillez passer à la dernière version.

### Afficher les journaux des pods sur des nœuds restreints
<a name="troubleshooting-rig-viewing-logs"></a>

La `kubectl logs` commande ne fonctionne pas pour les pods exécutés sur des nœuds restreints. Il s'agit d'une limitation attendue car le chemin de communication requis pour le streaming des journaux n'est pas disponible sur les nœuds restreints.

Pour consulter les journaux provenant de nœuds restreints, utilisez le tableau de bord **Cluster Logs** d'Amazon Managed Grafana, qui interroge directement CloudWatch les journaux. Vous pouvez filtrer par ID d'instance, flux de journal, niveau de journal et recherche en texte libre pour trouver les entrées de journal pertinentes.

### Défaillances de résolution DNS dans les clusters comportant à la fois des nœuds standard et restreints
<a name="troubleshooting-rig-dns-resolution"></a>

Dans les clusters hybrides (clusters comprenant à la fois des groupes d'instances standard et restreints), les pods des nœuds standard peuvent rencontrer des délais de résolution DNS lorsqu'ils tentent d'atteindre des points de terminaison de AWS service tels qu'Amazon Managed Service for Prometheus ou. CloudWatch

**Cause :** Le `kube-dns` service possède des points de terminaison provenant à la fois de pods CoreDNS standard et de pods RIG CoreDNS. Les pods de nœuds standard ne peuvent pas atteindre les points de terminaison RIG CoreDNS en raison de l'isolation du réseau. Lorsque la `kube-proxy` charge d'une requête DNS d'un pod de nœuds standard est équilibrée vers un point de terminaison RIG CoreDNS, la demande expire.

**Résolution :** configurez `internalTrafficPolicy: Local` le `kube-dns` service pour que les pods n'atteignent CoreDNS que sur leur nœud local :

```
kubectl patch svc kube-dns -n kube-system -p '{"spec":{"internalTrafficPolicy":"Local"}}'
```

Après avoir appliqué ce correctif, redémarrez les modules d'observabilité concernés :

```
kubectl delete pods -n hyperpod-observability -l app.kubernetes.io/name=hyperpod-node-collector
```

### Les métriques provenant de nœuds restreints n'atteignent pas Amazon Managed Service for Prometheus
<a name="troubleshooting-rig-metrics-not-reaching-amp"></a>

Si les statistiques des nœuds restreints n'apparaissent pas dans votre espace de travail Amazon Managed Service for Prometheus :

1. **Vérifiez les autorisations du rôle d'exécution.** Assurez-vous que le rôle d'exécution du groupe d'instances restreint est `aps:RemoteWrite` autorisé à accéder à votre espace de travail Prometheus. Pour de plus amples informations, veuillez consulter [Conditions préalables supplémentaires pour les groupes d'instances restreints](hyperpod-observability-addon-setup.md#hyperpod-observability-addon-rig-prerequisites).

1. **Vérifiez l'état du pod du collecteur de nœuds.** Exécutez la commande suivante et vérifiez que les pods du collecteur de nœuds s'exécutent sur des nœuds restreints :

   ```
   kubectl get pods -n hyperpod-observability | grep node-collector
   ```

1. **Vérifiez les déploiements du collecteur central.** Dans les clusters dotés de nœuds restreints, le module complémentaire déploie un collecteur central par limite de réseau. Vérifiez qu'il existe un collecteur central pour chaque limite :

   ```
   kubectl get deployments -n hyperpod-observability | grep central-collector
   ```

1. **Vérifiez les événements du pod pour détecter les erreurs.** `kubectl describe`À utiliser sur les pods du collecteur pour rechercher les événements d'erreur :

   ```
   kubectl describe pod collector-pod-name -n hyperpod-observability
   ```

Si le problème persiste après avoir vérifié ce qui précède, contactez Support.

### La vérification de l'identité du pod ne s'applique pas aux nœuds de groupes d'instances restreints
<a name="troubleshooting-rig-pod-identity"></a>

Les étapes [Vérification de l’association d’identité du pod](#verify-pod-identity-association) de résolution des problèmes s'appliquent uniquement aux nœuds standard. Sur les nœuds restreints, le module complémentaire utilise le rôle d'exécution du groupe d'instances de cluster pour AWS l'authentification au lieu d'Amazon EKS Pod Identity. Si les métriques sont absentes des nœuds restreints, vérifiez les autorisations du rôle d'exécution plutôt que l'association Pod Identity.

### Fluent Bit ne fonctionne pas sur des nœuds restreints
<a name="troubleshooting-rig-fluent-bit"></a>

Ce comportement est normal. Fluent Bit n'est intentionnellement pas déployé sur des nœuds restreints. Les journaux des nœuds restreints sont publiés CloudWatch sur la SageMaker HyperPod plateforme indépendamment du module complémentaire d'observabilité. Utilisez le tableau de bord **Cluster Logs** d'Amazon Managed Grafana pour consulter ces journaux.

# Observabilité avec Amazon CloudWatch
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci"></a>

Utilisez [Amazon CloudWatch Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) pour collecter, agréger et résumer les métriques et les journaux des applications conteneurisées et des microservices du cluster EKS associé à un cluster. HyperPod 

Amazon CloudWatch Insights collecte des métriques pour les ressources de calcul, telles que le processeur, la mémoire, le disque et le réseau. Conteneur Insights fournit également des informations de diagnostic (par exemple sur les échecs de redémarrage des conteneurs) pour vous aider à isoler les problèmes et à les résoudre rapidement. Vous pouvez également définir des CloudWatch alarmes sur les métriques collectées par Container Insights.

Pour obtenir la liste complète des métriques, consultez les [métriques Amazon EKS et Kubernetes Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-metrics-EKS.html) dans le *Guide de l’utilisateur Amazon EKS*.

## Installez CloudWatch Container Insights
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci-setup"></a>

Les utilisateurs administrateurs du cluster doivent configurer CloudWatch Container Insights en suivant les instructions de [la section Installer l' CloudWatch agent à l'aide du module complémentaire Amazon CloudWatch Observability EKS ou du graphique Helm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html) du *guide de l'CloudWatch utilisateur*. Pour plus d'informations sur le module complémentaire Amazon EKS, consultez également [Installer le module complémentaire Amazon CloudWatch Observability EKS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-setup-EKS-addon.html) dans le *guide de l'utilisateur Amazon EKS*.

Une fois l'installation terminée, vérifiez que le module complémentaire CloudWatch Observability est visible dans l'onglet du module complémentaire du cluster EKS. Le chargement du tableau de bord peut prendre quelques minutes.

**Note**  
SageMaker HyperPod nécessite CloudWatch Insight v2.0.1-eksbuild.1 ou version ultérieure.

![\[CloudWatch Observability service card showing status, version, and IAM role information.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/hyperpod-eks-CIaddon.png)


# Accédez au tableau CloudWatch de bord des informations sur les
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci-access-dashboard"></a>

1. Ouvrez la CloudWatch console à l'adresse [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/).

1. Choisissez **Informations**, puis **Container Insights**.

1. Sélectionnez le cluster EKS configuré avec le HyperPod cluster que vous utilisez.

1. Consultez les indicateurs Pod/Cluster de niveau.

![\[Performance monitoring dashboard for EKS cluster showing node status, resource utilization, and pod metrics.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/hyperpod-eks-CIdashboard.png)


## Accédez aux journaux d'informations sur les CloudWatch conteneurs
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci-access-log"></a>

1. Ouvrez la CloudWatch console à l'adresse [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/).

1. Choisissez **Journaux**, puis **groupe de journaux**.

Lorsque les HyperPod clusters sont intégrés à Amazon CloudWatch Container Insights, vous pouvez accéder aux groupes de journaux pertinents au format suivant :`/aws/containerinsights /<eks-cluster-name>/*`. Dans ce groupe de journaux, vous pouvez rechercher et explorer différents types de journaux tels que les journaux de performances, les journaux d’hôte, les journaux d’applications et les journaux de plan de données.