

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Résolution des problèmes liés aux indicateurs de santé du
<a name="troubleshooting-v3-cluster-health-metrics"></a>

Les métriques de santé du cluster sont ajoutées au tableau de CloudWatch bord AWS ParallelCluster Amazon à partir de AWS ParallelCluster la version 3.6.0. Dans les sections suivantes, vous découvrirez les indicateurs de santé du tableau de bord et les mesures que vous pouvez prendre pour résoudre les problèmes.

**Topics**
+ [Voir le graphique des **erreurs de provisionnement des instances**](#troubleshooting-v3-cluster-health-metrics-instance-provisioning)
+ [Affichage du graphique **des erreurs d'instance non** conformes](#troubleshooting-v3-cluster-health-metrics-unhealthy-instance)
+ [Voir le graphique des **temps d'inactivité de la flotte de calcul**](#troubleshooting-v3-cluster-health-metrics-idle-time-errors)

## Voir le graphique des **erreurs de provisionnement des instances**
<a name="troubleshooting-v3-cluster-health-metrics-instance-provisioning"></a>

Si vous voyez une valeur différente de zéro dans le `Instance Provisioning Errors` graphique, cela signifie que l'instance Amazon EC2 de sauvegarde des nœuds slurm n'a pas pu être lancée sur l'API or. `CreateFleet` `RunInstance`

### Voyant `IAMPolicyErrors`
<a name="troubleshooting-v3-cluster-health-metrics-iam-policy"></a>
+ **Que s'est-il passé ?**

  Un certain nombre d'instances n'ont pas pu être lancées, en raison d'autorisations insuffisantes accompagnées d'un code d'erreur`UnauthorizedOperation`.
+ **Comment résoudre le problème ?**

  Si vous avez configuré un [`InstanceRole`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceRole)ou personnalisé [`InstanceProfile`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceProfile), vérifiez vos politiques IAM et vérifiez que vous utilisez les informations d'identification correctes.

  Consultez le `clustermgtd` fichier pour obtenir des informations détaillées sur les erreurs du nœud statique. Consultez le `slurm_resume.log` fichier pour obtenir des informations détaillées sur les erreurs de nœud dynamique. Utilisez les informations pour en savoir plus sur les autorisations manquantes qui doivent être ajoutées.

### Voyant `VcpuLimitErrors`
<a name="troubleshooting-v3-cluster-health-metrics-vcpu-limit"></a>
+ **Que s'est-il passé ?**

  AWS ParallelCluster n'a pas réussi à lancer les instances car la limite de vCPU que vous avez fixée Compte AWS pour un type d'instance Amazon EC2 spécifique que vous avez configuré pour les nœuds de calcul en cluster a été atteint.
+ **Comment résoudre le problème ?**

  Vérifiez l'`VcpuLimitExceeded`erreur dans le `clustermgtd` fichier pour les nœuds statiques et dans le `slurm_resume.log` fichier pour les nœuds dynamiques pour obtenir des informations supplémentaires. Pour résoudre ce problème, vous pouvez demander une augmentation des limites de vos vCPU. Pour plus d'informations sur la façon de consulter les limites actuelles et de demander de nouvelles limites, consultez les [quotas de service Amazon Elastic Compute Cloud](https://docs.aws.amazon.com//AWSEC2/latest/UserGuide/ec2-resource-limits.html) dans le *guide de l'utilisateur Amazon Elastic Compute Cloud pour les instances Linux*.

### Voyant `VolumeLimitErrors`
<a name="troubleshooting-v3-cluster-health-metrics-volume-limit"></a>
+ **Que s'est-il passé ?**

  Vous avez atteint la limite de volume Amazon EBS sur votre Compte AWS, et AWS ParallelCluster vous ne parvenez pas à lancer des instances avec un code d'erreur `InsufficientVolumeCapacity` ou`VolumeLimitExceeded`.
+ **Comment résoudre le problème ?**

  Vérifiez le `clustermgtd` fichier pour les nœuds statiques et pour les `slurm_resume.log` nœuds dynamiques pour obtenir des informations supplémentaires sur les limites de volume. Pour résoudre ce problème, vous pouvez utiliser un autre volume Région AWS, nettoyer les volumes existants ou contacter le AWS Support Center pour soumettre une demande d'augmentation de votre limite de volume Amazon EBS.

### Voyant `InsufficientCapacityErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ice"></a>
+ **Que s'est-il passé ?**

  AWS ParallelCluster ne dispose pas d'une capacité suffisante pour lancer des instances Amazon EC2 sur des nœuds principaux.
+ **Comment résoudre le problème ?**

  Vérifiez le `clustermgtd` fichier pour les nœuds statiques et pour les nœuds dynamiques afin d'obtenir des informations détaillées sur les erreurs de capacité insuffisante. `slurm_resume.log` Pour résoudre le problème, suivez les instructions du [https://aws.amazon.com/premiumsupport/centre de connaissances/ec2-/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/). insufficient-capacity-errors

### `OtherInstanceLaunchFailures`
<a name="troubleshooting-v3-cluster-health-metrics-other-launch-failures"></a>
+ **Que s'est-il passé ?**

  L'instance Amazon EC2 de sauvegarde des nœuds de calcul n'a pas pu être lancée avec l'API `CreateFleet` or`RunInstance`.
+ **Comment résoudre le problème ?**

  Vérifiez le `clustermgtd` fichier pour les nœuds statiques et pour les `slurm_resume.log` nœuds dynamiques pour obtenir des informations sur les erreurs.

## Affichage du graphique **des erreurs d'instance non** conformes
<a name="troubleshooting-v3-cluster-health-metrics-unhealthy-instance"></a>
+ **Que s'est-il passé ?**

  Un certain nombre d'instances de calcul ont été lancées mais ont par la suite été interrompues pour cause de défaillance.
+ **Comment résoudre le problème ?**

  Pour plus d'informations sur la résolution des problèmes liés aux nœuds défectueux, consultez[**Résolution des problèmes de remplacement et de terminaison inattendus de nœuds**](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-unexpected-node-replacements-and-terminations).

### Voyant `InstanceBootstrapTimeoutError`
<a name="troubleshooting-v3-cluster-health-metrics-bootstrap-timeout"></a>
+ **Que s'est-il passé ?**

  Une instance ne peut pas rejoindre le cluster au sein du `resume_timeout` (pour les nœuds dynamiques) ou `node_replacement_timeout` (pour les nœuds statiques). Cela peut se produire si le réseau n'est pas configuré correctement pour les nœuds de calcul, ou si les scripts personnalisés exécutés sur le nœud de calcul mettent trop de temps à se terminer.
+ **Comment résoudre le problème ?**

  Pour les nœuds dynamiques, vérifiez dans le `clustermgtd` journal (`/var/log/parallelcluster/clustermgtd`) l'adresse IP du nœud de calcul et les erreurs telles que les suivantes :

  ```
  Node bootstrap error: Resume timeout expires for node
  ```

  Pour les nœuds statiques, vérifiez dans le `clustermgtd` journal (`/var/log/parallelcluster/clustermgtd`) l'adresse IP du nœud de calcul et les erreurs telles que les suivantes :

  ```
  Node bootstrap error: Replacement timeout expires for node ... in replacement.
  ```

  Pour plus de détails, vérifiez que le `/var/log/cloud-init-output.log` fichier ne contient pas d'erreurs. Vous pouvez récupérer les adresses IP des nœuds de calcul problématiques dans les fichiers `slurm_resume` journaux `clustermgtd` et.

### Voyant `EC2HealthCheckErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ec2-check"></a>
+ **Que s'est-il passé ?**

  Le bilan de santé d'une instance a échoué sur Amazon EC2.
+ **Comment résoudre le problème ?**

  Pour plus d'informations sur la façon de résoudre ce problème, consultez [Résoudre les problèmes des instances dont les vérifications d'état ont échoué](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstances.html).

### Voyant `ScheduledEventHealthCheckErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ec2-scheduled-event"></a>
+ **Que s'est-il passé ?**

  Une instance a échoué lors d'une vérification de l'état d'un événement planifié par Amazon EC2, et elle ne fonctionne pas correctement.
+ **Comment résoudre le problème ?**

  Pour plus d'informations sur la manière de résoudre ce problème, consultez la section [Événements planifiés pour vos instances](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html).

### Voyant `NoCorrespondingInstanceErrors`
<a name="troubleshooting-v3-cluster-health-metrics-missing-instances"></a>
+ **Que s'est-il passé ?**

  AWS ParallelCluster Impossible de trouver les instances qui soutiennent les nœuds. Les nœuds se sont probablement terminés automatiquement lors des opérations d'amorçage. [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues)Des erreurs de [`OnNodeConfigured`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeConfigured)script [`CustomActions`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-CustomActions)//[`OnNodeStart`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeStart)\$1 ou de réseau peuvent se produire`NoCorrespondingInstanceErrors`.
+ **Comment résoudre le problème ?**

  Pour plus de détails, consultez `/var/log/cloud-init-output.log` le nœud de calcul.

## Voir le graphique des **temps d'inactivité de la flotte de calcul**
<a name="troubleshooting-v3-cluster-health-metrics-idle-time-errors"></a>

### Observer un `MaxDynamicNodeIdleTime` délai nettement supérieur au seuil de réduction **du temps d'inactivité**
<a name="troubleshooting-v3-cluster-health-idle-time-threshold"></a>
+ **Que s'est-il passé ?**

  Votre instance ne s'arrête pas correctement. `MaxDynamicNodeIdleTime`indique la durée maximale en secondes pendant laquelle un nœud dynamique, soutenu par une instance Amazon EC2, est inactif. Le seuil **de réduction du temps d'inactivité** est dérivé du paramètre de configuration [`ScaledownIdletime`](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-ScaledownIdletime)du cluster. Lorsqu'un nœud de calcul est inactif pendant plus de quelques secondes, **Scaledown** met le nœud hors Slurm tension et AWS ParallelCluster met fin à l'instance de sauvegarde. Dans ce cas, quelque chose empêche la fermeture de l'instance.
+ **Comment résoudre le problème ?**

  Pour plus d'informations sur ce problème, voir [**Remplacement, arrêt ou mise hors tension des instances et des nœuds problématiques**](troubleshooting-v3-scaling-issues.md#replacing-terminating-or-powering-down-problematic-instances-and-nodes-v3) dans[Résolution des problèmes de dimensionnement](troubleshooting-v3-scaling-issues.md).