

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Fehlerbehebung bei Cluster-Integritätsmetriken
<a name="troubleshooting-v3-cluster-health-metrics"></a>

Ab AWS ParallelCluster Version 3.6.0 werden Cluster-Integritätsmetriken zum AWS ParallelCluster CloudWatch Amazon-Dashboard hinzugefügt. In den folgenden Abschnitten erfahren Sie mehr über die Statuskennzahlen des Dashboards und die Maßnahmen, die Sie zur Behebung und Lösung von Problemen ergreifen können.

**Topics**
+ [Das Diagramm mit den **Fehlern bei der Instanzbereitstellung** wird angezeigt](#troubleshooting-v3-cluster-health-metrics-instance-provisioning)
+ [Das Diagramm **Unhealthy Instance Errors wird angezeigt**](#troubleshooting-v3-cluster-health-metrics-unhealthy-instance)
+ [Das Diagramm „**Compute Fleet Idle Time**“ wird angezeigt](#troubleshooting-v3-cluster-health-metrics-idle-time-errors)

## Das Diagramm mit den **Fehlern bei der Instanzbereitstellung** wird angezeigt
<a name="troubleshooting-v3-cluster-health-metrics-instance-provisioning"></a>

Wenn Sie in der `Instance Provisioning Errors` Grafik einen Wert ungleich Null sehen, bedeutet dies, dass die Amazon EC2 EC2-Instance zur Unterstützung von Slurm-Knoten nicht auf der `CreateFleet` API oder gestartet werden konnte. `RunInstance`

### Sehen `IAMPolicyErrors`
<a name="troubleshooting-v3-cluster-health-metrics-iam-policy"></a>
+ **Was ist passiert?**

  Eine Reihe von Instances konnte nicht gestartet werden, was auf unzureichende Berechtigungen mit Fehlercode zurückzuführen ist`UnauthorizedOperation`.
+ **Wie löst man das Problem?**

  Wenn Sie ein benutzerdefiniertes [`InstanceRole`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceRole)oder konfiguriert haben [`InstanceProfile`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceProfile), überprüfen Sie Ihre IAM-Richtlinien und stellen Sie sicher, dass Sie die richtigen Anmeldeinformationen verwenden.

  Suchen Sie in der `clustermgtd` Datei nach Fehlerdetails für statische Knoten. Überprüfen Sie die `slurm_resume.log` Datei auf Details zu dynamischen Knotenfehlern. Verwenden Sie die Details, um mehr über die fehlenden Berechtigungen zu erfahren, die hinzugefügt werden müssen.

### Sehen `VcpuLimitErrors`
<a name="troubleshooting-v3-cluster-health-metrics-vcpu-limit"></a>
+ **Was ist passiert?**

  AWS ParallelCluster Instances konnten nicht gestartet werden, weil das vCPU-Limit auf Ihrem AWS-Konto für einen bestimmten Amazon EC2 EC2-Instance-Typ, den Sie für Cluster-Rechenknoten konfiguriert haben, erreicht wurde.
+ **Wie löst man das Problem?**

  Suchen Sie in der `clustermgtd` Datei nach statischen Knoten nach dem `VcpuLimitExceeded` Fehler und suchen Sie in der `slurm_resume.log` Datei nach dynamischen Knoten, um weitere Informationen zu erhalten. Um dieses Problem zu beheben, können Sie eine Erhöhung Ihrer vCPU-Limits beantragen. Weitere Informationen darüber, wie Sie aktuelle Limits anzeigen und neue Limits anfordern können, finden Sie unter [Amazon Elastic Compute Cloud Service-Kontingente](https://docs.aws.amazon.com//AWSEC2/latest/UserGuide/ec2-resource-limits.html) im *Amazon Elastic Compute Cloud-Benutzerhandbuch für Linux-Instances*.

### Sehen `VolumeLimitErrors`
<a name="troubleshooting-v3-cluster-health-metrics-volume-limit"></a>
+ **Was ist passiert?**

  Sie haben Ihr Amazon EBS-Volumenlimit auf Ihrem AWS-Konto erreicht und AWS ParallelCluster können keine Instances mit dem Fehlercode `InsufficientVolumeCapacity` oder `VolumeLimitExceeded` starten.
+ **Wie löst man das Problem?**

  Überprüfen Sie die `clustermgtd` Datei auf statische Knoten und überprüfen Sie die `slurm_resume.log` Datei auf dynamische Knoten, um weitere Informationen zum Volumenlimit zu erhalten. Um dieses Problem zu lösen, können Sie ein anderes verwenden AWS-Region, vorhandene Volumes bereinigen oder sich an das AWS Support Center wenden, um eine Anfrage zur Erhöhung Ihres Amazon EBS-Volumenlimits einzureichen.

### Sehen `InsufficientCapacityErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ice"></a>
+ **Was ist passiert?**

  AWS ParallelCluster hat nicht genügend Kapazität, um Amazon EC2 EC2-Instances auf Back-Nodes zu starten.
+ **Wie löst man das Problem?**

  Überprüfen Sie die `clustermgtd` Datei auf statische Knoten und überprüfen Sie die `slurm_resume.log` Datei auf dynamische Knoten, um Informationen zu unzureichenden Kapazitätsfehlern zu erhalten. Folgen Sie den Anweisungen unter [https://aws.amazon.com/premiumsupport/knowledge-center/ec2](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) -/, um das Problem zu beheben. insufficient-capacity-errors

### `OtherInstanceLaunchFailures`
<a name="troubleshooting-v3-cluster-health-metrics-other-launch-failures"></a>
+ **Was ist passiert?**

  Die Amazon EC2 EC2-Instance für die Sicherung von Rechenknoten konnte nicht mit der `CreateFleet` oder `RunInstance` API gestartet werden.
+ **Wie löst man das Problem?**

  Überprüfen Sie die `clustermgtd` Datei auf statische Knoten und überprüfen Sie die `slurm_resume.log` Datei auf dynamische Knoten, um Fehlerdetails zu erhalten.

## Das Diagramm **Unhealthy Instance Errors wird angezeigt**
<a name="troubleshooting-v3-cluster-health-metrics-unhealthy-instance"></a>
+ **Was ist passiert?**

  Eine Reihe von Compute-Instances wurde gestartet, später aber als fehlerhaft beendet.
+ **Wie löst man das Problem?**

  Weitere Informationen zur Behebung fehlerhafter Knoten finden Sie unter[**Behebung unerwarteter Knotenersetzungen und -beendigungen**](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-unexpected-node-replacements-and-terminations).

### Sehen `InstanceBootstrapTimeoutError`
<a name="troubleshooting-v3-cluster-health-metrics-bootstrap-timeout"></a>
+ **Was ist passiert?**

  Eine Instanz kann dem Cluster nicht innerhalb des `resume_timeout` (für dynamische Knoten) oder `node_replacement_timeout` (für statische Knoten) beitreten. Dies kann der Fall sein, wenn das Netzwerk für die Rechenknoten nicht richtig konfiguriert ist, oder wenn die Fertigstellung benutzerdefinierter Skripts, die auf dem Rechenknoten ausgeführt werden, zu lange dauert.
+ **Wie löst man das Problem?**

  Überprüfen Sie bei dynamischen Knoten das `clustermgtd` Log (`/var/log/parallelcluster/clustermgtd`) auf die IP-Adresse des Rechenknotens und auf Fehler wie die folgenden:

  ```
  Node bootstrap error: Resume timeout expires for node
  ```

  Überprüfen Sie bei statischen Knoten das `clustermgtd` log (`/var/log/parallelcluster/clustermgtd`) auf die IP-Adresse des Rechenknotens und auf Fehler wie die folgenden:

  ```
  Node bootstrap error: Replacement timeout expires for node ... in replacement.
  ```

  Weitere Informationen finden Sie in der `/var/log/cloud-init-output.log` Datei auf Fehler. Sie können problematische Compute-Knoten-IP-Adressen aus den Dateien `clustermgtd` und den `slurm_resume` Protokolldateien abrufen.

### Sehen `EC2HealthCheckErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ec2-check"></a>
+ **Was ist passiert?**

  Eine Instance hat eine Amazon EC2 EC2-Zustandsprüfung nicht bestanden.
+ **Wie löst man das Problem?**

  Informationen zur Behebung dieses Problems finden Sie unter [Problembehandlung bei Instanzen mit fehlgeschlagenen Statusprüfungen](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstances.html).

### Sehen `ScheduledEventHealthCheckErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ec2-scheduled-event"></a>
+ **Was ist passiert?**

  Eine Instance hat die Zustandsprüfung eines geplanten Amazon EC2 EC2-Ereignisses nicht bestanden und ist fehlerhaft.
+ **Wie löst man das Problem?**

  Informationen zur Behebung dieses Problems finden Sie unter [Geplante Ereignisse für Ihre Instances](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html).

### Sehen `NoCorrespondingInstanceErrors`
<a name="troubleshooting-v3-cluster-health-metrics-missing-instances"></a>
+ **Was ist passiert?**

  AWS ParallelCluster kann keine Instanzen finden, die Knoten unterstützen. Die Knoten haben sich während der Bootstrap-Operationen wahrscheinlich selbst beendet. [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues)/[`CustomActions`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-CustomActions)/[`OnNodeStart`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeStart)\$1 [`OnNodeConfigured`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeConfigured)Skript- oder Netzwerkfehler können dazu führen. `NoCorrespondingInstanceErrors`
+ **Wie löst man das Problem?**

  Weitere Informationen finden Sie unter `/var/log/cloud-init-output.log` für den Rechenknoten.

## Das Diagramm „**Compute Fleet Idle Time**“ wird angezeigt
<a name="troubleshooting-v3-cluster-health-metrics-idle-time-errors"></a>

### Es wird ein Wert `MaxDynamicNodeIdleTime` angezeigt, der deutlich länger als der Schwellenwert für die **Reduzierung der Leerlaufzeit** ist
<a name="troubleshooting-v3-cluster-health-idle-time-threshold"></a>
+ **Was ist passiert?**

  Ihre Instanz wird nicht ordnungsgemäß beendet. `MaxDynamicNodeIdleTime`zeigt die maximale Zeit in Sekunden an, die ein dynamischer Knoten, der von einer Amazon EC2 EC2-Instance unterstützt wird, inaktiv ist. Der **Idle Time Scaledown-Schwellenwert** wird aus dem Cluster-Konfigurationsparameter abgeleitet. [`ScaledownIdletime`](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-ScaledownIdletime) Wenn ein Rechenknoten länger als **Idle Time Scaledown Sekunden inaktiv war, Slurm wird der Knoten heruntergefahren** und die unterstützende Instance AWS ParallelCluster beendet. In diesem Fall verhindert etwas die Beendigung der Instanz.
+ **Wie löst man das Problem?**

  Weitere Informationen zu diesem Problem finden Sie [**Ersetzen, Beenden oder Herunterfahren problematischer Instanzen und Knoten**](troubleshooting-v3-scaling-issues.md#replacing-terminating-or-powering-down-problematic-instances-and-nodes-v3) unter[Behebung von Skalierungsproblemen](troubleshooting-v3-scaling-issues.md).