

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Risoluzione dei problemi relativi alle metriche di integrità del cluster
<a name="troubleshooting-v3-cluster-health-metrics"></a>

Le metriche sullo stato del cluster vengono aggiunte alla CloudWatch dashboard di AWS ParallelCluster Amazon a partire dalla AWS ParallelCluster versione 3.6.0. Nelle sezioni seguenti, puoi conoscere i parametri di salute della dashboard e le azioni che puoi intraprendere per risolvere e risolvere i problemi.

**Topics**
+ [Visualizzazione del grafico degli errori di provisioning delle **istanze**](#troubleshooting-v3-cluster-health-metrics-instance-provisioning)
+ [Visualizzazione del grafico **Unhealthy Instance Errors**](#troubleshooting-v3-cluster-health-metrics-unhealthy-instance)
+ [Visualizzazione del grafico **Compute Fleet Idle Time**](#troubleshooting-v3-cluster-health-metrics-idle-time-errors)

## Visualizzazione del grafico degli errori di provisioning delle **istanze**
<a name="troubleshooting-v3-cluster-health-metrics-instance-provisioning"></a>

Se vedi un valore diverso da zero nel `Instance Provisioning Errors` grafico, significa che l'istanza Amazon EC2 per il backup dei nodi slurm non è stata avviata sull'API or. `CreateFleet` `RunInstance`

### Vedendo `IAMPolicyErrors`
<a name="troubleshooting-v3-cluster-health-metrics-iam-policy"></a>
+ **Cosa è successo?**

  Alcune istanze non sono state avviate, a causa di autorizzazioni insufficienti con codice di errore. `UnauthorizedOperation`
+ **Come risolvere?**

  Se hai configurato un [`InstanceRole`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceRole)or personalizzato [`InstanceProfile`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceProfile), controlla le tue policy IAM e verifica di utilizzare le credenziali corrette.

  Controlla il `clustermgtd` file per i dettagli sugli errori statici dei nodi. Controlla il `slurm_resume.log` file per i dettagli degli errori dinamici del nodo. Usa i dettagli per saperne di più sulle autorizzazioni mancanti che devono essere aggiunte.

### Vedendo `VcpuLimitErrors`
<a name="troubleshooting-v3-cluster-health-metrics-vcpu-limit"></a>
+ **Cosa è successo?**

  AWS ParallelCluster non è riuscito ad avviare le istanze perché ha raggiunto il limite di vCPU per uno specifico Account AWS tipo di istanza Amazon EC2 configurato per i nodi di calcolo del cluster.
+ **Come risolvere?**

  Controlla l'`VcpuLimitExceeded`errore nel `clustermgtd` file per i nodi statici e controlla il `slurm_resume.log` file per i nodi dinamici per ottenere ulteriori dettagli. Per risolvere questo problema, puoi richiedere un aumento dei limiti di vCPU. Per ulteriori informazioni su come visualizzare i limiti attuali e richiederne di nuovi, consulta le [quote dei servizi Amazon Elastic Compute Cloud](https://docs.aws.amazon.com//AWSEC2/latest/UserGuide/ec2-resource-limits.html) nella *Amazon Elastic Compute Cloud User Guide for* Linux Instances.

### Vedendo `VolumeLimitErrors`
<a name="troubleshooting-v3-cluster-health-metrics-volume-limit"></a>
+ **Cosa è successo?**

  Hai raggiunto il limite di volume di Amazon EBS sul tuo Account AWS e AWS ParallelCluster non riesci ad avviare istanze con codice `InsufficientVolumeCapacity` di errore o. `VolumeLimitExceeded`
+ **Come risolvere?**

  Controlla il `clustermgtd` file per i nodi statici e controlla il `slurm_resume.log` file per i nodi dinamici per ottenere ulteriori dettagli sui limiti di volume. Per risolvere questo problema, puoi utilizzare un altro Regione AWS, pulire i volumi esistenti o contattare il AWS Support Center per inviare una richiesta di aumento del limite di volume di Amazon EBS.

### Vedendo `InsufficientCapacityErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ice"></a>
+ **Cosa è successo?**

  AWS ParallelCluster non dispone di una capacità sufficiente per avviare istanze Amazon EC2 sui backnode.
+ **Come risolvere?**

  Controlla il `clustermgtd` file per i nodi statici e controlla il `slurm_resume.log` file per i nodi dinamici per ottenere dettagli sugli errori di capacità insufficienti. Per risolvere il problema, segui le istruzioni disponibili su [https://aws.amazon.com/premiumsupport/knowledge-center/ec2](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) -/. insufficient-capacity-errors

### `OtherInstanceLaunchFailures`
<a name="troubleshooting-v3-cluster-health-metrics-other-launch-failures"></a>
+ **Cosa è successo?**

  L'istanza Amazon EC2 per il backup dei nodi di calcolo non è stata avviata con l'API or. `CreateFleet` `RunInstance`
+ **Come risolvere?**

  Controlla il `clustermgtd` file per i nodi statici e controlla il `slurm_resume.log` file per i nodi dinamici per ottenere i dettagli dell'errore.

## Visualizzazione del grafico **Unhealthy Instance Errors**
<a name="troubleshooting-v3-cluster-health-metrics-unhealthy-instance"></a>
+ **Cosa è successo?**

  Sono state lanciate diverse istanze di calcolo, ma in seguito sono state chiuse perché non funzionanti.
+ **Come risolvere?**

  Per ulteriori informazioni sulla risoluzione dei problemi relativi ai nodi non integri, vedere[**Risoluzione dei problemi di sostituzioni e terminazioni impreviste dei nodi**](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-unexpected-node-replacements-and-terminations).

### Vedendo `InstanceBootstrapTimeoutError`
<a name="troubleshooting-v3-cluster-health-metrics-bootstrap-timeout"></a>
+ **Cosa è successo?**

  Un'istanza non può entrare a far parte del cluster all'interno di `resume_timeout` (per nodi dinamici) o `node_replacement_timeout` (per nodi statici). Ciò può verificarsi se la rete non è configurata correttamente per i nodi di calcolo oppure se gli script personalizzati in esecuzione sul nodo di calcolo impiegano troppo tempo per essere completati.
+ **Come risolvere?**

  Per i nodi dinamici, controlla nel `clustermgtd` log (`/var/log/parallelcluster/clustermgtd`) l'indirizzo IP del nodo di calcolo e gli errori come i seguenti:

  ```
  Node bootstrap error: Resume timeout expires for node
  ```

  Per i nodi statici, controllate `clustermgtd` log (`/var/log/parallelcluster/clustermgtd`) per l'indirizzo IP del nodo di calcolo ed errori come i seguenti:

  ```
  Node bootstrap error: Replacement timeout expires for node ... in replacement.
  ```

  Per ulteriori dettagli, controllate la presenza di errori nel `/var/log/cloud-init-output.log` file. È possibile recuperare gli indirizzi IP dei nodi di calcolo problematici dai file di registro `clustermgtd` e`slurm_resume`.

### Vedendo `EC2HealthCheckErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ec2-check"></a>
+ **Cosa è successo?**

  Un'istanza non ha superato il controllo dello stato di Amazon EC2.
+ **Come risolvere?**

  Per informazioni su come risolvere questo problema, consulta Risolvere i [problemi relativi alle istanze con controlli](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstances.html) di stato non riusciti.

### Vedendo `ScheduledEventHealthCheckErrors`
<a name="troubleshooting-v3-cluster-health-metrics-ec2-scheduled-event"></a>
+ **Cosa è successo?**

  Un'istanza non ha superato il controllo dello stato di un evento pianificato da Amazon EC2 e non è integra.
+ **Come risolvere?**

  Per informazioni su come risolvere questo problema, consulta [Eventi pianificati per le tue](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html) istanze.

### Vedendo `NoCorrespondingInstanceErrors`
<a name="troubleshooting-v3-cluster-health-metrics-missing-instances"></a>
+ **Cosa è successo?**

  AWS ParallelCluster non riesco a trovare istanze che supportano i nodi. Probabilmente i nodi si sono interrotti automaticamente durante le operazioni di bootstrap. [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues)/[`CustomActions`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-CustomActions)/[`OnNodeStart`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeStart)\| possono produrre errori di [`OnNodeConfigured`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeConfigured)script o di rete. `NoCorrespondingInstanceErrors`
+ **Come risolvere?**

  Per ulteriori dettagli, consulta la sezione `/var/log/cloud-init-output.log` dedicata al nodo di calcolo.

## Visualizzazione del grafico **Compute Fleet Idle Time**
<a name="troubleshooting-v3-cluster-health-metrics-idle-time-errors"></a>

### Visualizzazione di un valore `MaxDynamicNodeIdleTime` significativamente più lungo della soglia di scalabilità del tempo di **inattività**
<a name="troubleshooting-v3-cluster-health-idle-time-threshold"></a>
+ **Cosa è successo?**

  La tua istanza non si sta concludendo correttamente. `MaxDynamicNodeIdleTime`mostra il tempo massimo, in secondi, di inattività di un nodo dinamico, supportato da un'istanza Amazon EC2. La soglia di **Idle Time Scaledown** è derivata dal parametro di configurazione del cluster. [`ScaledownIdletime`](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-ScaledownIdletime) Quando un nodo di calcolo è inattivo per più di secondi di **Idle Time Scaledown**, spegne il nodo e termina l'istanza di Slurm backup. AWS ParallelCluster In questo caso, qualcosa impedisce la chiusura dell'istanza.
+ **Come risolvere?**

  Per ulteriori informazioni su questo problema, vedere [**Sostituzione, interruzione o spegnimento di istanze e nodi problematici**](troubleshooting-v3-scaling-issues.md#replacing-terminating-or-powering-down-problematic-instances-and-nodes-v3) in[Risoluzione dei problemi di scalabilità](troubleshooting-v3-scaling-issues.md).