

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Sto cercando di eseguire un lavoro
<a name="troubleshooting-fc-v3-run-job"></a>

La sezione seguente fornisce possibili soluzioni per la risoluzione dei problemi in caso di problemi durante il tentativo di eseguire un processo.

## `srun`il processo interattivo fallisce e restituisce un errore `srun: error: fwd_tree_thread: can't find address for <host>, check slurm.conf`
<a name="run-job-srun-interactive-fail-v3"></a>
+ **Perché ha fallito?**

  Hai eseguito il `srun` comando per inviare un lavoro, quindi hai aumentato la dimensione di una coda utilizzando il `pcluster update-cluster` comando senza riavviare i Slurm demoni dopo il completamento dell'aggiornamento.

  Slurmorganizza i Slurm demoni in una gerarchia ad albero per ottimizzare la comunicazione. Questa gerarchia viene aggiornata solo all'avvio dei demoni.

  Si supponga `srun` di dover avviare un processo e quindi eseguire il `pcluster update-cluster` comando per aumentare le dimensioni della coda. I nuovi nodi di calcolo vengono avviati come parte dell'aggiornamento. Quindi, mette in Slurm coda il lavoro su uno dei nuovi nodi di calcolo. In questo caso, sia i Slurm demoni che quelli `srun` non rilevano i nuovi nodi di calcolo. `srun`restituisce un errore perché non rileva i nuovi nodi.
+ **Come risolvere?**

  Riavvia i Slurm daemon su tutti i nodi di calcolo, quindi usali `srun` per inviare il lavoro. È possibile pianificare il riavvio dei Slurm demoni eseguendo il `scontrol reboot` comando che riavvia i nodi di calcolo. Per ulteriori informazioni, consulta [scontrol](https://slurm.schedmd.com/scontrol.html#OPT_reboot) reboot nella documentazione. Slurm Puoi anche riavviare manualmente Slurm i demoni sui nodi di calcolo richiedendo il riavvio dei servizi corrispondenti. `systemd`

## Job è bloccato nello `CF` stato con `squeue` il comando
<a name="run-job-cf-stuck-v3"></a>

Questo potrebbe essere un problema con l'accensione dei nodi dinamici. Per ulteriori informazioni, consulta [Visualizzazione degli errori nelle inizializzazioni dei nodi di calcolo](troubleshooting-fc-v3-compute-node-initialization-v3.md).

## Esecuzione di lavori su larga scala e visualizzazione `nfsd: too many open connections, consider increasing the number of threads in /var/log/messages`
<a name="run-job-network-limits-v3"></a>

Con un file system in rete, quando vengono raggiunti i limiti di rete, aumentano anche i tempi di I/O attesa. Ciò può comportare blocchi automatici perché la rete viene utilizzata per scrivere dati sia per la rete che per le metriche. I/O 

Nelle istanze di quinta generazione, utilizziamo il driver ENA per esporre i contatori di pacchetti. Questi contatori contano i pacchetti formati dal AWS momento in cui la rete raggiunge i limiti di larghezza di banda delle istanze. Puoi controllare questi contatori per vedere se sono maggiori di 0. Se lo sono, significa che hai superato i limiti di larghezza di banda. È possibile visualizzare questi contatori eseguendo. `ethtool -S eth0 | grep exceeded`

Il superamento dei limiti di rete è spesso il risultato del supporto di troppe connessioni NFS. Questa è una delle prime cose da verificare quando si raggiungono o superano i limiti di rete.

Ad esempio, l'output seguente mostra i pacchetti eliminati:

```
$ ethtool -S eth0 | grep exceeded
  bw_in_allowance_exceeded: 38750610
  bw_out_allowance_exceeded: 1165693
  pps_allowance_exceeded: 103
  conntrack_allowance_exceeded: 0
  linklocal_allowance_exceeded: 0
```

Per evitare di ricevere questo messaggio, valuta la possibilità di modificare il tipo di istanza del nodo principale con un tipo di istanza più performante. Prendi in considerazione la possibilità di spostare lo storage dei dati su file system di storage condivisi che non vengono esportati come condivisione NFS, come Amazon EFS o Amazon. FSx Per ulteriori informazioni, consulta [Archiviazione condivisa](shared-storage-quotas-integration-v3.md) e consulta le [Best Practice](https://github.com/aws/aws-parallelcluster/wiki/Best-Practices) nel AWS ParallelCluster Wiki su. GitHub

## Esecuzione di un job MPI
<a name="run-job-mpi-v3"></a>

### Attivazione della modalità di debug
<a name="run-job-mpi-enable-v3"></a>

Per abilitare la modalità di debug OpenMPI, [consultate Quali controlli dispone Open MPI](https://www-lb.open-mpi.org/faq/?category=debugging#debug-ompi-controls) per facilitare il debug.

[Per abilitare la modalità di debug IntelMPI, vedete Altre variabili di ambiente.](https://www.intel.com/content/www/us/en/develop/documentation/mpi-developer-reference-linux/top/environment-variable-reference/other-environment-variables.html)

### Visualizzazione `MPI_ERRORS_ARE_FATAL` e `OPAL ERROR` inserimento dei risultati del lavoro
<a name="run-job-mpi-errors-v3"></a>

Questi codici di errore provengono dal livello MPI dell'applicazione. Per informazioni su come ottenere i registri di debug MPI dall'applicazione, consulta. [Attivazione della modalità di debug](#run-job-mpi-enable-v3)

Una possibile causa di questo errore è che l'applicazione è stata compilata per un'implementazione MPI specifica, ad esempio OpenMPI, e si sta tentando di eseguirla con un'implementazione MPI diversa, ad esempio IntelMPI. Assicurati di compilare ed eseguire l'applicazione con la stessa implementazione MPI.

### Utilizzo `mpirun` con DNS gestito disabilitato
<a name="run-job-mpi-dns-disabled-v3"></a>

Per i cluster creati con [SlurmSettings](Scheduling-v3.md#Scheduling-v3-SlurmSettings)/[Dns](Scheduling-v3.md#Scheduling-v3-SlurmSettings-Dns)/[DisableManagedDns](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-Dns-DisableManagedDns)e [UseEc2Hostnames](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-Dns-UseEc2Hostnames) impostati su`true`, il nome del Slurm nodo non viene risolto dal DNS. Slurmpuò avviare i processi MPI quando `nodenames` non sono abilitati e se il job MPI viene eseguito in un contesto. Slurm Si consiglia di seguire le indicazioni contenute nella Guida per l'[utente di Slurm MPI per eseguire i job](https://slurm.schedmd.com/mpi_guide.html) MPI con. Slurm