

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Configura una dashboard di monitoraggio Grafana per AWS ParallelCluster
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster"></a>

*Dario La Porta e William Lu, Amazon Web Services*

## Riepilogo
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-summary"></a>

AWS ti ParallelCluster aiuta a distribuire e gestire cluster HPC (High Performance Computing). Supporta gli strumenti di pianificazione dei lavori open source AWS Batch e Slurm. Sebbene AWS ParallelCluster sia integrato con Amazon CloudWatch per la registrazione e le metriche, non fornisce una dashboard di monitoraggio per il carico di lavoro.

La [dashboard Grafana per AWS ParallelCluster](https://github.com/aws-samples/aws-parallelcluster-monitoring) (GitHub) è una dashboard di monitoraggio per AWS. ParallelCluster Fornisce informazioni dettagliate sulla pianificazione dei lavori e metriche di monitoraggio dettagliate a livello di sistema operativo (OS). Per ulteriori informazioni sui dashboard inclusi in questa soluzione, consulta [Dashboard di esempio](https://github.com/aws-samples/aws-parallelcluster-monitoring#example-dashboards) nel repository. GitHub Queste metriche consentono di comprendere meglio il carico di lavoro HPC e le relative prestazioni. Tuttavia, il codice del dashboard non viene aggiornato per le versioni più recenti di AWS ParallelCluster o per i pacchetti open source utilizzati nella soluzione. Questo modello migliora la soluzione per offrire i seguenti vantaggi:
+ Supporta AWS ParallelCluster v3
+ Utilizza l'ultima versione dei pacchetti open source, tra cui Prometheus, Grafana, Prometheus Slurm Exporter e NVIDIA DCGM-Exporter
+ Aumenta il GPUs numero di core della CPU e quelli utilizzati dai job Slurm
+ Aggiunge una dashboard di monitoraggio dei lavori
+ Migliora la dashboard di monitoraggio dei nodi GPU per i nodi con 4 o 8 unità di elaborazione grafica () GPUs

Questa versione della soluzione avanzata è stata implementata e verificata nell'ambiente di produzione HPC di un cliente AWS.

## Prerequisiti e limitazioni
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-prereqs"></a>

**Prerequisiti**
+ [AWS ParallelCluster CLI](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster-v3.html), installata e configurata.
+ Una [configurazione di rete](https://docs.aws.amazon.com/parallelcluster/latest/ug/iam-roles-in-parallelcluster-v3.html) supportata per AWS ParallelCluster. Questo modello utilizza [AWS ParallelCluster utilizzando una configurazione a due sottoreti, che richiede una sottorete pubblica, una sottorete privata, un gateway Internet e un gateway NAT](https://docs.aws.amazon.com/parallelcluster/latest/ug/network-configuration-v3.html#network-configuration-v3-two-subnets).
+ Tutti i nodi ParallelCluster del cluster AWS devono avere accesso a Internet. Ciò è necessario affinché gli script di installazione possano scaricare il software open source e le immagini Docker.
+ Una [coppia di chiavi](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-key-pairs.html) in Amazon Elastic Compute Cloud (Amazon EC2). Le risorse che hanno questa coppia di key pair hanno accesso Secure Shell (SSH) al nodo principale.

**Limitazioni**
+ Questo pattern è progettato per supportare Ubuntu 20.04 LTS. Se utilizzi una versione diversa di Ubuntu o se usi Amazon Linux o CentOS, devi modificare gli script forniti con questa soluzione. Queste modifiche non sono incluse in questo schema.

**Versioni del prodotto**
+ Ubuntu 20.04 LTS
+ ParallelCluster 3.X

**Considerazioni sulla fatturazione e sui costi**
+ La soluzione implementata secondo questo schema non è coperta dal livello gratuito. Si applicano costi per Amazon EC2, Amazon FSx for Lustre, il gateway NAT in Amazon VPC e Amazon Route 53.

## Architecture
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-architecture"></a>

**Architettura Target**

Il diagramma seguente mostra come un utente può accedere alla dashboard di monitoraggio per AWS ParallelCluster sul nodo principale. Il nodo principale esegue NICE DCV, Prometheus, Grafana, Prometheus Slurm Exporter, Prometheus Node Exporter e NGINX Open Source. I nodi di calcolo eseguono Prometheus Node Exporter e eseguono anche NVIDIA DCGM-Exporter se il nodo contiene. GPUs Il nodo principale recupera le informazioni dai nodi di calcolo e visualizza tali dati nella dashboard di Grafana.

![Accesso alla dashboard di monitoraggio per AWS ParallelCluster sul nodo principale.](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/images/pattern-img/a2132c94-98e0-4b90-8be0-99ebfa546442/images/d2255792-f66a-4ef2-8f04-cc3d5482db5f.png)


Nella maggior parte dei casi, il nodo principale non è sovraccaricato perché il job scheduler non richiede una quantità significativa di CPU o memoria. Gli utenti accedono alla dashboard sul nodo principale utilizzando SSL sulla porta 443.

Tutti gli spettatori autorizzati possono visualizzare in modo anonimo le dashboard di monitoraggio. Solo l'amministratore Grafana può modificare i dashboard. Si configura una password per l'amministratore Grafana nel `aws-parallelcluster-monitoring/docker-compose/docker-compose.head.yml` file.

## Tools (Strumenti)
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-tools"></a>

**Servizi AWS**
+ [NICE DCV](https://docs.aws.amazon.com/dcv/#nice-dcv) è un protocollo di visualizzazione remota ad alte prestazioni che consente di fornire desktop remoti e lo streaming di applicazioni da qualsiasi cloud o data center a qualsiasi dispositivo, in condizioni di rete variabili.
+ [AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/what-is-aws-parallelcluster.html) ti ParallelCluster aiuta a distribuire e gestire cluster HPC (High Performance Computing). Supporta gli strumenti di pianificazione dei lavori open source AWS Batch e Slurm.
+ [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) è un servizio di archiviazione degli oggetti basato sul cloud che consente di archiviare, proteggere e recuperare qualsiasi quantità di dati.
+ [Amazon Virtual Private Cloud (Amazon VPC)](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) ti aiuta a lanciare le risorse AWS in una rete virtuale che hai definito.

**Altri strumenti**
+ [Docker](https://www.docker.com/) è un insieme di prodotti Platform as a Service (PaaS) che utilizzano la virtualizzazione a livello di sistema operativo per fornire software in container.
+ [Grafana](https://grafana.com/docs/grafana/latest/introduction/) è un software open source che ti aiuta a interrogare, visualizzare, avvisare ed esplorare metriche, log e tracce.
+ [NGINX Open Source è un server web open source](https://nginx.org/en/docs/?_ga=2.187509224.1322712425.1699399865-405102969.1699399865) e un reverse proxy.
+ [NVIDIA Data Center GPU Manager (DCGM)](https://docs.nvidia.com/data-center-gpu-manager-dcgm/index.html) è una suite di strumenti per la gestione e il monitoraggio delle unità di elaborazione grafica dei data center NVIDIA () in ambienti cluster. GPUs In questo modello, si utilizza [DCGM-Exporter, che consente di esportare](https://github.com/NVIDIA/dcgm-exporter) le metriche della GPU da Prometheus.
+ [Prometheus](https://prometheus.io/docs/introduction/overview/) *è un toolkit di monitoraggio del sistema open source che raccoglie e archivia le sue metriche come dati di serie temporali con coppie chiave-valore associate, chiamate etichette.* [In questo modello, si utilizza anche [Prometheus Slurm Exporter per raccogliere ed esportare metriche e si utilizza Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) Node Exporter per esportare le metriche dai nodi di calcolo.](https://github.com/prometheus/node_exporter)
+ [Ubuntu](https://help.ubuntu.com/) è un sistema operativo open source basato su Linux progettato per server aziendali, desktop, ambienti cloud e IoT.

**Archivio di codici**

Il codice per questo pattern è disponibile nel GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard)repository.

## Epiche
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-epics"></a>

### Crea le risorse necessarie
<a name="create-the-required-resources"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Crea un bucket S3. | Creare un bucket Amazon S3. Questo bucket viene utilizzato per archiviare gli script di configurazione. Per istruzioni, consulta [Creazione di un bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-overview.html) nella documentazione di Amazon S3. | Informazioni generali su AWS | 
| Clonare il repository. | Clona il GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)repository eseguendo il seguente comando.<pre>git clone https://github.com/aws-samples/parallelcluster-monitoring-dashboard.git</pre> | DevOps ingegnere | 
| Crea una password di amministratore. | [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Scripting con Linux Shell | 
| Copia i file richiesti nel bucket S3. | Copia lo script [post\_install.sh](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/post_install.sh) e la [aws-parallelcluster-monitoring](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)cartella nel bucket S3 che hai creato. Per istruzioni, consulta [Caricamento di oggetti](https://docs.aws.amazon.com/AmazonS3/latest/userguide/upload-objects.html) nella documentazione di Amazon S3. | Informazioni generali su AWS | 
| Configura un gruppo di sicurezza aggiuntivo per il nodo principale. | [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Amministratore AWS | 
| Configura una policy IAM per il nodo principale. | Crea una policy basata sull'identità per il nodo principale. Questa policy consente al nodo di recuperare i dati metrici da Amazon. CloudWatch [Il GitHub repository contiene una policy di esempio.](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/head_node.json) Per istruzioni, consulta [Creazione di policy IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) nella documentazione di AWS Identity and Access Management (IAM). | Amministratore AWS | 
| Configura una policy IAM per i nodi di calcolo. | Crea una policy basata sull'identità per i nodi di calcolo. Questa politica consente al nodo di creare i tag che contengono l'ID del lavoro e il proprietario del lavoro. Il GitHub repository contiene un esempio di [policy](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/compute_node.json). Per istruzioni, consulta [Creazione di politiche IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) nella documentazione IAM.<br />Se utilizzi il file di esempio fornito, sostituisci i seguenti valori:[See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Amministratore AWS | 

### Creazione del cluster
<a name="create-the-cluster"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Modifica il file modello di cluster fornito. | Crea il ParallelCluster cluster AWS. Utilizza il file modello CloudFormation AWS [cluster.yaml](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/cluster.yaml) fornito come punto di partenza per creare il cluster. Sostituisci i seguenti valori nel modello fornito:[See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Amministratore AWS | 
| Crea il cluster. | Nella ParallelCluster CLI di AWS, inserisci il seguente comando. Questo distribuisce il CloudFormation modello e crea il cluster. Per ulteriori informazioni su questo comando, consulta [pcluster create-cluster nella documentazione](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.create-cluster-v3.html) AWS. ParallelCluster <pre>pcluster create-cluster -n <cluster_name> -c cluster.yaml</pre> | Amministratore AWS | 
| Monitora la creazione del cluster. | Immettere il seguente comando per monitorare la creazione del cluster. Per ulteriori informazioni su questo comando, consulta [pcluster describe-cluster nella documentazione AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.describe-cluster-v3.html). ParallelCluster <pre>pcluster describe-cluster -n <cluster_name></pre> | Amministratore AWS | 

### Utilizzo delle dashboard Grafana
<a name="using-the-grafana-dashboards"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Accesso al portale Grafana. | [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Amministratore AWS | 

### Pulisci la soluzione per evitare di incorrere nei costi associati
<a name="clean-up-the-solution-to-stop-incurring-associated-costs"></a>


| Operazione | Description | Competenze richieste | 
| --- | --- | --- | 
| Elimina il cluster. | Immettere il seguente comando per eliminare il cluster. Per ulteriori informazioni su questo comando, consulta [pcluster delete-cluster nella documentazione](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.delete-cluster-v3.html) AWS. ParallelCluster <pre>pcluster delete-cluster -n <cluster_name></pre> | Amministratore AWS | 
| Elimina le politiche IAM. | Elimina le policy che hai creato per il nodo principale e il nodo di calcolo. Per ulteriori informazioni sull'eliminazione delle policy, consulta [Eliminazione delle policy IAM nella documentazione IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-delete.html). | Amministratore AWS | 
| Elimina il gruppo e la regola di sicurezza. | Eliminare il gruppo di sicurezza creato per il nodo principale. Per ulteriori informazioni, consulta [Eliminare le regole del gruppo di sicurezza](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-group-rules) ed [Eliminare un gruppo di sicurezza](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-groups) nella documentazione di Amazon VPC. | Amministratore AWS | 
| Eliminare il bucket S3. | Elimina il bucket S3 che hai creato per archiviare gli script di configurazione. Per ulteriori informazioni, consulta [Eliminazione di un bucket nella documentazione](https://docs.aws.amazon.com/AmazonS3/latest/userguide/delete-bucket.html) di Amazon S3. | Informazioni generali su AWS | 

## risoluzione dei problemi
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-troubleshooting"></a>


| Problema | Soluzione | 
| --- | --- | 
| Il nodo principale non è accessibile nel browser. | Controlla il gruppo di sicurezza e conferma che la porta in ingresso 443 sia aperta. | 
| Grafana non si apre. | Sul nodo principale, controlla il registro del contenitore per`docker logs Grafana`. | 
| Alcune metriche non contengono dati. | Sul nodo principale, controlla i log dei contenitori di tutti i contenitori. | 

## Risorse correlate
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-resources"></a>

**Documentazione AWS**
+ [Politiche IAM per Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/iam-policies-for-amazon-ec2.html)

**Altre risorse AWS**
+ [AWS ParallelCluster](https://aws.amazon.com/hpc/parallelcluster/)
+ [Dashboard di monitoraggio per AWS ParallelCluster](https://aws.amazon.com/blogs/compute/monitoring-dashboard-for-aws-parallelcluster/) (post sul blog AWS)

**Altre risorse**
+ [Sistema di monitoraggio Prometheus](https://prometheus.io/)
+ [Grafana](https://grafana.com/)