

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Richten Sie ein Grafana-Überwachungs-Dashboard für AWS ein ParallelCluster
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster"></a>

*Dario La Porta und William Lu, Amazon Web Services*

## Zusammenfassung
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-summary"></a>

AWS ParallelCluster unterstützt Sie bei der Bereitstellung und Verwaltung von HPC-Clustern (High Performance Computing). Es unterstützt die Open-Source-Job-Scheduler AWS Batch und Slurm. Obwohl AWS CloudWatch für die Protokollierung und Metriken in Amazon integriert ParallelCluster ist, bietet es kein Monitoring-Dashboard für die Arbeitslast.

Das [Grafana-Dashboard für AWS ParallelCluster](https://github.com/aws-samples/aws-parallelcluster-monitoring) (GitHub) ist ein Überwachungs-Dashboard für AWS ParallelCluster. Es bietet Einblicke in den Job Scheduler und detaillierte Überwachungsmetriken auf Betriebssystemebene (OS). Weitere Informationen zu den in dieser Lösung enthaltenen Dashboards finden Sie unter [Beispiel-Dashboards im Repository](https://github.com/aws-samples/aws-parallelcluster-monitoring#example-dashboards). GitHub Diese Metriken helfen Ihnen dabei, den HPC-Workload und seine Leistung besser zu verstehen. Der Dashboard-Code wird jedoch nicht für die neuesten Versionen von AWS ParallelCluster oder die Open-Source-Pakete aktualisiert, die in der Lösung verwendet werden. Dieses Muster verbessert die Lösung und bietet die folgenden Vorteile:
+ Unterstützt AWS ParallelCluster v3
+ Verwendet die neueste Version von Open-Source-Paketen, darunter Prometheus, Grafana, Prometheus Slurm Exporter und NVIDIA DCGM-Exporter
+ Erhöht die Anzahl der CPU-Kerne und die Anzahl der CPU-Kerne, die von den Slurm-Jobs verwendet werden GPUs 
+ Fügt ein Dashboard zur Jobüberwachung hinzu
+ Verbessert das Dashboard zur GPU-Knotenüberwachung für Knoten mit 4 oder 8 Grafikprozessoren (GPUs)

Diese Version der erweiterten Lösung wurde in der HPC-Produktionsumgebung eines AWS-Kunden implementiert und verifiziert.

## Voraussetzungen und Einschränkungen
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-prereqs"></a>

**Voraussetzungen**
+ [AWS ParallelCluster CLI](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster-v3.html), installiert und konfiguriert.
+ Eine unterstützte [Netzwerkkonfiguration](https://docs.aws.amazon.com/parallelcluster/latest/ug/iam-roles-in-parallelcluster-v3.html) für AWS ParallelCluster. Dieses Muster verwendet die [AWS-Konfiguration ParallelCluster mit zwei Subnetzen](https://docs.aws.amazon.com/parallelcluster/latest/ug/network-configuration-v3.html#network-configuration-v3-two-subnets), was ein öffentliches Subnetz, ein privates Subnetz, ein Internet-Gateway und ein NAT-Gateway erfordert.
+ Alle ParallelCluster AWS-Clusterknoten müssen über Internetzugang verfügen. Dies ist erforderlich, damit die Installationsskripte die Open-Source-Software und die Docker-Images herunterladen können.
+ Ein [key pair](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-key-pairs.html) in Amazon Elastic Compute Cloud (Amazon EC2). Ressourcen, die über dieses key pair verfügen, haben Secure Shell (SSH) -Zugriff auf den Hauptknoten.

**Einschränkungen**
+ Dieses Muster wurde entwickelt, um Ubuntu 20.04 LTS zu unterstützen. Wenn Sie eine andere Version von Ubuntu oder Amazon Linux oder CentOS verwenden, müssen Sie die mit dieser Lösung bereitgestellten Skripts ändern. Diese Änderungen sind in diesem Muster nicht enthalten.

**Produktversionen**
+ Ubuntu 20.04 LTS
+ ParallelCluster 3.X

**Überlegungen zur Abrechnung und zu den Kosten**
+ Die nach diesem Muster bereitgestellte Lösung fällt nicht unter das kostenlose Kontingent. Für Amazon EC2, Amazon FSx for Lustre, das NAT-Gateway in Amazon VPC und Amazon Route 53 fallen Gebühren an.

## Architektur
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-architecture"></a>

**Zielarchitektur**

Das folgende Diagramm zeigt, wie ein Benutzer auf das Monitoring-Dashboard für AWS ParallelCluster auf dem Hauptknoten zugreifen kann. Auf dem Hauptknoten werden NICE DCV, Prometheus, Grafana, Prometheus Slurm Exporter, Prometheus Node Exporter und NGINX Open Source ausgeführt. Auf den Rechenknoten wird der Prometheus Node Exporter ausgeführt, und sie führen auch den NVIDIA DCGM-Exporter aus, wenn der Knoten enthält. GPUs Der Hauptknoten ruft Informationen von den Rechenknoten ab und zeigt diese Daten im Grafana-Dashboard an.

![\[Zugriff auf das Überwachungs-Dashboard für AWS ParallelCluster auf dem Hauptknoten.\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/images/pattern-img/a2132c94-98e0-4b90-8be0-99ebfa546442/images/d2255792-f66a-4ef2-8f04-cc3d5482db5f.png)


In den meisten Fällen ist der Hauptknoten nicht stark ausgelastet, da der Job-Scheduler keine nennenswerte Menge an CPU oder Arbeitsspeicher benötigt. Benutzer greifen mithilfe von SSL auf Port 443 auf das Dashboard auf dem Hauptknoten zu.

Alle autorisierten Zuschauer können die Monitoring-Dashboards anonym einsehen. Nur der Grafana-Administrator kann Dashboards ändern. Sie konfigurieren in der `aws-parallelcluster-monitoring/docker-compose/docker-compose.head.yml` Datei ein Passwort für den Grafana-Administrator.

## Tools
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-tools"></a>

**AWS-Services**
+ [NICE DCV](https://docs.aws.amazon.com/dcv/#nice-dcv) ist ein leistungsstarkes Remote-Display-Protokoll, mit dem Sie Remote-Desktops und Anwendungsstreaming von jeder Cloud oder jedem Rechenzentrum auf jedes Gerät unter unterschiedlichen Netzwerkbedingungen bereitstellen können.
+ [AWS ParallelCluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/what-is-aws-parallelcluster.html) unterstützt Sie bei der Bereitstellung und Verwaltung von HPC-Clustern (High Performance Computing). Es unterstützt die Open-Source-Job-Scheduler AWS Batch und Slurm.
+ [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) ist ein cloudbasierter Objektspeicherservice, der Sie beim Speichern, Schützen und Abrufen beliebiger Datenmengen unterstützt.
+ [Amazon Virtual Private Cloud (Amazon VPC)](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) hilft Ihnen dabei, AWS-Ressourcen in einem von Ihnen definierten virtuellen Netzwerk zu starten.

**Andere Tools**
+ [Docker](https://www.docker.com/) ist eine Reihe von Platform-as-a-Service (PaaS) -Produkten, die Virtualisierung auf Betriebssystemebene nutzen, um Software in Containern bereitzustellen.
+ [Grafana](https://grafana.com/docs/grafana/latest/introduction/) ist eine Open-Source-Software, mit der Sie Metriken, Protokolle und Traces abfragen, visualisieren, darauf hinweisen und untersuchen können.
+ [NGINX Open Source](https://nginx.org/en/docs/?_ga=2.187509224.1322712425.1699399865-405102969.1699399865) ist ein Open-Source-Webserver und Reverse-Proxy.
+ [NVIDIA Data Center GPU Manager (DCGM)](https://docs.nvidia.com/data-center-gpu-manager-dcgm/index.html) ist eine Suite von Tools zur Verwaltung und Überwachung von NVIDIA-Grafikprozessoren (GPUs) für Rechenzentren in Clusterumgebungen. In diesem Muster verwenden Sie den [DCGM-Exporter, mit dem Sie GPU-Metriken](https://github.com/NVIDIA/dcgm-exporter) aus Prometheus exportieren können.
+ [Prometheus](https://prometheus.io/docs/introduction/overview/) *ist ein Open-Source-Toolkit zur Systemüberwachung, das seine Metriken als Zeitreihendaten mit zugehörigen Schlüssel-Wert-Paaren sammelt und speichert, die als Labels bezeichnet werden.* In diesem Muster verwenden Sie auch [Prometheus Slurm Exporter](https://github.com/vpenso/prometheus-slurm-exporter), um Metriken zu sammeln und zu exportieren, und Sie verwenden [Prometheus Node Exporter, um Metriken aus den Rechenknoten](https://github.com/prometheus/node_exporter) zu exportieren.
+ [Ubuntu](https://help.ubuntu.com/) ist ein Linux-basiertes Open-Source-Betriebssystem, das für Unternehmensserver, Desktops, Cloud-Umgebungen und IoT entwickelt wurde.

**Code-Repository**

Der Code für dieses Muster ist im GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard)Repository verfügbar.

## Epen
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-epics"></a>

### Erstellen Sie die erforderlichen Ressourcen
<a name="create-the-required-resources"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Erstellen Sie einen S3-Bucket. | Erstellen Sie einen Amazon-S3-Bucket. Sie verwenden diesen Bucket, um die Konfigurationsskripten zu speichern. Anweisungen finden Sie in der Amazon S3 S3-Dokumentation unter [Bucket erstellen](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-overview.html). | Allgemeines AWS | 
| Klonen Sie das Repository | Klonen Sie das GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)Repo, indem Sie den folgenden Befehl ausführen.<pre>git clone https://github.com/aws-samples/parallelcluster-monitoring-dashboard.git</pre> | DevOps Ingenieur | 
| Erstellen Sie ein Admin-Passwort. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Linux-Shell-Skripting | 
| Kopieren Sie die erforderlichen Dateien in den S3-Bucket. | Kopieren Sie das Skript [post\$1install.sh](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/post_install.sh) und den [aws-parallelcluster-monitoring](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)Ordner in den S3-Bucket, den Sie erstellt haben. Anweisungen finden Sie in der Amazon S3 S3-Dokumentation unter [Hochladen von Objekten](https://docs.aws.amazon.com/AmazonS3/latest/userguide/upload-objects.html). | Allgemeines AWS | 
| Konfigurieren Sie eine zusätzliche Sicherheitsgruppe für den Hauptknoten. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | AWS-Administrator | 
| Konfigurieren Sie eine IAM-Richtlinie für den Hauptknoten. | Erstellen Sie eine identitätsbasierte Richtlinie für den Hauptknoten. Diese Richtlinie ermöglicht es dem Knoten, Metrikdaten von Amazon abzurufen CloudWatch. Das GitHub Repo enthält eine [Beispielrichtlinie](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/head_node.json). Anweisungen finden Sie unter [Erstellen von IAM-Richtlinien](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) in der Dokumentation zu AWS Identity and Access Management (IAM). | AWS-Administrator | 
| Konfigurieren Sie eine IAM-Richtlinie für die Rechenknoten. | Erstellen Sie eine identitätsbasierte Richtlinie für die Rechenknoten. Diese Richtlinie ermöglicht es dem Knoten, die Tags zu erstellen, die die Job-ID und den Job-Besitzer enthalten. Das GitHub Repo enthält eine [Beispielrichtlinie](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/compute_node.json). Anweisungen finden Sie in der [IAM-Dokumentation unter Erstellen von IAM-Richtlinien](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html).Wenn Sie die bereitgestellte Beispieldatei verwenden, ersetzen Sie die folgenden Werte:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | AWS-Administrator | 

### Den Cluster erstellen
<a name="create-the-cluster"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Ändern Sie die bereitgestellte Cluster-Vorlagendatei. | Erstellen Sie den ParallelCluster AWS-Cluster. Verwenden Sie die bereitgestellte CloudFormation AWS-Vorlagendatei [cluster.yaml](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/cluster.yaml) als Ausgangspunkt für die Erstellung des Clusters. Ersetzen Sie die folgenden Werte in der bereitgestellten Vorlage:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | AWS-Administrator | 
| Erstellen Sie den -Cluster. | Geben Sie in der ParallelCluster AWS-CLI den folgenden Befehl ein. Dadurch wird die CloudFormation Vorlage bereitgestellt und der Cluster erstellt. Weitere Informationen zu diesem Befehl finden Sie unter [pcluster create-cluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.create-cluster-v3.html) in der AWS-Dokumentation. ParallelCluster <pre>pcluster create-cluster -n <cluster_name> -c cluster.yaml</pre> | AWS-Administrator | 
| Überwachen Sie die Cluster-Erstellung. | Geben Sie den folgenden Befehl ein, um die Clustererstellung zu überwachen. Weitere Informationen zu diesem Befehl finden Sie unter [pcluster describe-cluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.describe-cluster-v3.html) in der AWS-Dokumentation. ParallelCluster <pre>pcluster describe-cluster -n <cluster_name></pre> | AWS-Administrator | 

### Verwendung der Grafana-Dashboards
<a name="using-the-grafana-dashboards"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Zugang zum Grafana-Portal. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | AWS-Administrator | 

### Bereinigen Sie die Lösung, um die damit verbundenen Kosten zu vermeiden
<a name="clean-up-the-solution-to-stop-incurring-associated-costs"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Löschen Sie den Cluster. | Geben Sie den folgenden Befehl ein, um den Cluster zu löschen. Weitere Informationen zu diesem Befehl finden Sie unter [pcluster delete-cluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.delete-cluster-v3.html) in der AWS-Dokumentation. ParallelCluster <pre>pcluster delete-cluster -n <cluster_name></pre> | AWS-Administrator | 
| Löschen Sie die IAM-Richtlinien. | Löschen Sie die Richtlinien, die Sie für den Hauptknoten und den Rechenknoten erstellt haben. Weitere Informationen zum Löschen von Richtlinien finden Sie unter [Löschen von IAM-Richtlinien](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-delete.html) in der IAM-Dokumentation. | AWS-Administrator | 
| Löschen Sie die Sicherheitsgruppe und die Sicherheitsregel. | Löschen Sie die Sicherheitsgruppe, die Sie für den Hauptknoten erstellt haben. Weitere Informationen finden Sie unter [Löschen von Sicherheitsgruppenregeln](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-group-rules) und [Löschen einer Sicherheitsgruppe](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-groups) in der Amazon VPC-Dokumentation. | AWS-Administrator | 
| Löschen Sie den S3-Bucket. | Löschen Sie den S3-Bucket, den Sie zum Speichern der Konfigurationsskripten erstellt haben. Weitere Informationen finden Sie unter [Löschen eines Buckets](https://docs.aws.amazon.com/AmazonS3/latest/userguide/delete-bucket.html) in der Amazon S3 S3-Dokumentation. | Allgemeines AWS | 

## Fehlerbehebung
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-troubleshooting"></a>


| Problem | Lösung | 
| --- | --- | 
| Auf den Hauptknoten kann im Browser nicht zugegriffen werden. | Überprüfen Sie die Sicherheitsgruppe und vergewissern Sie sich, dass der eingehende Port 443 geöffnet ist. | 
| Grafana öffnet nicht. | Suchen Sie auf dem Hauptknoten im Container-Log nach`docker logs Grafana`. | 
| Einige Metriken enthalten keine Daten. | Überprüfen Sie auf dem Hauptknoten die Container-Logs aller Container. | 

## Zugehörige Ressourcen
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-resources"></a>

**AWS-Dokumentation**
+ [IAM-Richtlinien für Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/iam-policies-for-amazon-ec2.html)

**Andere AWS-Ressourcen**
+ [AWS ParallelCluster](https://aws.amazon.com/hpc/parallelcluster/)
+ [Überwachungs-Dashboard für AWS ParallelCluster](https://aws.amazon.com/blogs/compute/monitoring-dashboard-for-aws-parallelcluster/) (AWS-Blogbeitrag)

**Sonstige Ressourcen**
+ [Prometheus-Überwachungssystem](https://prometheus.io/)
+ [Grafana](https://grafana.com/)