

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Siapkan dasbor pemantauan Grafana untuk AWS ParallelCluster
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster"></a>

*Dario La Porta dan William Lu, Amazon Web Services*

## Ringkasan
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-summary"></a>

AWS ParallelCluster membantu Anda menerapkan dan mengelola klaster komputasi kinerja tinggi (HPC). Ini mendukung penjadwal pekerjaan sumber terbuka AWS Batch dan Slurm. Meskipun AWS ParallelCluster terintegrasi dengan Amazon CloudWatch untuk pencatatan dan metrik, AWS tidak menyediakan dasbor pemantauan untuk beban kerja.

[Dasbor Grafana untuk AWS ParallelCluster](https://github.com/aws-samples/aws-parallelcluster-monitoring) (GitHub) adalah dasbor pemantauan untuk AWS. ParallelCluster Ini memberikan wawasan penjadwal pekerjaan dan metrik pemantauan terperinci di tingkat sistem operasi (OS). Untuk informasi selengkapnya tentang dasbor yang disertakan dalam solusi ini, lihat [Contoh Dasbor di repositori](https://github.com/aws-samples/aws-parallelcluster-monitoring#example-dashboards). GitHub Metrik ini membantu Anda lebih memahami beban kerja HPC dan kinerjanya. Namun, kode dasbor tidak diperbarui untuk AWS versi terbaru ParallelCluster atau paket open source yang digunakan dalam solusi. Pola ini meningkatkan solusi untuk memberikan manfaat berikut:
+ Mendukung AWS ParallelCluster v3
+ Menggunakan versi terbaru dari paket open source, termasuk Prometheus, Grafana, Prometheus Slurm Exporter, dan NVIDIA DCGM-Exporter
+ Meningkatkan jumlah inti CPU dan GPUs yang digunakan pekerjaan Slurm
+ Menambahkan dasbor pemantauan pekerjaan
+ Meningkatkan dasbor pemantauan node GPU untuk node dengan 4 atau 8 unit pemrosesan grafis () GPUs

Versi solusi yang disempurnakan ini telah diimplementasikan dan diverifikasi di lingkungan produksi HPC pelanggan AWS.

## Prasyarat dan batasan
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-prereqs"></a>

**Prasyarat**
+ [AWS ParallelCluster CLI](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster-v3.html), diinstal dan dikonfigurasi.
+ [Konfigurasi jaringan](https://docs.aws.amazon.com/parallelcluster/latest/ug/iam-roles-in-parallelcluster-v3.html) yang didukung untuk AWS ParallelCluster. Pola ini menggunakan [AWS ParallelCluster menggunakan dua konfigurasi subnet](https://docs.aws.amazon.com/parallelcluster/latest/ug/network-configuration-v3.html#network-configuration-v3-two-subnets), yang memerlukan subnet publik, subnet pribadi, gateway internet, dan gateway NAT.
+ Semua node ParallelCluster kluster AWS harus memiliki akses internet. Ini diperlukan agar skrip instalasi dapat mengunduh perangkat lunak open source dan gambar Docker.
+ Sebuah [key pair](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-key-pairs.html) di Amazon Elastic Compute Cloud (Amazon EC2). Sumber daya yang memiliki key pair ini memiliki akses Secure Shell (SSH) ke head node.

**Batasan**
+ Pola ini dirancang untuk mendukung Ubuntu 20.04 LTS. Jika Anda menggunakan versi Ubuntu yang berbeda atau jika Anda menggunakan Amazon Linux atau CentOS, maka Anda perlu memodifikasi skrip yang disediakan dengan solusi ini. Modifikasi ini tidak termasuk dalam pola ini.

**Versi produk**
+ Ubuntu 20.04 LTS
+ ParallelCluster 3.X

**Pertimbangan penagihan dan biaya**
+ Solusi yang diterapkan dalam pola ini tidak tercakup oleh tingkat gratis. Biaya berlaku untuk Amazon EC2, Amazon FSx untuk Lustre, gateway NAT di Amazon VPC, dan Amazon Route 53.

## Arsitektur
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-architecture"></a>

**Arsitektur target**

Diagram berikut menunjukkan bagaimana pengguna dapat mengakses dasbor pemantauan untuk AWS ParallelCluster di node kepala. Node kepala menjalankan NICE DCV, Prometheus, Grafana, Prometheus Slurm Exporter, Prometheus Node Exporter, dan NGINX Open Source. Node komputasi menjalankan Prometheus Node Exporter, dan mereka juga menjalankan NVIDIA DCGM-Exporter jika node berisi. GPUs Node kepala mengambil informasi dari node komputasi dan menampilkan data tersebut di dasbor Grafana.

![\[Mengakses dasbor pemantauan untuk AWS ParallelCluster di node kepala.\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/images/pattern-img/a2132c94-98e0-4b90-8be0-99ebfa546442/images/d2255792-f66a-4ef2-8f04-cc3d5482db5f.png)


Dalam kebanyakan kasus, node kepala tidak banyak dimuat karena penjadwal pekerjaan tidak memerlukan sejumlah besar CPU atau memori. Pengguna mengakses dasbor pada node kepala dengan menggunakan SSL pada port 443.

Semua pemirsa resmi dapat melihat dasbor pemantauan secara anonim. Hanya administrator Grafana yang dapat memodifikasi dasbor. Anda mengonfigurasi kata sandi untuk administrator Grafana dalam file. `aws-parallelcluster-monitoring/docker-compose/docker-compose.head.yml`

## Alat
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-tools"></a>

**Layanan AWS**
+ [NICE DCV](https://docs.aws.amazon.com/dcv/#nice-dcv) adalah protokol tampilan jarak jauh berkinerja tinggi yang membantu Anda mengirimkan desktop jarak jauh dan streaming aplikasi dari cloud atau pusat data apa pun ke perangkat apa pun, dalam berbagai kondisi jaringan.
+ [AWS ParallelCluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/what-is-aws-parallelcluster.html) membantu Anda menerapkan dan mengelola klaster komputasi kinerja tinggi (HPC). Ini mendukung penjadwal pekerjaan sumber terbuka AWS Batch dan Slurm.
+ [Amazon Simple Storage Service (Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html)) adalah layanan penyimpanan objek berbasis cloud yang membantu Anda menyimpan, melindungi, dan mengambil sejumlah data.
+ [Amazon Virtual Private Cloud (Amazon VPC)](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) membantu Anda meluncurkan sumber daya AWS ke jaringan virtual yang telah Anda tentukan.

**Alat-alat lainnya**
+ [Docker](https://www.docker.com/) adalah seperangkat produk platform as a service (PaaS) yang menggunakan virtualisasi pada tingkat sistem operasi untuk mengirimkan perangkat lunak dalam wadah.
+ [Grafana](https://grafana.com/docs/grafana/latest/introduction/) adalah perangkat lunak open source yang membantu Anda menanyakan, memvisualisasikan, memperingatkan, dan menjelajahi metrik, log, dan jejak.
+ [NGINX Open Source](https://nginx.org/en/docs/?_ga=2.187509224.1322712425.1699399865-405102969.1699399865) adalah server web open source dan reverse proxy.
+ [NVIDIA Data Center GPU Manager (DCGM)](https://docs.nvidia.com/data-center-gpu-manager-dcgm/index.html) adalah seperangkat alat untuk mengelola dan memantau unit pemrosesan grafis pusat data NVIDIA (GPUs) di lingkungan cluster. Dalam pola ini, Anda menggunakan [DCGM-Exporter, yang membantu Anda mengekspor metrik](https://github.com/NVIDIA/dcgm-exporter) GPU dari Prometheus.
+ [Prometheus](https://prometheus.io/docs/introduction/overview/) *adalah toolkit pemantauan sistem open source yang mengumpulkan dan menyimpan metriknya sebagai data deret waktu dengan pasangan nilai kunci terkait, yang disebut label.* [Dalam pola ini, Anda juga menggunakan [Prometheus Slurm Exporter untuk mengumpulkan dan mengekspor metrik, dan Anda menggunakan Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) Node Exporter untuk mengekspor metrik dari node komputasi.](https://github.com/prometheus/node_exporter)
+ [Ubuntu](https://help.ubuntu.com/) adalah sistem operasi berbasis Linux open source yang dirancang untuk server perusahaan, desktop, lingkungan cloud, dan IoT.

**Repositori kode**

Kode untuk pola ini tersedia di GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard)repositori.

## Epik
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-epics"></a>

### Buat sumber daya yang dibutuhkan
<a name="create-the-required-resources"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Buat ember S3. | Buat bucket Amazon S3. Anda menggunakan bucket ini untuk menyimpan skrip konfigurasi. Untuk petunjuknya, lihat [Membuat bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-overview.html) di dokumentasi Amazon S3. | AWS Umum | 
| Kloning repositori. | Kloning GitHub [pcluster-monitoring-dashboard](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)repo dengan menjalankan perintah berikut.<pre>git clone https://github.com/aws-samples/parallelcluster-monitoring-dashboard.git</pre> | DevOps insinyur | 
| Buat kata sandi admin. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Skrip Shell Linux | 
| Salin file yang diperlukan ke dalam ember S3. | Salin skrip [post\$1install.sh](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/post_install.sh) dan [aws-parallelcluster-monitoring](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/tree/main/aws-parallelcluster-monitoring)folder ke bucket S3 yang Anda buat. Untuk petunjuk, lihat [Mengunggah objek](https://docs.aws.amazon.com/AmazonS3/latest/userguide/upload-objects.html) dalam dokumentasi Amazon S3. | AWS Umum | 
| Konfigurasikan grup keamanan tambahan untuk node kepala. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrator AWS | 
| Konfigurasikan kebijakan IAM untuk node kepala. | Buat kebijakan berbasis identitas untuk node kepala. Kebijakan ini memungkinkan node untuk mengambil data metrik dari Amazon CloudWatch. GitHub Repo berisi contoh [kebijakan](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/head_node.json). Untuk petunjuk, lihat [Membuat kebijakan IAM dalam dokumentasi](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) AWS Identity and Access Management (IAM). | Administrator AWS | 
| Konfigurasikan kebijakan IAM untuk node komputasi. | Buat kebijakan berbasis identitas untuk node komputasi. Kebijakan ini memungkinkan node untuk membuat tag yang berisi ID pekerjaan dan pemilik pekerjaan. GitHub Repo berisi contoh [kebijakan](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/policies/compute_node.json). Untuk petunjuk, lihat [Membuat kebijakan IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html) dalam dokumentasi IAM.Jika Anda menggunakan file contoh yang disediakan, ganti nilai berikut:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrator AWS | 

### Buat cluster
<a name="create-the-cluster"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Ubah file template cluster yang disediakan. | Buat ParallelCluster klaster AWS. Gunakan file template CloudFormation AWS [cluster.yaml](https://github.com/aws-samples/parallelcluster-monitoring-dashboard/blob/main/cluster.yaml) yang disediakan sebagai titik awal untuk membuat cluster. Ganti nilai-nilai berikut dalam template yang disediakan:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrator AWS | 
| Buat cluster. | Di AWS ParallelCluster CLI, masukkan perintah berikut. Ini menyebarkan CloudFormation template dan membuat cluster. Untuk informasi selengkapnya tentang perintah ini, lihat [pcluster create-cluster di dokumentasi AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.create-cluster-v3.html). ParallelCluster <pre>pcluster create-cluster -n <cluster_name> -c cluster.yaml</pre> | Administrator AWS | 
| Pantau pembuatan cluster. | Masukkan perintah berikut untuk memantau pembuatan cluster. Untuk informasi selengkapnya tentang perintah ini, lihat [pcluster describe-cluster dalam dokumentasi AWS](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.describe-cluster-v3.html). ParallelCluster <pre>pcluster describe-cluster -n <cluster_name></pre> | Administrator AWS | 

### Menggunakan dasbor Grafana
<a name="using-the-grafana-dashboards"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Akses ke portal Grafana. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster.html) | Administrator AWS | 

### Bersihkan solusi untuk berhenti mengeluarkan biaya terkait
<a name="clean-up-the-solution-to-stop-incurring-associated-costs"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Hapus klaster . | Masukkan perintah berikut untuk menghapus cluster. Untuk informasi selengkapnya tentang perintah ini, lihat [pcluster delete-cluster di dokumentasi](https://docs.aws.amazon.com/parallelcluster/latest/ug/pcluster.delete-cluster-v3.html) AWS. ParallelCluster <pre>pcluster delete-cluster -n <cluster_name></pre> | Administrator AWS | 
| Hapus kebijakan IAM. | Hapus kebijakan yang Anda buat untuk node kepala dan node komputasi. Untuk informasi selengkapnya tentang menghapus kebijakan, lihat [Menghapus kebijakan IAM di dokumentasi](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-delete.html) IAM. | Administrator AWS | 
| Hapus grup dan aturan keamanan. | Hapus grup keamanan yang Anda buat untuk node kepala. Untuk informasi selengkapnya, lihat [Menghapus aturan grup keamanan](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-group-rules) dan [Menghapus grup keamanan](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-security-groups.html#deleting-security-groups) di dokumentasi Amazon VPC. | Administrator AWS | 
| Hapus bucket S3. | Hapus bucket S3 yang Anda buat untuk menyimpan skrip konfigurasi. Untuk informasi selengkapnya, lihat [Menghapus bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/delete-bucket.html) di dokumentasi Amazon S3. | AWS Umum | 

## Pemecahan masalah
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-troubleshooting"></a>


| Isu | Solusi | 
| --- | --- | 
| Node kepala tidak dapat diakses di browser. | Periksa grup keamanan dan konfirmasikan bahwa port masuk 443 terbuka. | 
| Grafana tidak terbuka. | Pada node kepala, periksa log kontainer untuk`docker logs Grafana`. | 
| Beberapa metrik tidak memiliki data. | Pada node kepala, periksa log kontainer dari semua kontainer. | 

## Sumber daya terkait
<a name="set-up-a-grafana-monitoring-dashboard-for-aws-parallelcluster-resources"></a>

**Dokumentasi AWS**
+ [Kebijakan IAM untuk Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/iam-policies-for-amazon-ec2.html)

**Sumber daya AWS lainnya**
+ [AWS ParallelCluster](https://aws.amazon.com/hpc/parallelcluster/)
+ [Dasbor pemantauan untuk AWS ParallelCluster](https://aws.amazon.com/blogs/compute/monitoring-dashboard-for-aws-parallelcluster/) (postingan blog AWS)

**Sumber daya lainnya**
+ [Sistem pemantauan Prometheus](https://prometheus.io/)
+ [Grafana](https://grafana.com/)