

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# SageMaker HyperPod manajemen klaster
<a name="sagemaker-hyperpod-cluster-management-slurm"></a>

Topik berikut membahas pencatatan dan pengelolaan SageMaker HyperPod cluster.

## SageMaker HyperPod Peristiwa pencatatan
<a name="sagemaker-hyperpod-cluster-management-slurm-logging-hyperpod-events"></a>

Semua peristiwa dan log dari SageMaker HyperPod disimpan ke Amazon CloudWatch di bawah nama grup log`/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]`. Setiap panggilan ke `CreateCluster` API membuat grup log baru. Daftar berikut berisi semua aliran log yang tersedia yang dikumpulkan di setiap grup log.


|  |  | 
| --- |--- |
| Nama Grup Log | Nama Aliran Log | 
| /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] | LifecycleConfig/[instance-group-name]/[instance-id] | 

## Logging SageMaker HyperPod di tingkat instans
<a name="sagemaker-hyperpod-cluster-management-slurm-logging-at-instance-level"></a>

Anda dapat mengakses LifecycleScript log yang dipublikasikan CloudWatch selama konfigurasi instance cluster. Setiap instance dalam cluster yang dibuat menghasilkan aliran log terpisah, dapat dibedakan berdasarkan formatnya. `LifecycleConfig/[instance-group-name]/[instance-id]` 

Semua log yang ditulis untuk `/var/log/provision/provisioning.log` diunggah ke aliran sebelumnya CloudWatch . Sampel LifecycleScripts saat [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config)mengarahkan mereka `stdout` dan `stderr` ke lokasi ini. Jika Anda menggunakan skrip kustom Anda, tulis log Anda ke `/var/log/provision/provisioning.log` lokasi agar CloudWatch tersedia.

**Penanda log skrip siklus hidup**

CloudWatch log untuk skrip siklus hidup menyertakan penanda khusus untuk membantu Anda melacak kemajuan eksekusi dan mengidentifikasi masalah:


|  |  | 
| --- |--- |
| Penanda | Deskripsi | 
| START | Indicates the beginning of lifecycle script logs for the instance | 
| [SageMaker] Lifecycle scripts were provided, with S3 uri: [s3://bucket-name/] and entrypoint script: [script-name.sh] | Indicates the S3 location and entrypoint script that will be used | 
| [SageMaker] Downloading lifecycle scripts | Indicates scripts are being downloaded from the specified S3 location | 
| [SageMaker] Lifecycle scripts have been downloaded | Indicates scripts have been successfully downloaded from S3 | 
| [SageMaker] The lifecycle scripts succeeded | Indicates successful completion of all lifecycle scripts | 
| [SageMaker] The lifecycle scripts failed | Indicates failed execution of lifecycle scripts | 

Penanda ini membantu Anda mengidentifikasi dengan cepat di mana dalam proses eksekusi skrip siklus hidup terjadi masalah. Saat memecahkan masalah kegagalan, tinjau entri log untuk mengidentifikasi di mana proses berhenti atau gagal.

**Pesan kegagalan skrip siklus hidup**

Jika skrip siklus hidup ada tetapi gagal selama eksekusi, Anda akan menerima pesan kesalahan yang menyertakan nama grup CloudWatch log dan nama aliran log. Jika ada kegagalan skrip siklus hidup di beberapa instance, pesan kesalahan hanya akan menunjukkan satu instance yang gagal, tetapi grup log harus berisi aliran untuk semua instance.

Anda dapat melihat pesan kesalahan dengan menjalankan [DescribeCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeCluster.html)API atau dengan melihat halaman detail cluster di SageMaker konsol. Di konsol, tombol **Lihat log skrip siklus hidup** disediakan yang menavigasi langsung ke aliran log. CloudWatch Pesan kesalahan memiliki format berikut:

```
Instance [instance-id] failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs,
visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’.
If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here:
https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.
```

## Memberikan tag ke sumber daya
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging"></a>

AWS Sistem penandaan membantu mengelola, mengidentifikasi, mengatur, mencari, dan memfilter sumber daya. SageMaker HyperPod mendukung penandaan, sehingga Anda dapat mengelola cluster sebagai AWS sumber daya. Selama pembuatan klaster atau mengedit cluster yang ada, Anda dapat menambahkan atau mengedit tag untuk cluster. Untuk mempelajari selengkapnya tentang penandaan secara umum, lihat [Menandai sumber daya Anda AWS](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html).

### Menggunakan UI SageMaker HyperPod konsol
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-in-console"></a>

Saat Anda [membuat cluster baru](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-create-cluster) dan [mengedit cluster](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-edit-clusters), Anda dapat menambahkan, menghapus, atau mengedit tag.

### Menggunakan SageMaker HyperPod APIs
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-in-api-request"></a>

Saat Anda menulis file permintaan [UpdateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html)API [CreateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)atau dalam format JSON, edit `Tags` bagian tersebut.

### Menggunakan perintah AWS CLI penandaan untuk AI SageMaker
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-using-cli"></a>

**Untuk menandai sebuah cluster**

Gunakan [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/add-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/add-tags.html)sebagai berikut.

```
aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string
```

**Untuk menghapus tag cluster**

Gunakan [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/delete-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/delete-tags.html)sebagai berikut.

```
aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"
```

**Untuk membuat daftar tag untuk sumber daya**

Gunakan [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-tags.html)sebagai berikut.

```
aws sagemaker list-tags --resource-arn cluster_ARN
```