Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
SageMaker HyperPod manajemen klaster
Topik berikut membahas pencatatan dan pengelolaan SageMaker HyperPod cluster.
SageMaker HyperPod Peristiwa pencatatan
Semua peristiwa dan log dari SageMaker HyperPod disimpan ke Amazon CloudWatch di bawah nama grup log/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Setiap panggilan ke CreateCluster API membuat grup log baru. Daftar berikut berisi semua aliran log yang tersedia yang dikumpulkan di setiap grup log.
| Nama Grup Log | Nama Aliran Log |
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] |
LifecycleConfig/[instance-group-name]/[instance-id] |
Logging SageMaker HyperPod di tingkat instans
Anda dapat mengakses LifecycleScript log yang dipublikasikan CloudWatch selama konfigurasi instance cluster. Setiap instance dalam cluster yang dibuat menghasilkan aliran log terpisah, dapat dibedakan berdasarkan formatnya. LifecycleConfig/[instance-group-name]/[instance-id]
Semua log yang ditulis untuk /var/log/provision/provisioning.log diunggah ke aliran sebelumnya CloudWatch . Sampel LifecycleScripts saat 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-configstdout dan stderr ke lokasi ini. Jika Anda menggunakan skrip kustom Anda, tulis log Anda ke /var/log/provision/provisioning.log lokasi agar CloudWatch tersedia.
Penanda log skrip siklus hidup
CloudWatch log untuk skrip siklus hidup menyertakan penanda khusus untuk membantu Anda melacak kemajuan eksekusi dan mengidentifikasi masalah:
| Penanda | Deskripsi |
START |
Indicates the beginning of lifecycle script logs for the instance |
[SageMaker] Lifecycle scripts were provided, with S3 uri: |
Indicates the S3 location and entrypoint script that will be used |
[SageMaker] Downloading lifecycle scripts |
Indicates scripts are being downloaded from the specified S3 location |
[SageMaker] Lifecycle scripts have been downloaded |
Indicates scripts have been successfully downloaded from S3 |
[SageMaker] The lifecycle scripts succeeded |
Indicates successful completion of all lifecycle scripts |
[SageMaker] The lifecycle scripts failed |
Indicates failed execution of lifecycle scripts |
Penanda ini membantu Anda mengidentifikasi dengan cepat di mana dalam proses eksekusi skrip siklus hidup terjadi masalah. Saat memecahkan masalah kegagalan, tinjau entri log untuk mengidentifikasi di mana proses berhenti atau gagal.
Pesan kegagalan skrip siklus hidup
Jika skrip siklus hidup ada tetapi gagal selama eksekusi, Anda akan menerima pesan kesalahan yang menyertakan nama grup CloudWatch log dan nama aliran log. Jika ada kegagalan skrip siklus hidup di beberapa instance, pesan kesalahan hanya akan menunjukkan satu instance yang gagal, tetapi grup log harus berisi aliran untuk semua instance.
Anda dapat melihat pesan kesalahan dengan menjalankan DescribeClusterAPI atau dengan melihat halaman detail cluster di SageMaker konsol. Di konsol, tombol Lihat log skrip siklus hidup disediakan yang menavigasi langsung ke aliran log. CloudWatch Pesan kesalahan memiliki format berikut:
Instance[instance-id]failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs, visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’. If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.
Memberikan tag ke sumber daya
AWS Sistem penandaan membantu mengelola, mengidentifikasi, mengatur, mencari, dan memfilter sumber daya. SageMaker HyperPod mendukung penandaan, sehingga Anda dapat mengelola cluster sebagai AWS sumber daya. Selama pembuatan klaster atau mengedit cluster yang ada, Anda dapat menambahkan atau mengedit tag untuk cluster. Untuk mempelajari selengkapnya tentang penandaan secara umum, lihat Menandai sumber daya Anda AWS.
Menggunakan UI SageMaker HyperPod konsol
Saat Anda membuat cluster baru dan mengedit cluster, Anda dapat menambahkan, menghapus, atau mengedit tag.
Menggunakan SageMaker HyperPod APIs
Saat Anda menulis file permintaan UpdateClusterAPI CreateClusteratau dalam format JSON, edit Tags bagian tersebut.
Menggunakan perintah AWS CLI penandaan untuk AI SageMaker
Untuk menandai sebuah cluster
Gunakan aws sagemaker add-tagssebagai berikut.
aws sagemaker add-tags --resource-arncluster_ARN--tags Key=string,Value=string
Untuk menghapus tag cluster
Gunakan aws sagemaker delete-tagssebagai berikut.
aws sagemaker delete-tags --resource-arncluster_ARN--tag-keys"tag_key"
Untuk membuat daftar tag untuk sumber daya
Gunakan aws sagemaker list-tagssebagai berikut.
aws sagemaker list-tags --resource-arncluster_ARN