View a markdown version of this page

Ganti atau reboot node secara manual menggunakan Slurm - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ganti atau reboot node secara manual menggunakan Slurm

Bagian ini berbicara tentang kapan Anda harus me-reboot atau mengganti node secara manual, dengan instruksi tentang cara melakukan keduanya.

Kapan harus me-reboot atau mengganti node secara manual

Fungsionalitas HyperPod auto-resume memonitor jika status node Slurm Anda berubah menjadi atau. fail down Anda dapat memeriksa status node Slurm dengan menjalankan. sinfo

Jika node tetap macet atau tidak responsif dan proses auto-resume tidak memulihkannya, Anda dapat secara manual memulai pemulihan. Pilihan antara me-reboot dan mengganti node tergantung pada sifat masalahnya. Pertimbangkan untuk me-reboot saat menghadapi masalah sementara atau terkait perangkat lunak, seperti sistem hang, kebocoran memori, masalah driver GPU, pembaruan kernel, atau proses yang macet. Namun, jika Anda mengalami masalah persisten atau terkait perangkat keras seperti kegagalan GPUs, memori atau kesalahan jaringan, kegagalan pemeriksaan kesehatan berulang, atau node yang tetap tidak responsif setelah beberapa upaya reboot, penggantian node adalah solusi yang lebih tepat.

Cara untuk me-reboot atau mengganti node secara manual

SageMaker HyperPod menawarkan dua metode untuk pemulihan node manual. Pendekatan yang lebih disukai adalah menggunakan SageMaker HyperPod Reboot dan Replace APIs, yang menyediakan proses pemulihan yang lebih cepat dan lebih transparan yang bekerja di semua orkestra. Atau, Anda dapat menggunakan perintah Slurm tradisional sepertiscontrol update, meskipun metode warisan ini memerlukan akses langsung ke simpul pengontrol Slurm. Kedua metode mengaktifkan proses SageMaker HyperPod pemulihan yang sama.

Reboot node secara manual menggunakan API reboot

Anda dapat menggunakan BatchRebootClusterNodesuntuk me-reboot node yang salah secara manual di SageMaker HyperPod cluster Anda.

Berikut adalah contoh menjalankan operasi reboot pada dua Instance cluster menggunakan: AWS Command Line Interface

aws sagemaker batch-reboot-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-0123456789abcdef0 i-0fedcba9876543210

Ganti node secara manual menggunakan replace API

Anda dapat menggunakan BatchReplaceClusterNodesuntuk secara manual mengganti node yang salah di SageMaker HyperPod cluster Anda.

Berikut adalah contoh menjalankan operasi replace pada dua Instance cluster menggunakan: AWS Command Line Interface

aws sagemaker batch-replace-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-0123456789abcdef0 i-0fedcba9876543210

Reboot node secara manual menggunakan Slurm

Anda juga dapat menggunakan perintah scontrol Slurm untuk memicu pemulihan node. Perintah-perintah ini berinteraksi langsung dengan bidang kontrol Slurm dan menggunakan mekanisme pemulihan dasar SageMaker HyperPod yang sama.

Dalam perintah berikut, ganti <ip-ipv4>dengan nama simpul Slurm (nama host) dari instance yang salah yang ingin Anda reboot.

scontrol update node=<ip-ipv4> state=fail reason="Action:Reboot"

Ini menandai node sebagai GAGAL dengan alasan yang ditentukan. SageMaker HyperPod mendeteksi ini dan me-reboot instance. Hindari mengubah status simpul atau memulai ulang pengontrol Slurm selama operasi.

Ganti node secara manual menggunakan Slurm

Anda dapat menggunakan perintah scontrol update sebagai berikut untuk mengganti node.

Dalam perintah berikut, ganti <ip-ipv4> dengan nama simpul Slurm (nama host) dari instance yang salah yang ingin Anda ganti.

scontrol update node=<ip-ipv4> state=fail reason="Action:Replace"

Setelah menjalankan perintah ini, node akan masuk ke fail status, menunggu pekerjaan yang sedang berjalan selesai, diganti dengan instance yang sehat, dan dipulihkan dengan nama host yang sama. Proses ini membutuhkan waktu tergantung pada instance yang tersedia di Availability Zone Anda dan waktu yang diperlukan untuk menjalankan skrip siklus hidup Anda. Selama proses pembaruan dan penggantian, hindari mengubah status node secara manual lagi atau memulai ulang pengontrol Slurm; melakukannya dapat menyebabkan kegagalan penggantian. Jika node tidak pulih atau beralih ke idle status setelah waktu yang lama, hubungi AWS Support.

Secara manual memaksa mengubah node

Jika node yang salah terus-menerus terjebak dalam fail status, upaya terakhir yang mungkin Anda coba adalah secara manual mengubah status node menjadidown. Ini membutuhkan hak administrator (izin sudo).

Awas

Lanjutkan dengan hati-hati sebelum Anda menjalankan perintah berikut karena memaksa membunuh semua pekerjaan, dan Anda mungkin kehilangan semua pekerjaan yang belum disimpan.

scontrol update node=<ip-ipv4> state=down reason="Action:Replace"