Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Ganti atau reboot node secara manual menggunakan Slurm
Bagian ini berbicara tentang kapan Anda harus me-reboot atau mengganti node secara manual, dengan instruksi tentang cara melakukan keduanya.
Kapan harus me-reboot atau mengganti node secara manual
Fungsionalitas HyperPod auto-resume memonitor jika status node Slurm Anda berubah menjadi atau. fail down Anda dapat memeriksa status node Slurm dengan menjalankan. sinfo
Jika node tetap macet atau tidak responsif dan proses auto-resume tidak memulihkannya, Anda dapat secara manual memulai pemulihan. Pilihan antara me-reboot dan mengganti node tergantung pada sifat masalahnya. Pertimbangkan untuk me-reboot saat menghadapi masalah sementara atau terkait perangkat lunak, seperti sistem hang, kebocoran memori, masalah driver GPU, pembaruan kernel, atau proses yang macet. Namun, jika Anda mengalami masalah persisten atau terkait perangkat keras seperti kegagalan GPUs, memori atau kesalahan jaringan, kegagalan pemeriksaan kesehatan berulang, atau node yang tetap tidak responsif setelah beberapa upaya reboot, penggantian node adalah solusi yang lebih tepat.
Cara untuk me-reboot atau mengganti node secara manual
SageMaker HyperPod menawarkan dua metode untuk pemulihan node manual. Pendekatan yang lebih disukai adalah menggunakan SageMaker HyperPod Reboot dan Replace APIs, yang menyediakan proses pemulihan yang lebih cepat dan lebih transparan yang bekerja di semua orkestra. Atau, Anda dapat menggunakan perintah Slurm tradisional sepertiscontrol update, meskipun metode warisan ini memerlukan akses langsung ke simpul pengontrol Slurm. Kedua metode mengaktifkan proses SageMaker HyperPod pemulihan yang sama.
Reboot node secara manual menggunakan API reboot
Anda dapat menggunakan BatchRebootClusterNodesuntuk me-reboot node yang salah secara manual di SageMaker HyperPod cluster Anda.
Berikut adalah contoh menjalankan operasi reboot pada dua Instance cluster menggunakan: AWS Command Line Interface
aws sagemaker batch-reboot-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-0123456789abcdef0 i-0fedcba9876543210
Ganti node secara manual menggunakan replace API
Anda dapat menggunakan BatchReplaceClusterNodesuntuk secara manual mengganti node yang salah di SageMaker HyperPod cluster Anda.
Berikut adalah contoh menjalankan operasi replace pada dua Instance cluster menggunakan: AWS Command Line Interface
aws sagemaker batch-replace-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-0123456789abcdef0 i-0fedcba9876543210
Reboot node secara manual menggunakan Slurm
Anda juga dapat menggunakan perintah scontrol Slurm untuk memicu pemulihan node. Perintah-perintah ini berinteraksi langsung dengan bidang kontrol Slurm dan menggunakan mekanisme pemulihan dasar SageMaker HyperPod yang sama.
Dalam perintah berikut, ganti <ip-ipv4>dengan nama simpul Slurm (nama host) dari instance yang salah yang ingin Anda reboot.
scontrol update node=<ip-ipv4>state=failreason="Action:Reboot"
Ini menandai node sebagai GAGAL dengan alasan yang ditentukan. SageMaker HyperPod mendeteksi ini dan me-reboot instance. Hindari mengubah status simpul atau memulai ulang pengontrol Slurm selama operasi.
Ganti node secara manual menggunakan Slurm
Anda dapat menggunakan perintah scontrol update sebagai berikut untuk mengganti node.
Dalam perintah berikut, ganti dengan nama simpul Slurm (nama host) dari instance yang salah yang ingin Anda ganti.<ip-ipv4>
scontrol update node=<ip-ipv4>state=failreason="Action:Replace"
Setelah menjalankan perintah ini, node akan masuk ke fail status, menunggu pekerjaan yang sedang berjalan selesai, diganti dengan instance yang sehat, dan dipulihkan dengan nama host yang sama. Proses ini membutuhkan waktu tergantung pada instance yang tersedia di Availability Zone Anda dan waktu yang diperlukan untuk menjalankan skrip siklus hidup Anda. Selama proses pembaruan dan penggantian, hindari mengubah status node secara manual lagi atau memulai ulang pengontrol Slurm; melakukannya dapat menyebabkan kegagalan penggantian. Jika node tidak pulih atau beralih ke idle status setelah waktu yang lama, hubungi AWS Support
Secara manual memaksa mengubah node
Jika node yang salah terus-menerus terjebak dalam fail status, upaya terakhir yang mungkin Anda coba adalah secara manual mengubah status node menjadidown. Ini membutuhkan hak administrator (izin sudo).
Awas
Lanjutkan dengan hati-hati sebelum Anda menjalankan perintah berikut karena memaksa membunuh semua pekerjaan, dan Anda mungkin kehilangan semua pekerjaan yang belum disimpan.
scontrol update node=<ip-ipv4>state=downreason="Action:Replace"