Aktifkan penjadwalan geng Pengaturan konfigurasi penjadwalan geng

Menggunakan penjadwalan geng di tata kelola SageMaker HyperPod tugas Amazon

Dalam pelatihan ML terdistribusi, pekerjaan sering membutuhkan beberapa pod yang berjalan secara bersamaan di seluruh node dengan komunikasi pod-to-pod. HyperPod Task Governance menggunakan waitForPodsReady fitur Kueue untuk mengimplementasikan penjadwalan geng. Saat diaktifkan, beban kerja dipantau oleh Kueue hingga semua pod siap, artinya dijadwalkan, berjalan, dan melewati probe kesiapan opsional. Jika tidak semua pod dari beban kerja siap dalam batas waktu yang dikonfigurasi, beban kerja akan diusir dan di-requeued.

Penjadwalan geng memberikan manfaat berikut:

Mencegah pemborosan sumber daya — Kueue mengusir dan meminta ulang beban kerja jika semua pod tidak siap, memastikan sumber daya tidak ditahan tanpa batas waktu dengan menjalankan sebagian beban kerja.
Menghindari kebuntuan — Mencegah pekerjaan dari memegang sebagian sumber daya dan memblokir satu sama lain tanpa batas waktu.
Pemulihan otomatis — Jika pod tidak siap dalam batas waktu, beban kerja akan digusur dan diisi ulang dengan backoff eksponensial yang dapat dikonfigurasi, daripada digantung tanpa batas waktu.

Aktifkan penjadwalan geng

Untuk mengaktifkan penjadwalan geng, Anda harus memiliki kluster HyperPod Amazon EKS dengan pengaya tata kelola tugas Amazon EKS diinstal. Status add-on harus Active atauDegraded.

catatan

Penjadwalan geng juga dapat dikonfigurasi secara langsung menggunakan kubectl dengan mengedit konfigurasi Kueue pada cluster.

Aktifkan penjadwalan geng (konsol SageMaker AI)

Buka konsol Amazon SageMaker AI dan navigasikan ke HyperPod cluster Anda.
Pilih tab Manajemen kebijakan.
Di bagian Tata kelola tugas, buka Tindakan, lalu pilih Konfigurasi penjadwalan geng.
Aktifkan penjadwalan geng dan konfigurasikan pengaturan.
Pilih Simpan. Kontroler Kueue restart untuk menerapkan perubahan.

Pengaturan konfigurasi penjadwalan geng

Tabel berikut menjelaskan pengaturan konfigurasi untuk penjadwalan geng.

Pengaturan	Deskripsi	Default
`timeout`	Berapa lama Kueue menunggu semua pod siap sebelum mengusir dan mengembalikan beban kerja.	5m
`recoveryTimeout`	Berapa lama Kueue menunggu pod pulih setelah kegagalan node sebelum mengisi ulang beban kerja. Setel `0s` ke menonaktifkan. Default ke nilai `timeout` jika tidak disetel.	5m
`blockAdmission`	Saat diaktifkan, beban kerja diterima secara berurutan. Tidak ada beban kerja baru yang diterima sampai semua pod yang sekarang siap. Mencegah kebuntuan pada cluster yang dibatasi sumber daya.	Mati
`requeuingStrategy timestamp`	Apakah penggunaan pesanan requeue `Creation` (waktu pengiriman asli, mempertahankan posisi antrian) atau `Eviction` (waktu penggusuran terakhir, secara efektif mengurangi prioritas pekerjaan yang gagal berulang kali).	Penggusuran
`requeuingStrategy backoffLimitCount`	Upaya requeue maksimum sebelum Kueue menonaktifkan beban kerja secara permanen. Biarkan kosong untuk percobaan ulang tanpa batas.	Tidak terbatas.
`requeuingStrategy backoffBaseSeconds`	Waktu dasar dalam hitungan detik untuk backoff eksponensial saat mengisi ulang beban kerja setelah setiap batas waktu berturut-turut. Eksponen adalah 2.	60-an
`requeuingStrategy backoffMaxSeconds`	Tutup pada penundaan backoff eksponensial. Setelah tercapai, Kueue melanjutkan requeuing pada interval tetap ini.	3600-an

catatan

Memodifikasi pengaturan penjadwalan geng akan memulai ulang pengontrol Kueue, yang dapat menunda sementara penerimaan pekerjaan. Ini berlaku apakah Anda mengaktifkan, menonaktifkan, atau memperbarui nilai apa pun. Menjalankan pekerjaan tidak terganggu.

catatan

Penjadwalan geng adalah seluruh kelompok. Ini berlaku untuk semua Kueue-managed beban kerja di cluster, bukan hanya tim atau antrian tertentu.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Penjadwalan

Kebijakan