Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pengaturan tata kelola tugas
Bagian ini mencakup informasi tentang cara mengatur add-on EKS tata kelola SageMaker HyperPod tugas Amazon. Ini termasuk pemberian izin yang memungkinkan Anda mengatur prioritas tugas, menghitung alokasi untuk tim, cara komputasi idle dibagikan, dan preemption tugas untuk tim.
Jika Anda mengalami masalah saat menyiapkan, silakan lihat Pemecahan Masalah untuk solusi pemecahan masalah yang diketahui.
Pengaturan Kueue
HyperPod tata kelola tugas EKS add-on menginstal Kueue
| Versi pengaya tata kelola HyperPod tugas EKS | Versi Kueue yang diinstal sebagai bagian dari add-on |
|---|---|
|
v1.1.3 |
v0.12.0 |
catatan
Kueue v.012.0 dan yang lebih tinggi tidak menyertakan kueue-rbac-proxy sebagai bagian dari instalasi. Versi sebelumnya mungkin telah diinstal kueue-rbac-proxy. Misalnya, jika Anda menggunakan Kueue v0.8.1, Anda mungkin memiliki kueue-rbac-proxy v0.18.1.
HyperPod Tata kelola tugas memanfaatkan Kueue untuk antrian Kubernetes-native pekerjaan, penjadwalan, dan manajemen kuota, dan diinstal dengan add-on tata kelola tugas EKS. HyperPod Ketika diinstal, HyperPod membuat dan memodifikasi sumber daya SageMaker AI-managed Kubernetes sepertiKueueManagerConfig,,,, ClusterQueuesLocalQueues, WorkloadPriorityClasses dan. ResourceFlavors ValidatingAdmissionPolicies Meskipun administrator Kubernetes memiliki fleksibilitas untuk memodifikasi status sumber daya ini, ada kemungkinan bahwa setiap perubahan yang dilakukan pada SageMaker AI-managed sumber daya dapat diperbarui dan ditimpa oleh layanan.
Informasi berikut menguraikan pengaturan konfigurasi yang digunakan oleh add-on tata kelola HyperPod tugas untuk menyiapkan Kueue.
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
Untuk informasi selengkapnya tentang setiap entri konfigurasi, lihat Konfigurasi
HyperPod Prasyarat tata kelola tugas
-
Pastikan Anda memiliki kebijakan izin minimum untuk administrator HyperPod klaster, diPengguna IAM untuk admin cluster. Ini termasuk izin untuk menjalankan API SageMaker HyperPod inti, mengelola SageMaker HyperPod klaster di dalam Anda Akun AWS, dan melakukan tugas di dalamnya. Mengelola SageMaker HyperPod cluster yang diatur oleh Amazon EKS
-
Anda harus memiliki versi Kubernetes >= 1.30. Untuk petunjuknya, lihat Memperbarui klaster yang ada ke versi Kubernetes yang baru.
-
Jika Anda sudah menginstal Kueue di cluster mereka, hapus instalan Kueue sebelum menginstal add-on EKS.
-
Sebuah HyperPod node harus sudah ada di cluster EKS sebelum menginstal add-on tata kelola HyperPod tugas.
HyperPod pengaturan tata kelola tugas
Berikut ini memberikan informasi tentang cara mengatur tata kelola HyperPod tugas.
Anda dapat melihat tab Kebijakan di konsol HyperPod SageMaker AI jika penginstalan berhasil. Anda juga dapat menggunakan contoh AWS CLI perintah describe-addon
aws eks describe-addon --regionregion--cluster-namecluster-name--addon-name amazon-sagemaker-hyperpod-taskgovernance