Tab dasbor Tab Tugas Kebijakan Menghapus cluster Berbagi sumber daya yang tidak terisi

Pemecahan Masalah

Halaman berikut berisi solusi yang diketahui untuk memecahkan masalah kluster HyperPod EKS Anda.

Topik

Tab dasbor
Tab Tugas
Kebijakan
Menghapus cluster
Berbagi sumber daya yang tidak terisi

Tab dasbor

Pengaya EKS gagal dipasang

Agar instalasi add-on EKS berhasil, Anda harus memiliki versi Kubernets>= 1.30. Untuk memperbarui, lihat Memperbarui versi Kubernetes.

Agar instalasi add-on EKS berhasil, semua node harus dalam status Ready dan semua pod harus dalam status Running.

Untuk memeriksa status node Anda, gunakan list-cluster-nodes AWS CLI perintah atau navigasikan ke kluster EKS Anda di konsol EKS dan lihat status node Anda. Selesaikan masalah untuk setiap node atau hubungi administrator Anda. Jika status node tidak diketahui, hapus node. Setelah semua status node Siap, coba lagi instal add-on EKS HyperPod dari konsol Amazon SageMaker AI.

Untuk memeriksa status pod Anda, gunakan kubectl get pods -n cloudwatch-agent perintah CLI Kubernetes atau navigasikan ke klaster EKS Anda di konsol EKS dan lihat status pod Anda dengan namespace. cloudwatch-agent Selesaikan masalah Pod atau hubungi administrator Anda untuk menyelesaikan masalah. Setelah semua status pod Berjalan, coba lagi instal add-on EKS HyperPod dari konsol Amazon SageMaker AI.

Untuk pemecahan masalah lainnya, lihat Memecahkan masalah add-on CloudWatch Amazon Observability EKS.

Tab Tugas

Jika Anda melihat pesan galat tentang bagaimana Definisi Sumber Daya Kustom (CRD) tidak dikonfigurasi di klaster, berikan EKSAdminViewPolicy dan ClusterAccessRole kebijakan untuk peran eksekusi domain Anda.

Untuk informasi tentang cara mendapatkan peran eksekusi Anda, lihatDapatkan peran eksekusi Anda.
Untuk mempelajari cara melampirkan kebijakan ke pengguna atau grup IAM, lihat Menambahkan dan menghapus izin identitas IAM.

Kebijakan

Berikut ini mencantumkan solusi untuk kesalahan yang berkaitan dengan kebijakan yang menggunakan HyperPod APIs atau konsol.

Jika kebijakan dalam CreateFailed atau CreateRollbackFailed status, Anda perlu menghapus kebijakan yang gagal dan membuat yang baru.
Jika kebijakan dalam UpdateFailed status, coba lagi pembaruan dengan kebijakan yang sama ARN.
Jika kebijakan dalam UpdateRollbackFailed status, Anda perlu menghapus kebijakan yang gagal dan kemudian membuat yang baru.
Jika kebijakan dalam DeleteFailed atau DeleteRollbackFailed status, coba lagi penghapusan dengan kebijakan yang sama ARN.
- Jika Anda mengalami kesalahan saat mencoba menghapus prioritas Komputasi, atau kebijakan klaster, menggunakan HyperPod konsol, coba hapus cluster-scheduler-config penggunaan API. Untuk memeriksa status sumber daya, buka halaman detail alokasi komputasi.

Untuk melihat detail lebih lanjut tentang kegagalan, gunakan API describe.

Menghapus cluster

Berikut daftar solusi yang diketahui untuk kesalahan yang berkaitan dengan menghapus cluster.

Ketika penghapusan klaster gagal karena kebijakan tata kelola SageMaker HyperPod tugas terlampir, Anda harus melakukannya. Hapus kebijakan
Ketika penghapusan klaster gagal karena izin berikut hilang, Anda perlu memperbarui set izin minimum administrator klaster Anda. Lihat tab Amazon EKS di Pengguna IAM untuk admin cluster bagian ini.
- sagemaker:ListComputeQuotas
- sagemaker:ListClusterSchedulerConfig
- sagemaker:DeleteComputeQuota
- sagemaker:DeleteClusterSchedulerConfig

Jika kapasitas kumpulan sumber daya yang tidak terisi kurang dari yang diharapkan:

Periksa status siap node
```
kubectl get nodes
```
Verifikasi semua node menampilkan Ready status di kolom STATUS.

Periksa status penjadwalan node


kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulable

Verifikasi node menunjukkan <none> atau false (tidaktrue).

Daftar berbagi sumber daya yang tidak terisi: ClusterQueues
```
kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharing
```
Ini menunjukkan semua berbagi sumber daya yang tidak terisi. ClusterQueues Jika ClusterQueues tidak muncul, periksa ClusterSchedulerConfig kebijakan di FailureReason bawah untuk melihat apakah ada pesan kegagalan untuk melanjutkan debugging.
Verifikasi kuota berbagi sumber daya yang tidak dialokasikan:
```
kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>
```
Periksa spec.resourceGroups[].flavors[].resources bagian untuk melihat kuota yang dialokasikan untuk setiap ragam sumber daya.

Beberapa berbagi sumber daya yang tidak teralokasikan ClusterQueues mungkin ada tergantung pada jumlah ragam sumber daya di klaster Anda.

Periksa status konfigurasi MIG (node GPU):


kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'

Verifikasi node berkemampuan MiG menunjukkan success status.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Contoh perintah

Atribusi