

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pemecahan Masalah
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-troubleshoot"></a>

Halaman berikut berisi solusi yang diketahui untuk memecahkan masalah kluster HyperPod EKS Anda.

**Topics**
+ [Tab dasbor](#hp-eks-troubleshoot-dashboard)
+ [Tab Tugas](#hp-eks-troubleshoot-tasks)
+ [Kebijakan](#hp-eks-troubleshoot-policies)
+ [Menghapus cluster](#hp-eks-troubleshoot-delete-policies)
+ [Berbagi sumber daya yang tidak terisi](#hp-eks-troubleshoot-unallocated-resource-sharing)

## Tab dasbor
<a name="hp-eks-troubleshoot-dashboard"></a>

**Pengaya EKS gagal dipasang**

Agar instalasi add-on EKS berhasil, Anda harus memiliki versi Kubernets>= 1.30. Untuk memperbarui, lihat [Memperbarui versi Kubernetes](https://docs.aws.amazon.com/eks/latest/userguide/update-cluster.html).

Agar instalasi add-on EKS berhasil, semua node harus dalam status **Ready** dan semua pod harus dalam status **Running**. 

Untuk memeriksa status node Anda, gunakan [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-cluster-nodes.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-cluster-nodes.html) AWS CLI perintah atau navigasikan ke kluster EKS Anda di [konsol EKS](https://console.aws.amazon.com/eks/home#/clusters) dan lihat status node Anda. Selesaikan masalah untuk setiap node atau hubungi administrator Anda. Jika status node **tidak diketahui**, hapus node. Setelah semua status node **Siap**, coba lagi instal add-on EKS HyperPod dari konsol [Amazon SageMaker ](https://console.aws.amazon.com/sagemaker/) AI.

Untuk memeriksa status pod Anda, gunakan `kubectl get pods -n cloudwatch-agent` perintah [CLI Kubernetes](https://kubernetes.io/docs/reference/kubectl/) atau navigasikan ke klaster EKS Anda di konsol [EKS](https://console.aws.amazon.com/eks/home#/clusters) dan lihat status pod Anda dengan namespace. `cloudwatch-agent` Selesaikan masalah Pod atau hubungi administrator Anda untuk menyelesaikan masalah. Setelah semua status pod **Berjalan**, coba lagi instal add-on EKS HyperPod dari konsol [Amazon SageMaker ](https://console.aws.amazon.com/sagemaker/) AI.

Untuk pemecahan masalah lainnya, lihat [Memecahkan masalah add-on CloudWatch Amazon Observability](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html#Container-Insights-setup-EKS-addon-troubleshoot) EKS.

## Tab Tugas
<a name="hp-eks-troubleshoot-tasks"></a>

Jika Anda melihat pesan galat tentang bagaimana **Definisi Sumber Daya Kustom (CRD) tidak dikonfigurasi di klaster**, berikan `EKSAdminViewPolicy` dan `ClusterAccessRole` kebijakan untuk peran eksekusi domain Anda. 
+ Untuk informasi tentang cara mendapatkan peran eksekusi Anda, lihat[Dapatkan peran eksekusi Anda](sagemaker-roles.md#sagemaker-roles-get-execution-role).
+ Untuk mempelajari cara melampirkan kebijakan ke pengguna atau grup IAM, lihat [Menambahkan dan menghapus izin identitas IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html).

## Kebijakan
<a name="hp-eks-troubleshoot-policies"></a>

Berikut ini mencantumkan solusi untuk kesalahan yang berkaitan dengan kebijakan yang menggunakan HyperPod APIs atau konsol.
+ Jika kebijakan dalam `CreateFailed` atau `CreateRollbackFailed` status, Anda perlu menghapus kebijakan yang gagal dan membuat yang baru.
+ Jika kebijakan dalam `UpdateFailed` status, coba lagi pembaruan dengan kebijakan yang sama ARN.
+ Jika kebijakan dalam `UpdateRollbackFailed` status, Anda perlu menghapus kebijakan yang gagal dan kemudian membuat yang baru.
+ Jika kebijakan dalam `DeleteFailed` atau `DeleteRollbackFailed` status, coba lagi penghapusan dengan kebijakan yang sama ARN.
  + Jika Anda mengalami kesalahan saat mencoba menghapus **prioritas Komputasi**, atau kebijakan klaster, menggunakan HyperPod konsol, coba hapus `cluster-scheduler-config` penggunaan API. Untuk memeriksa status sumber daya, buka halaman detail alokasi komputasi.

Untuk melihat detail lebih lanjut tentang kegagalan, gunakan API describe.

## Menghapus cluster
<a name="hp-eks-troubleshoot-delete-policies"></a>

Berikut daftar solusi yang diketahui untuk kesalahan yang berkaitan dengan menghapus cluster.
+ Ketika penghapusan klaster gagal karena kebijakan tata kelola SageMaker HyperPod tugas terlampir, Anda harus melakukannya. [Hapus kebijakan](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete.md)
+ Ketika penghapusan klaster gagal karena izin berikut hilang, Anda perlu memperbarui set izin minimum administrator klaster Anda. Lihat tab **Amazon EKS** di [Pengguna IAM untuk admin cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin) bagian ini.
  + `sagemaker:ListComputeQuotas`
  + `sagemaker:ListClusterSchedulerConfig`
  + `sagemaker:DeleteComputeQuota`
  + `sagemaker:DeleteClusterSchedulerConfig`

## Berbagi sumber daya yang tidak terisi
<a name="hp-eks-troubleshoot-unallocated-resource-sharing"></a>

Jika kapasitas kumpulan sumber daya yang tidak terisi kurang dari yang diharapkan:

1. **Periksa status siap node**

   ```
   kubectl get nodes
   ```

   Verifikasi semua node menampilkan `Ready` status di kolom STATUS.

1. **Periksa status penjadwalan node**

   ```
   kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulable
   ```

   Verifikasi node menunjukkan `<none>` atau `false` (tidak`true`).

1. **Daftar berbagi sumber daya yang tidak terisi: ClusterQueues**

   ```
   kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharing
   ```

   Ini menunjukkan semua berbagi sumber daya yang tidak terisi. ClusterQueues Jika ClusterQueues tidak muncul, periksa ClusterSchedulerConfig kebijakan di `FailureReason` bawah untuk melihat apakah ada pesan kegagalan untuk melanjutkan debugging.

1. **Verifikasi kuota berbagi sumber daya yang tidak dialokasikan:**

   ```
   kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>
   ```

   Periksa `spec.resourceGroups[].flavors[].resources` bagian untuk melihat kuota yang dialokasikan untuk setiap ragam sumber daya.

   Beberapa berbagi sumber daya yang tidak teralokasikan ClusterQueues mungkin ada tergantung pada jumlah ragam sumber daya di klaster Anda. 

1. **Periksa status konfigurasi MIG (node GPU):**

   ```
   kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'
   ```

   Verifikasi node berkemampuan MiG menunjukkan `success` status.