

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 疑難排解
<a name="sagemaker-hyperpod-studio-troubleshoot"></a>

下節列出 Studio 中 HyperPod 的疑難排解解決方案。

**Topics**
+ [任務索引標籤](#sagemaker-hyperpod-studio-troubleshoot-tasks)
+ [指標索引標籤](#sagemaker-hyperpod-studio-troubleshoot-metrics)

## 任務索引標籤
<a name="sagemaker-hyperpod-studio-troubleshoot-tasks"></a>

如果您在**任務**索引標籤時收到未在叢集上設定自訂資源定義 (CRD)。
+ 將 `EKSAdminViewPolicy` 和 `ClusterAccessRole` 政策授予您的網域執行角色。

  如需如何將標籤新增至執行角色的相關資訊，請參閱[標記 IAM 角色](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_tags_roles.html)。

  若要了解如何將政策附加至 IAM 使用者或群組，請參閱[新增和移除 IAM 身分許可](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html)。

如果 Slurm 指標的任務網格未停止在**任務**索引標籤中載入。
+ 確定已在 [AWS Session Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/session-manager.html) 喜好設定中啟用 `RunAs`，以及您正在使用的角色已連接 `SSMSessionRunAs` 標籤。
  + 若要啟用 `RunAs`，請導覽至 [Systems Manager 主控台](https://console.aws.amazon.com/systems-manager/session-manager)中的**喜好設定**索引標籤。
  +  [為 Linux 和 macOS 受管節點開啟執行身分支援](https://docs.aws.amazon.com/systems-manager/latest/userguide/session-preferences-run-as.html) 

對於 Studio for EKS 叢集中的受限任務檢視：
+ 如果您的執行角色沒有列出 EKS 叢集命名空間的許可。
  + 請參閱 [限制 Studio for EKS 叢集中的任務檢視](sagemaker-hyperpod-studio-setup-eks.md#sagemaker-hyperpod-studio-setup-eks-restrict-tasks-view)。
+ 如果使用者在存取 EKS 叢集時遇到問題。

  1. 執行下列 AWS CLI 命令，確認已啟用 RBAC。

     ```
     kubectl api-versions | grep rbac
     ```

     這應該會傳回 rbac.authorization.k8s.io/v1。

  1. 執行下列命令，檢查 `ClusterRole` 和 `ClusterRoleBinding` 是否存在。

     ```
     kubectl get clusterrole pods-events-crd-cluster-role
     kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
     ```

  1. 驗證使用者群組成員資格。確定使用者已正確指派給身分提供者或 IAM 中的 `pods-events-crd-cluster-level` 群組。
+ 如果使用者看不到任何資源。
  + 驗證群組成員資格，並確保正確套用 `ClusterRoleBinding`。
+ 如果使用者可以看到所有命名空間中的資源。
  + 如果需要命名空間限制，請考慮使用 `Role` 和 `RoleBinding`，而非 `ClusterRole` 和 `ClusterRoleBinding`。
+ 如果組態看起來正確，但未套用許可。
  + 檢查是否有任何 `NetworkPolicies` 或 `PodSecurityPolicies` 干擾存取。

## 指標索引標籤
<a name="sagemaker-hyperpod-studio-troubleshoot-metrics"></a>

如果**指標**索引標籤中沒有顯示 Amazon CloudWatch 指標。
+ HyperPod 叢集詳細資訊的 `Metrics` 區段使用 CloudWatch 來擷取資料。為了查看本節中的指標，您需要已啟用 [叢集和任務可觀測性](sagemaker-hyperpod-eks-cluster-observability-cluster.md)。請聯絡您的管理員以設定指標。