

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 问题排查
<a name="sagemaker-hyperpod-studio-troubleshoot"></a>

以下部分列出了 Studio HyperPod 中的故障排除解决方案。

**Topics**
+ [“任务”选项卡](#sagemaker-hyperpod-studio-troubleshoot-tasks)
+ [“指标”选项卡](#sagemaker-hyperpod-studio-troubleshoot-metrics)

## “任务”选项卡
<a name="sagemaker-hyperpod-studio-troubleshoot-tasks"></a>

如果您收到 Custom Resource Definition (CRD) is not configured on the cluster 并且在**任务**选项卡中，则：
+ 向域执行角色授予 `EKSAdminViewPolicy` 和 `ClusterAccessRole` 策略。

  有关如何向执行角色添加标签的信息，请参阅[标记 IAM 角色](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_tags_roles.html)。

  要了解如何将策略附加到 IAM 用户或组，请参阅[添加和移除 IAM 身份权限](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html)。

如果 Slurm 指标的任务网格未在**任务**选项卡中停止加载，则：
+ 确保已在 [AWS Session Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/session-manager.html) 首选项中启用 `RunAs`，并且所使用的角色已附加 `SSMSessionRunAs` 标签。
  + 要启用 `RunAs`，请导航到 [Systems Manager 控制台](https://console.aws.amazon.com/systems-manager/session-manager)中的**首选项**选项卡。
  +  [为 Linux 和 macOS 托管节点启用“运行身份”支持](https://docs.aws.amazon.com/systems-manager/latest/userguide/session-preferences-run-as.html) 

对于 Studio 中 EKS 集群的受限任务视图：
+ 如果执行角色不具有列出 EKS 集群命名空间的权限。
  + 请参阅[在 Studio 中限制 EKS 集群的任务视图](sagemaker-hyperpod-studio-setup-eks.md#sagemaker-hyperpod-studio-setup-eks-restrict-tasks-view)。
+ 如果用户在访问 EKS 集群时遇到问题，则：

  1. 运行以下 AWS CLI 命令验证 RBAC 是否已启用。

     ```
     kubectl api-versions | grep rbac
     ```

     这将返回 rbac.authorization.k8s.io/v1。

  1. 运行以下命令来检查 `ClusterRole` 和 `ClusterRoleBinding` 是否存在。

     ```
     kubectl get clusterrole pods-events-crd-cluster-role
     kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
     ```

  1. 验证用户组成员资格。确保已将用户正确分配到身份提供者或 IAM 中的 `pods-events-crd-cluster-level` 组。
+ 如果用户无法查看任何资源，则：
  + 验证组成员资格并确保已正确应用 `ClusterRoleBinding`。
+ 如果用户可以查看所有命名空间中的资源，则：
  + 在需要命名空间限制时，可以考虑使用 `Role` 和 `RoleBinding` 来代替 `ClusterRole` 和 `ClusterRoleBinding`。
+ 如果配置显示正确，但权限未被应用，则：
  + 检查是否存在任何 `NetworkPolicies` 或 `PodSecurityPolicies` 干扰访问。

## “指标”选项卡
<a name="sagemaker-hyperpod-studio-troubleshoot-metrics"></a>

如果没有 Amazon CloudWatch 指标，则会在 “**指标**” 选项卡中显示。
+  HyperPod 集群详细信息`Metrics`部分 CloudWatch 用于获取数据。要查看此部分中的指标，您需要已启用[集群和任务可观测性](sagemaker-hyperpod-eks-cluster-observability-cluster.md)。请联系您的管理员以配置指标。