

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# トラブルシューティング
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-troubleshoot"></a>

次のページには、HyperPod EKS クラスターのトラブルシューティングに関する既知のソリューションが記載されています。

**Topics**
+ [[Dashboard] (ダッシュボード) タブ](#hp-eks-troubleshoot-dashboard)
+ [タスクタブ](#hp-eks-troubleshoot-tasks)
+ [ポリシー](#hp-eks-troubleshoot-policies)
+ [クラスターの削除](#hp-eks-troubleshoot-delete-policies)
+ [未割り当てのリソース共有](#hp-eks-troubleshoot-unallocated-resource-sharing)

## [Dashboard] (ダッシュボード) タブ
<a name="hp-eks-troubleshoot-dashboard"></a>

**EKS アドオンのインストールに失敗しました**

EKS アドオンのインストールを正常に完了するには、Kubernetes バージョン 1.30 以降が必要です。更新するには、「[Kubernetes バージョンを更新する](https://docs.aws.amazon.com/eks/latest/userguide/update-cluster.html)」を参照してください。

EKS アドオンのインストールを正常に完了するには、すべてのノードが **[準備完了]** ステータスで、すべてのポッドが **[実行中]** ステータスである必要があります。

ノードのステータスを確認するには、 [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-cluster-nodes.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-cluster-nodes.html) AWS CLI コマンドを使用するか、EKS [コンソールで EKS](https://console.aws.amazon.com/eks/home#/clusters) クラスターに移動し、ノードのステータスを表示します。各ノードの問題を解決するか、管理者にお問い合わせください。ノードのステータスが **[不明]** の場合は、ノードを削除します。すべてのノードのステータスが **[準備完了]** になったら、[Amazon SageMaker AI コンソール](https://console.aws.amazon.com/sagemaker/)から HyperPod への EKS アドオンのインストールを再試行します。

ポッドのステータスを確認するには、[Kubernetes CLI](https://kubernetes.io/docs/reference/kubectl/) コマンド `kubectl get pods -n cloudwatch-agent` を使用するか、[EKS コンソール](https://console.aws.amazon.com/eks/home#/clusters)で EKS クラスターに移動し、名前空間 `cloudwatch-agent` を持つポッドのステータスを表示します。ポッドの問題を解決するか、管理者に連絡して問題を解決してください。すべてのポッドのステータスが **[実行中]** になったら、[Amazon SageMaker AI コンソール](https://console.aws.amazon.com/sagemaker/)から HyperPod への EKS アドオンのインストールを再試行します。

トラブルシューティングの詳細については、「[Amazon CloudWatch オブザーバビリティ EKS アドオンのトラブルシューティング](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html#Container-Insights-setup-EKS-addon-troubleshoot)」を参照してください。

## タスクタブ
<a name="hp-eks-troubleshoot-tasks"></a>

**クラスターでカスタムリソース定義 (CRD) が設定されていない**というエラーメッセージが表示された場合は、ドメイン実行ロールに `EKSAdminViewPolicy` ポリシーと `ClusterAccessRole` ポリシーを付与します。
+ 実行ロールを取得する方法の詳細については、「[実行ロールを取得する](sagemaker-roles.md#sagemaker-roles-get-execution-role)」を参照してください。
+ IAM ユーザーまたはグループにポリシーをアタッチする方法については、「[IAM ID のアクセス許可の追加および削除](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html)」を参照してください。

## ポリシー
<a name="hp-eks-troubleshoot-policies"></a>

HyperPod API またはコンソールを使用したポリシー関連エラーのソリューション一覧は、以下のとおりです。
+ ポリシーのステータスが `CreateFailed` または `CreateRollbackFailed` の場合、失敗したポリシーを削除して新しいポリシーを作成する必要があります。
+ ポリシーのステータスが `UpdateFailed` の場合、同じポリシー ARN を使用して更新を再試行します。
+ ポリシーのステータスが `UpdateRollbackFailed` の場合、失敗したポリシーを削除して新しいポリシーを作成する必要があります。
+ ポリシーのステータスが `DeleteFailed` または `DeleteRollbackFailed` の場合、同じポリシー ARN を使用して削除を再試行します。
  + HyperPod コンソールを使用して**コンピューティング優先順位付け**またはクラスターポリシーを削除しようとしてエラーが発生した場合は、API を使用して `cluster-scheduler-config` を削除してみます。リソースのステータスを確認するには、コンピューティング割り当ての詳細ページに移動します。

失敗の詳細を確認するには、describe API を使用します。

## クラスターの削除
<a name="hp-eks-troubleshoot-delete-policies"></a>

クラスターの削除に関連するエラーの既知のソリューションは、以下のとおりです。
+ SageMaker HyperPod タスクガバナンスポリシーがアタッチされたためにクラスターの削除に失敗した場合、[ポリシーを削除する](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete.md) が必要です。
+ 以下のアクセス許可がないためにクラスターの削除に失敗した場合、クラスター管理者のアクセス許可の最小限のセットを更新する必要があります。「[クラスター管理者の IAM ユーザー](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin)」セクションの **[Amazon EKS]** タブを参照してください。
  + `sagemaker:ListComputeQuotas`
  + `sagemaker:ListClusterSchedulerConfig`
  + `sagemaker:DeleteComputeQuota`
  + `sagemaker:DeleteClusterSchedulerConfig`

## 未割り当てのリソース共有
<a name="hp-eks-troubleshoot-unallocated-resource-sharing"></a>

未割り当てのリソースプール容量が想定よりも小さい場合:

1. **ノードの準備完了ステータスを確認する**

   ```
   kubectl get nodes
   ```

   STATUS 列にすべてのノード`Ready`のステータスが表示されていることを確認します。

1. **ノードのスケジュール可能なステータスを確認する**

   ```
   kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulable
   ```

   ノードに `<none>`または `false` ( ではなく) が表示されていることを確認します`true`。

1. **未割り当てのリソース共有 ClusterQueues を一覧表示します。**

   ```
   kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharing
   ```

   これにより、未割り当てのリソース共有 ClusterQueues がすべて表示されます。ClusterQueues が表示されない場合は、ClusterSchedulerConfig ポリシー`FailureReason`の で、デバッグを続行する失敗メッセージがあるかどうかを確認してください。

1. **未割り当てのリソース共有クォータを確認します。**

   ```
   kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>
   ```

   `spec.resourceGroups[].flavors[].resources` セクションをチェックして、各リソースフレーバーに割り当てられたクォータを確認します。

   クラスター内のリソースフレーバーの数によっては、複数の未割り当てのリソース共有 ClusterQueues が存在する場合があります。

1. **MIG 設定ステータス (GPU ノード):**

   ```
   kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'
   ```

   MIG 対応ノード`success`の状態が表示されていることを確認します。