View a markdown version of this page

トラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トラブルシューティング

次のページには、HyperPod EKS クラスターのトラブルシューティングに関する既知のソリューションが記載されています。

[Dashboard] (ダッシュボード) タブ

EKS アドオンのインストールに失敗しました

EKS アドオンのインストールを正常に完了するには、Kubernetes バージョン 1.30 以降が必要です。更新するには、「Kubernetes バージョンを更新する」を参照してください。

EKS アドオンのインストールを正常に完了するには、すべてのノードが [準備完了] ステータスで、すべてのポッドが [実行中] ステータスである必要があります。

ノードのステータスを確認するには、 list-cluster-nodes AWS CLI コマンドを使用するか、EKS コンソールで EKS クラスターに移動し、ノードのステータスを表示します。各ノードの問題を解決するか、管理者にお問い合わせください。ノードのステータスが [不明] の場合は、ノードを削除します。すべてのノードのステータスが [準備完了] になったら、Amazon SageMaker AI コンソールから HyperPod への EKS アドオンのインストールを再試行します。

ポッドのステータスを確認するには、Kubernetes CLI コマンド kubectl get pods -n cloudwatch-agent を使用するか、EKS コンソールで EKS クラスターに移動し、名前空間 cloudwatch-agent を持つポッドのステータスを表示します。ポッドの問題を解決するか、管理者に連絡して問題を解決してください。すべてのポッドのステータスが [実行中] になったら、Amazon SageMaker AI コンソールから HyperPod への EKS アドオンのインストールを再試行します。

トラブルシューティングの詳細については、「Amazon CloudWatch オブザーバビリティ EKS アドオンのトラブルシューティング」を参照してください。

タスクタブ

クラスターでカスタムリソース定義 (CRD) が設定されていないというエラーメッセージが表示された場合は、ドメイン実行ロールに EKSAdminViewPolicy ポリシーと ClusterAccessRole ポリシーを付与します。

ポリシー

HyperPod API またはコンソールを使用したポリシー関連エラーのソリューション一覧は、以下のとおりです。

  • ポリシーのステータスが CreateFailed または CreateRollbackFailed の場合、失敗したポリシーを削除して新しいポリシーを作成する必要があります。

  • ポリシーのステータスが UpdateFailed の場合、同じポリシー ARN を使用して更新を再試行します。

  • ポリシーのステータスが UpdateRollbackFailed の場合、失敗したポリシーを削除して新しいポリシーを作成する必要があります。

  • ポリシーのステータスが DeleteFailed または DeleteRollbackFailed の場合、同じポリシー ARN を使用して削除を再試行します。

    • HyperPod コンソールを使用してコンピューティング優先順位付けまたはクラスターポリシーを削除しようとしてエラーが発生した場合は、API を使用して cluster-scheduler-config を削除してみます。リソースのステータスを確認するには、コンピューティング割り当ての詳細ページに移動します。

失敗の詳細を確認するには、describe API を使用します。

クラスターの削除

クラスターの削除に関連するエラーの既知のソリューションは、以下のとおりです。

  • SageMaker HyperPod タスクガバナンスポリシーがアタッチされたためにクラスターの削除に失敗した場合、ポリシーを削除する が必要です。

  • 以下のアクセス許可がないためにクラスターの削除に失敗した場合、クラスター管理者のアクセス許可の最小限のセットを更新する必要があります。「クラスター管理者の IAM ユーザー」セクションの [Amazon EKS] タブを参照してください。

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig

未割り当てのリソース共有

未割り当てのリソースプール容量が想定よりも小さい場合:

  1. ノードの準備完了ステータスを確認する

    kubectl get nodes

    STATUS 列にすべてのノードReadyのステータスが表示されていることを確認します。

  2. ノードのスケジュール可能なステータスを確認する

    kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulable

    ノードに <none>または false ( ではなく) が表示されていることを確認しますtrue

  3. 未割り当てのリソース共有 ClusterQueues を一覧表示します。

    kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharing

    これにより、未割り当てのリソース共有 ClusterQueues がすべて表示されます。ClusterQueues が表示されない場合は、ClusterSchedulerConfig ポリシーFailureReasonの で、デバッグを続行する失敗メッセージがあるかどうかを確認してください。

  4. 未割り当てのリソース共有クォータを確認します。

    kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>

    spec.resourceGroups[].flavors[].resources セクションをチェックして、各リソースフレーバーに割り当てられたクォータを確認します。

    クラスター内のリソースフレーバーの数によっては、複数の未割り当てのリソース共有 ClusterQueues が存在する場合があります。

  5. MIG 設定ステータス (GPU ノード):

    kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'

    MIG 対応ノードsuccessの状態が表示されていることを確認します。