View a markdown version of this page

推論演算子の起動に失敗する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

推論演算子の起動に失敗する

推論演算子ポッドの起動に失敗し、次のエラーメッセージが発生しています。このエラーは、オペレーター実行ロールのアクセス許可ポリシーが の実行を許可されていないためですsts:AssumeRoleWithWebIdentity。このため、コントロールプレーンで実行されているオペレータパートは開始されません。

エラーメッセージ:

Warning Unhealthy 5m46s (x22 over 49m) kubelet Startup probe failed: Get "http://10.1.100.59:8081/healthz": context deadline exceeded (Client.Timeout exceeded while awaiting headers)

根本原因:

  • 推論演算子実行ロールのアクセス許可ポリシーは、 リソースの承認トークンにアクセスするように設定されていません。

解決策:

HyperPod 推論演算子の の実行ロールEXECUTION_ROLE_ARNの次のポリシーを設定します。

HyperpodInferenceAccessPolicy-ml-cluster to include all resources
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:DeleteObject" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken" ], "Resource": "*" } ] }

検証ステップ:

  1. ポリシーを変更します。

  2. HyperPod 推論オペレーターポッドを終了します。

  3. ポッドは例外をスローせずに再起動されます。