View a markdown version of this page

推論運算子無法啟動 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

推論運算子無法啟動

推論運算子 Pod 無法啟動,並造成下列錯誤訊息。此錯誤是因為運算子執行角色的許可政策未獲授權執行 sts:AssumeRoleWithWebIdentity。因此,在控制平面上執行的運算子部分不會啟動。

錯誤訊息:

Warning Unhealthy 5m46s (x22 over 49m) kubelet Startup probe failed: Get "http://10.1.100.59:8081/healthz": context deadline exceeded (Client.Timeout exceeded while awaiting headers)

根本原因:

  • 推論運算子執行角色的許可政策未設定為存取 資源的授權字符。

解決方法:

為 HyperPod 推論運算子設定 執行角色EXECUTION_ROLE_ARN的下列政策:

HyperpodInferenceAccessPolicy-ml-cluster to include all resources
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:DeleteObject" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken" ], "Resource": "*" } ] }

驗證步驟:

  1. 變更政策。

  2. 終止 HyperPod 推論運算子 Pod。

  3. Pod 將重新啟動,而不會擲回任何例外狀況。