本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
推論運算子無法啟動
推論運算子 Pod 無法啟動,並造成下列錯誤訊息。此錯誤是因為運算子執行角色的許可政策未獲授權執行 sts:AssumeRoleWithWebIdentity。因此,在控制平面上執行的運算子部分不會啟動。
錯誤訊息:
Warning Unhealthy 5m46s (x22 over 49m) kubelet Startup probe failed: Get "http://10.1.100.59:8081/healthz": context deadline exceeded (Client.Timeout exceeded while awaiting headers)
根本原因:
-
推論運算子執行角色的許可政策未設定為存取 資源的授權字符。
解決方法:
為 HyperPod 推論運算子設定 執行角色EXECUTION_ROLE_ARN的下列政策:
HyperpodInferenceAccessPolicy-ml-cluster to include all resources
驗證步驟:
-
變更政策。
-
終止 HyperPod 推論運算子 Pod。
-
Pod 將重新啟動,而不會擲回任何例外狀況。