本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
推理运算符无法启动
推理运算符 pod 无法启动,导致出现以下错误消息。此错误是由于未授权操作员执行角色的权限策略所致sts:AssumeRoleWithWebIdentity。因此,在控制平面上运行的操作员部分无法启动。
错误消息:
Warning Unhealthy 5m46s (x22 over 49m) kubelet Startup probe failed: Get "http://10.1.100.59:8081/healthz": context deadline exceeded (Client.Timeout exceeded while awaiting headers)
根本原因:
-
推理运算符执行角色的权限策略未设置为访问资源的授权令牌。
解决方法:
为 HyperPod 推理运算符设置以下执行EXECUTION_ROLE_ARN角色策略:
HyperpodInferenceAccessPolicy-ml-cluster to include all resources
验证步骤:
-
更改策略。
-
终止 HyperPod 推理运算符 pod。
-
Pod 将在不引发任何异常的情况下重新启动。