View a markdown version of this page

推理运算符无法启动 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

推理运算符无法启动

推理运算符 pod 无法启动,导致出现以下错误消息。此错误是由于未授权操作员执行角色的权限策略所致sts:AssumeRoleWithWebIdentity。因此,在控制平面上运行的操作员部分无法启动。

错误消息:

Warning Unhealthy 5m46s (x22 over 49m) kubelet Startup probe failed: Get "http://10.1.100.59:8081/healthz": context deadline exceeded (Client.Timeout exceeded while awaiting headers)

根本原因:

  • 推理运算符执行角色的权限策略未设置为访问资源的授权令牌。

解决方法:

为 HyperPod 推理运算符设置以下执行EXECUTION_ROLE_ARN角色策略:

HyperpodInferenceAccessPolicy-ml-cluster to include all resources
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:DeleteObject" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken" ], "Resource": "*" } ] }

验证步骤:

  1. 更改策略。

  2. 终止 HyperPod 推理运算符 pod。

  3. Pod 将在不引发任何异常的情况下重新启动。