View a markdown version of this page

L'opérateur d'inférence ne démarre pas - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

L'opérateur d'inférence ne démarre pas

Le module de l'opérateur d'inférence n'a pas pu démarrer et est à l'origine du message d'erreur suivant. Cette erreur est due à la politique d'autorisation selon laquelle le rôle d'exécution de l'opérateur n'est pas autorisé à exécutersts:AssumeRoleWithWebIdentity. De ce fait, la partie opérateur exécutée sur le plan de commande n'est pas démarrée.

Message d’erreur:

Warning Unhealthy 5m46s (x22 over 49m) kubelet Startup probe failed: Get "http://10.1.100.59:8081/healthz": context deadline exceeded (Client.Timeout exceeded while awaiting headers)

Cause première :

  • La politique d'autorisation du rôle d'exécution de l'opérateur d'inférence n'est pas définie pour accéder au jeton d'autorisation pour les ressources.

Résolution :

Définissez la politique suivante concernant le rôle d'exécution de EXECUTION_ROLE_ARN pour l'opérateur d' HyperPod inférence :

HyperpodInferenceAccessPolicy-ml-cluster to include all resources
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:DeleteObject" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken" ], "Resource": "*" } ] }

Étapes de vérification :

  1. Modifiez la stratégie.

  2. Arrêtez le module de l'opérateur d' HyperPod inférence.

  3. Le pod sera redémarré sans aucune exception.