Diagnostic des échecs de déploiement de Hugging Face Jeton Hugging Face non valide ou expiré Défaillances de connectivité réseau Modèle introuvable

Défaillances du déploiement du modèle Hugging Face Hub

Présentation : lors du déploiement de modèles depuis Hugging Face Hub à l'aide huggingface du type de source du modèle, le déploiement peut échouer pendant la phase de téléchargement du modèle. Cette section décrit les scénarios de défaillance courants et explique comment les diagnostiquer à l'aide des événements Kubernetes et des journaux des pods.

Diagnostic des échecs de déploiement de Hugging Face

Étapes de résolution des problèmes :

Vérifiez le InferenceEndpointConfig statut et les événements pour obtenir des informations détaillées sur les erreurs :
```
kubectl describe inferenceendpointconfig <name> -n <namespace>
```
Recherchez les événements dont le motif HuggingFaceDownloadFailed et la DeploymentFailed condition sont indiqués dans le statut et qui contiennent des messages d'erreur spécifiques.
Si le conteneur d'initialisation est défaillant (le pod indique Init:CrashLoopBackOff ouInit:Error), consultez les journaux du conteneur d'initialisation :
```
kubectl logs <pod-name> -c hf-model-downloader -n <namespace>
```

Vérifiez l'état du pod pour les codes de sortie du conteneur d'initialisation :


kubectl get pod <pod-name> -n <namespace> -o jsonpath='{.status.initContainerStatuses[0].state}'

Jeton Hugging Face non valide ou expiré

Symptômes : échec du conteneur d'initialisation 401 Unauthorized ou Access denied erreur. Le pod entreCrashLoopBackOff.

Cause première :

Le jeton d'API Hugging Face contenu dans Kubernetes Secret n'est pas valide, a expiré ou a été révoqué.
Le jeton n'a pas accès au modèle sécurisé.

Résolution :

Générez un nouveau jeton sur Huggingface. co/settings/jetons.
Pour les modèles fermés, assurez-vous d'avoir accepté le contrat de licence du modèle sur la page du modèle Hugging Face Hub.

Mettez à jour le secret de Kubernetes avec le nouveau jeton :


kubectl delete secret <secret-name> -n <namespace>
kubectl create secret generic <secret-name> \
  --from-literal=token=hf_NEW_TOKEN_HERE \
  -n <namespace>

Supprimez le pod défaillant pour déclencher une nouvelle tentative de téléchargement :
```
kubectl delete pod -l app=<iec-name> -n <namespace>
```

Défaillances de connectivité réseau

Symptômes : le conteneur d'initialisation échoue en raison d'un délai d'expiration de connexion ou d'erreurs de résolution DNS. Le pod entreCrashLoopBackOff.

Cause première : les nœuds du cluster n'ont pas d'accès Internet sortant aux domaines Hugging Face (*.huggingface.coet). *.hf.co Cela est courant dans les sous-réseaux privés sans passerelle NAT.

Résolution :

Vérifiez que votre VPC dispose d'une passerelle NAT configurée pour les sous-réseaux privés sur lesquels s'exécutent les nœuds de votre cluster.
Vérifiez que les groupes de sécurité autorisent le trafic HTTPS sortant (port 443).
Vérifiez que les ACL réseau autorisent le trafic sortant vers Internet.

Testez la connectivité depuis le cluster :


kubectl run test-connectivity --image=curlimages/curl --rm -it --restart=Never -- \
  curl -sI https://huggingface.co

Note

Si l'accès Internet sortant n'est pas disponible, envisagez plutôt d'utiliser Amazon S3 ou Amazon FSx comme source de modèle. Téléchargez d'abord le modèle sur Amazon S3, puis déployez-le à l'aide du type de source du s3 modèle.

Modèle introuvable

Symptômes : échec du conteneur d'initialisation Repository Not Found ou 404 erreur.

Cause première :

modelIdC'est incorrect ou le modèle n'existe pas sur Hugging Face Hub.
Le modèle est privé et le jeton n'y a pas accès.

Résolution :

Vérifiez que l'identifiant du modèle existe https://huggingface.co/<org>/<model> en accédant à votre navigateur.
Assurez-vous que modelId le org/model format du fichier InferenceEndpointConfig est correct (par exemple,mistralai/Mistral-7B-Instruct-v0.3).

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

L'opérateur d'inférence ne démarre pas

HyperPod Notes de mise à jour d'Inference