Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Défaillances du déploiement du modèle Hugging Face Hub
Présentation : lors du déploiement de modèles depuis Hugging Face Hub à l'aide huggingface du type de source du modèle, le déploiement peut échouer pendant la phase de téléchargement du modèle. Cette section décrit les scénarios de défaillance courants et explique comment les diagnostiquer à l'aide des événements Kubernetes et des journaux des pods.
Diagnostic des échecs de déploiement de Hugging Face
Étapes de résolution des problèmes :
-
Vérifiez le InferenceEndpointConfig statut et les événements pour obtenir des informations détaillées sur les erreurs :
kubectl describe inferenceendpointconfig <name> -n <namespace>Recherchez les événements dont le motif
HuggingFaceDownloadFailedet laDeploymentFailedcondition sont indiqués dans le statut et qui contiennent des messages d'erreur spécifiques. -
Si le conteneur d'initialisation est défaillant (le pod indique
Init:CrashLoopBackOffouInit:Error), consultez les journaux du conteneur d'initialisation :kubectl logs <pod-name> -c hf-model-downloader -n <namespace> -
Vérifiez l'état du pod pour les codes de sortie du conteneur d'initialisation :
kubectl get pod <pod-name> -n <namespace> -o jsonpath='{.status.initContainerStatuses[0].state}'
Jeton Hugging Face non valide ou expiré
Symptômes : échec du conteneur d'initialisation 401 Unauthorized ou Access denied erreur. Le pod entreCrashLoopBackOff.
Cause première :
Le jeton d'API Hugging Face contenu dans Kubernetes Secret n'est pas valide, a expiré ou a été révoqué.
Le jeton n'a pas accès au modèle sécurisé.
Résolution :
-
Générez un nouveau jeton sur Huggingface. co/settings/jetons.
-
Pour les modèles fermés, assurez-vous d'avoir accepté le contrat de licence du modèle sur la page du modèle Hugging Face Hub.
-
Mettez à jour le secret de Kubernetes avec le nouveau jeton :
kubectl delete secret <secret-name> -n <namespace> kubectl create secret generic <secret-name> \ --from-literal=token=hf_NEW_TOKEN_HERE \ -n <namespace> -
Supprimez le pod défaillant pour déclencher une nouvelle tentative de téléchargement :
kubectl delete pod -l app=<iec-name> -n <namespace>
Défaillances de connectivité réseau
Symptômes : le conteneur d'initialisation échoue en raison d'un délai d'expiration de connexion ou d'erreurs de résolution DNS. Le pod entreCrashLoopBackOff.
Cause première : les nœuds du cluster n'ont pas d'accès Internet sortant aux domaines Hugging Face (*.huggingface.coet). *.hf.co Cela est courant dans les sous-réseaux privés sans passerelle NAT.
Résolution :
-
Vérifiez que votre VPC dispose d'une passerelle NAT configurée pour les sous-réseaux privés sur lesquels s'exécutent les nœuds de votre cluster.
-
Vérifiez que les groupes de sécurité autorisent le trafic HTTPS sortant (port 443).
-
Vérifiez que les ACL réseau autorisent le trafic sortant vers Internet.
-
Testez la connectivité depuis le cluster :
kubectl run test-connectivity --image=curlimages/curl --rm -it --restart=Never -- \ curl -sI https://huggingface.co
Note
Si l'accès Internet sortant n'est pas disponible, envisagez plutôt d'utiliser Amazon S3 ou Amazon FSx comme source de modèle. Téléchargez d'abord le modèle sur Amazon S3, puis déployez-le à l'aide du type de source du s3 modèle.
Modèle introuvable
Symptômes : échec du conteneur d'initialisation Repository Not Found ou 404 erreur.
Cause première :
modelIdC'est incorrect ou le modèle n'existe pas sur Hugging Face Hub.Le modèle est privé et le jeton n'y a pas accès.
Résolution :
-
Vérifiez que l'identifiant du modèle existe
https://huggingface.co/<org>/<model>en accédant à votre navigateur. -
Assurez-vous que
modelIdleorg/modelformat du fichier InferenceEndpointConfig est correct (par exemple,mistralai/Mistral-7B-Instruct-v0.3).