

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Errori di implementazione del modello Hugging Face Hub
<a name="sagemaker-hyperpod-model-deployment-ts-huggingface"></a>

**Panoramica:** quando si distribuiscono modelli da Hugging Face Hub utilizzando `huggingface` il tipo di origine del modello, l'implementazione potrebbe non riuscire durante la fase di download del modello. Questa sezione descrive gli scenari di errore più comuni e come diagnosticarli utilizzando gli eventi e i log dei pod di Kubernetes.

## Diagnosi degli errori di implementazione di Hugging Face
<a name="sagemaker-hyperpod-model-deployment-ts-hf-diagnose"></a>

**Passaggi per la risoluzione dei problemi**

1. Controlla lo InferenceEndpointConfig stato e gli eventi per i dettagli dell'errore:

   ```
   kubectl describe inferenceendpointconfig <name> -n <namespace>
   ```

   Cerca gli eventi con motivo `HuggingFaceDownloadFailed` e `DeploymentFailed` condizione nello stato, che contengono messaggi di errore specifici.

1. Se il contenitore init non funziona (il pod mostra `Init:CrashLoopBackOff` o`Init:Error`), controlla i log del contenitore init:

   ```
   kubectl logs <pod-name> -c hf-model-downloader -n <namespace>
   ```

1. Controlla lo stato del pod per i codici di uscita del contenitore init:

   ```
   kubectl get pod <pod-name> -n <namespace> -o jsonpath='{.status.initContainerStatuses[0].state}'
   ```

## Token Hugging Face non valido o scaduto
<a name="sagemaker-hyperpod-model-deployment-ts-hf-token"></a>

**Sintomi:** il contenitore Init si guasta con o errori. `401 Unauthorized` `Access denied` Il pod entra`CrashLoopBackOff`.

**Causa principale:**
+ Il token dell'API Hugging Face in Kubernetes Secret non è valido, è scaduto o è stato revocato.
+ Il token non ha accesso al modello chiuso.

**Risoluzione:**

1. Genera un nuovo token su [huggingface. co/settings/token.](https://huggingface.co/settings/tokens)

1. Per i modelli recintati, assicurati di aver accettato il contratto di licenza del modello nella pagina dei modelli di Hugging Face Hub.

1. Aggiorna Kubernetes Secret con il nuovo token:

   ```
   kubectl delete secret <secret-name> -n <namespace>
   kubectl create secret generic <secret-name> \
     --from-literal=token=hf_NEW_TOKEN_HERE \
     -n <namespace>
   ```

1. Elimina il pod non riuscito per attivare un nuovo tentativo di download:

   ```
   kubectl delete pod -l app=<iec-name> -n <namespace>
   ```

## Errori di connettività di rete
<a name="sagemaker-hyperpod-model-deployment-ts-hf-network"></a>

**Sintomi:** il contenitore Init si guasta a causa di errori di timeout della connessione o di risoluzione DNS. Il pod entra. `CrashLoopBackOff`

**Causa principale:** i nodi del cluster non dispongono di accesso Internet in uscita ai domini Hugging Face (and). `*.huggingface.co` `*.hf.co` Questo è comune nelle sottoreti private senza un gateway NAT.

**Risoluzione:**

1. Verifica che il tuo VPC abbia un gateway NAT configurato per le sottoreti private in cui vengono eseguiti i nodi del cluster.

1. Verifica che i gruppi di sicurezza consentano il traffico HTTPS in uscita (porta 443).

1. Verifica che gli ACL di rete consentano il traffico in uscita verso Internet.

1. Verifica la connettività dall'interno del cluster:

   ```
   kubectl run test-connectivity --image=curlimages/curl --rm -it --restart=Never -- \
     curl -sI https://huggingface.co
   ```

**Nota**  
Se l'accesso a Internet in uscita non è disponibile, prendi in considerazione l'utilizzo di Amazon S3 o Amazon FSx come origine del modello. Scarica prima il modello su Amazon S3, quindi distribuiscilo utilizzando il tipo di origine del `s3` modello.

## Modello non trovato
<a name="sagemaker-hyperpod-model-deployment-ts-hf-model-not-found"></a>

**Sintomi:** il contenitore Init si guasta con `Repository Not Found` o `404` errori.

**Causa principale:**
+ Non `modelId` è corretto o il modello non esiste su Hugging Face Hub.
+ Il modello è privato e il token non ha accesso.

**Risoluzione:**

1. Verifica l'esistenza dell'ID del modello accedendo `https://huggingface.co/<org>/<model>` al tuo browser.

1. Assicurati che il `modelId` tuo InferenceEndpointConfig sia nel `org/model` formato corretto (ad esempio,`mistralai/Mistral-7B-Instruct-v0.3`).