

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Fallos en la implementación del modelo Hugging Face Hub
<a name="sagemaker-hyperpod-model-deployment-ts-huggingface"></a>

**Descripción general:** Al implementar modelos de Hugging Face Hub utilizando `huggingface` el tipo de fuente del modelo, es posible que el despliegue falle durante la fase de descarga del modelo. En esta sección, se describen los escenarios de error más comunes y cómo diagnosticarlos mediante los eventos de Kubernetes y los registros de los módulos.

## Diagnóstico de los errores de despliegue de Hugging Face
<a name="sagemaker-hyperpod-model-deployment-ts-hf-diagnose"></a>

**Pasos para la solución de problemas:**

1. Compruebe el InferenceEndpointConfig estado y los eventos para ver los detalles del error:

   ```
   kubectl describe inferenceendpointconfig <name> -n <namespace>
   ```

   Busque los eventos con el motivo `HuggingFaceDownloadFailed` y la `DeploymentFailed` condición en el estado, que contienen mensajes de error específicos.

1. Si el contenedor de inicio está fallando (el pod muestra `Init:CrashLoopBackOff` o`Init:Error`), comprueba los registros del contenedor de inicio:

   ```
   kubectl logs <pod-name> -c hf-model-downloader -n <namespace>
   ```

1. Comprueba el estado del módulo para ver los códigos de salida del contenedor de inicio:

   ```
   kubectl get pod <pod-name> -n <namespace> -o jsonpath='{.status.initContainerStatuses[0].state}'
   ```

## Token de Hugging Face no válido o caducado
<a name="sagemaker-hyperpod-model-deployment-ts-hf-token"></a>

**Síntomas:** El contenedor de inicio falla `401 Unauthorized` o `Access denied` tiene errores. El módulo entra`CrashLoopBackOff`.

**Causa raíz:**
+ El token de la API Hugging Face del secreto de Kubernetes no es válido, ha caducado o ha sido revocado.
+ El token no tiene acceso al modelo cerrado.

**Solución**:

1. Genera un nuevo token en [huggingface. co/settings/fichas.](https://huggingface.co/settings/tokens)

1. En el caso de los modelos cerrados, asegúrate de haber aceptado el acuerdo de licencia del modelo en la página de modelos de Hugging Face Hub.

1. Actualiza el secreto de Kubernetes con el nuevo token:

   ```
   kubectl delete secret <secret-name> -n <namespace>
   kubectl create secret generic <secret-name> \
     --from-literal=token=hf_NEW_TOKEN_HERE \
     -n <namespace>
   ```

1. Elimina el pod defectuoso para iniciar un nuevo intento de descarga:

   ```
   kubectl delete pod -l app=<iec-name> -n <namespace>
   ```

## Fallos de conectividad de red
<a name="sagemaker-hyperpod-model-deployment-ts-hf-network"></a>

**Síntomas:** el contenedor de inicio falla debido al tiempo de espera de la conexión o a errores de resolución del DNS. El pod entra. `CrashLoopBackOff`

**Causa principal:** los nodos del clúster no tienen acceso saliente a Internet a los dominios de Hugging Face (`*.huggingface.co`y). `*.hf.co` Esto es común en las subredes privadas sin una puerta de enlace NAT.

**Solución**:

1. Compruebe que la VPC tenga una puerta de enlace NAT configurada para las subredes privadas en las que se ejecutan los nodos del clúster.

1. Compruebe que los grupos de seguridad permitan el tráfico HTTPS saliente (puerto 443).

1. Compruebe que las ACL de la red permiten el tráfico saliente a Internet.

1. Pruebe la conectividad desde el clúster:

   ```
   kubectl run test-connectivity --image=curlimages/curl --rm -it --restart=Never -- \
     curl -sI https://huggingface.co
   ```

**nota**  
Si el acceso a Internet saliente no está disponible, considere utilizar Amazon S3 o Amazon FSx como fuente modelo en su lugar. Descargue primero el modelo en Amazon S3 y, a continuación, impleméntelo utilizando el tipo de fuente del `s3` modelo.

## No se encontró el modelo
<a name="sagemaker-hyperpod-model-deployment-ts-hf-model-not-found"></a>

**Síntomas:** El contenedor de inicio falla `Repository Not Found` o tiene `404` errores.

**Causa raíz:**
+ `modelId`Es incorrecto o el modelo no existe en Hugging Face Hub.
+ El modelo es privado y el token no tiene acceso.

**Solución**:

1. Comprueba que el ID del modelo existe visitando `https://huggingface.co/<org>/<model>` tu navegador.

1. Asegúrese de que el `modelId` `org/model` formato InferenceEndpointConfig que aparece en el suyo es correcto (por ejemplo,`mistralai/Mistral-7B-Instruct-v0.3`).