

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Falhas na implantação do modelo Hugging Face Hub
<a name="sagemaker-hyperpod-model-deployment-ts-huggingface"></a>

**Visão geral:** Ao implantar modelos do Hugging Face Hub usando `huggingface` o tipo de fonte do modelo, a implantação pode falhar durante a fase de download do modelo. Esta seção aborda cenários de falha comuns e como diagnosticá-los usando eventos e registros de pod do Kubernetes.

## Diagnosticando falhas na implantação do Hugging Face
<a name="sagemaker-hyperpod-model-deployment-ts-hf-diagnose"></a>

**Etapas de solução de problemas:**

1. Verifique o InferenceEndpointConfig status e os eventos para obter detalhes do erro:

   ```
   kubectl describe inferenceendpointconfig <name> -n <namespace>
   ```

   Procure eventos com o motivo `HuggingFaceDownloadFailed` e a `DeploymentFailed` condição no status, que contêm mensagens de erro específicas.

1. Se o contêiner de inicialização estiver falhando (o pod mostra `Init:CrashLoopBackOff` ou`Init:Error`), verifique os registros do contêiner de inicialização:

   ```
   kubectl logs <pod-name> -c hf-model-downloader -n <namespace>
   ```

1. Verifique o status do pod para ver os códigos de saída do contêiner inicial:

   ```
   kubectl get pod <pod-name> -n <namespace> -o jsonpath='{.status.initContainerStatuses[0].state}'
   ```

## Token Hugging Face inválido ou expirado
<a name="sagemaker-hyperpod-model-deployment-ts-hf-token"></a>

**Sintomas:** o contêiner de inicialização falha `401 Unauthorized` ou `Access denied` erros. A cápsula entra`CrashLoopBackOff`.

**Causa raiz:**
+ O token da API Hugging Face no Kubernetes Secret é inválido, expirou ou foi revogado.
+ O token não tem acesso ao modelo fechado.

**Resolução:**

1. Gere um novo token no [huggingface. co/settings/tokens](https://huggingface.co/settings/tokens).

1. Para modelos fechados, certifique-se de ter aceitado o contrato de licença do modelo na página do modelo Hugging Face Hub.

1. Atualize o segredo do Kubernetes com o novo token:

   ```
   kubectl delete secret <secret-name> -n <namespace>
   kubectl create secret generic <secret-name> \
     --from-literal=token=hf_NEW_TOKEN_HERE \
     -n <namespace>
   ```

1. Exclua o pod com falha para acionar uma nova tentativa de download:

   ```
   kubectl delete pod -l app=<iec-name> -n <namespace>
   ```

## Falhas de conectividade de rede
<a name="sagemaker-hyperpod-model-deployment-ts-hf-network"></a>

**Sintomas:** O contêiner de inicialização falha com erros de tempo limite de conexão ou resolução de DNS. A cápsula entra`CrashLoopBackOff`.

**Causa raiz:** os nós do cluster não têm acesso de saída à Internet aos domínios (e) do Hugging Face. `*.huggingface.co` `*.hf.co` Isso é comum em sub-redes privadas sem um gateway NAT.

**Resolução:**

1. Verifique se sua VPC tem um gateway NAT configurado para as sub-redes privadas nas quais seus nós de cluster são executados.

1. Verifique se os grupos de segurança permitem tráfego HTTPS de saída (porta 443).

1. Verifique se as ACLs de rede permitem tráfego de saída para a Internet.

1. Teste a conectividade de dentro do cluster:

   ```
   kubectl run test-connectivity --image=curlimages/curl --rm -it --restart=Never -- \
     curl -sI https://huggingface.co
   ```

**nota**  
Se o acesso de saída à Internet não estiver disponível, considere usar o Amazon S3 ou o Amazon FSx como fonte do modelo. Primeiro, baixe o modelo para o Amazon S3 e, em seguida, implante usando o tipo de fonte do `s3` modelo.

## Modelo não encontrado
<a name="sagemaker-hyperpod-model-deployment-ts-hf-model-not-found"></a>

**Sintomas:** o contêiner de inicialização falha `Repository Not Found` ou `404` erros.

**Causa raiz:**
+ `modelId`Está incorreto ou o modelo não existe no Hugging Face Hub.
+ O modelo é privado e o token não tem acesso.

**Resolução:**

1. Verifique se o ID do modelo existe `https://huggingface.co/<org>/<model>` acessando seu navegador.

1. Certifique-se de que o `modelId` in your InferenceEndpointConfig esteja no `org/model` formato correto (por exemplo,`mistralai/Mistral-7B-Instruct-v0.3`).