View a markdown version of this page

Kegagalan penerapan model Hugging Face Hub - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kegagalan penerapan model Hugging Face Hub

Ikhtisar: Saat menerapkan model dari Hugging Face Hub menggunakan tipe sumber huggingface model, penerapan mungkin gagal selama fase pengunduhan model. Bagian ini mencakup skenario kegagalan umum dan cara mendiagnosisnya menggunakan peristiwa Kubernetes dan log pod.

Mendiagnosis kegagalan penerapan Hugging Face

Langkah pemecahan masalah:

  1. Periksa InferenceEndpointConfig status dan peristiwa untuk detail kesalahan:

    kubectl describe inferenceendpointconfig <name> -n <namespace>

    Cari peristiwa dengan alasan HuggingFaceDownloadFailed dan DeploymentFailed kondisi dalam status, yang berisi pesan kesalahan tertentu.

  2. Jika kontainer init gagal (pod menunjukkan Init:CrashLoopBackOff atauInit:Error), periksa log kontainer init:

    kubectl logs <pod-name> -c hf-model-downloader -n <namespace>
  3. Periksa status pod untuk kode keluar kontainer init:

    kubectl get pod <pod-name> -n <namespace> -o jsonpath='{.status.initContainerStatuses[0].state}'

Token Hugging Face tidak valid atau kedaluwarsa

Gejala: Wadah Init gagal dengan 401 Unauthorized atau Access denied kesalahan. Pod masukCrashLoopBackOff.

Akar penyebab:

  • Token API Hugging Face di Kubernetes Secret tidak valid, kedaluwarsa, atau dicabut.

  • Token tidak memiliki akses ke model yang terjaga keamanannya.

Resolusi:

  1. Hasilkan token baru di huggingface. co/settings/token.

  2. Untuk model yang terjaga keamanannya, pastikan Anda telah menerima perjanjian lisensi model di halaman model Hugging Face Hub.

  3. Perbarui Rahasia Kubernetes dengan token baru:

    kubectl delete secret <secret-name> -n <namespace> kubectl create secret generic <secret-name> \ --from-literal=token=hf_NEW_TOKEN_HERE \ -n <namespace>
  4. Hapus pod yang gagal untuk memicu upaya unduhan baru:

    kubectl delete pod -l app=<iec-name> -n <namespace>

Kegagalan konektivitas jaringan

Gejala: Init container gagal dengan batas waktu koneksi atau kesalahan resolusi DNS. Pod masukCrashLoopBackOff.

Akar penyebab: Node cluster tidak memiliki akses internet keluar ke domain Hugging Face (dan). *.huggingface.co *.hf.co Ini biasa terjadi pada subnet pribadi tanpa gateway NAT.

Resolusi:

  1. Verifikasi bahwa VPC Anda memiliki gateway NAT yang dikonfigurasi untuk subnet pribadi tempat node cluster Anda berjalan.

  2. Verifikasi bahwa grup keamanan mengizinkan lalu lintas HTTPS (port 443) keluar.

  3. Verifikasi bahwa ACL jaringan memungkinkan lalu lintas keluar ke internet.

  4. Uji konektivitas dari dalam cluster:

    kubectl run test-connectivity --image=curlimages/curl --rm -it --restart=Never -- \ curl -sI https://huggingface.co
catatan

Jika akses internet keluar tidak tersedia, pertimbangkan untuk menggunakan Amazon S3 atau Amazon FSx sebagai sumber model. Unduh model ke Amazon S3 terlebih dahulu, lalu terapkan menggunakan tipe sumber s3 model.

Model tidak ditemukan

Gejala: Wadah Init gagal dengan Repository Not Found atau 404 kesalahan.

Akar penyebab:

  • Salah atau model tidak ada di Hugging Face Hub. modelId

  • Modelnya pribadi dan token tidak memiliki akses.

Resolusi:

  1. Verifikasi ID model ada dengan mengunjungi https://huggingface.co/<org>/<model> di browser Anda.

  2. Pastikan modelId dalam format Anda InferenceEndpointConfig dalam org/model format yang benar (misalnya,mistralai/Mistral-7B-Instruct-v0.3).