Meminta peningkatan kuota Pemantauan penggunaan kuota

Kuota layanan dan pelambatan

Asisten menggunakan inferensi sesuai permintaan, yang tunduk pada kuota layanan akun Anda. Dua kendala utama adalah:

Permintaan per menit (RPM) — Jumlah permintaan pemanggilan model yang diizinkan per menit.
Token per menit (TPM) — Jumlah total token input dan output yang diproses per menit.

Kuota default bervariasi menurut Wilayah. Beberapa Wilayah memiliki batas default yang lebih rendah (serendah 20 RPM), yang dapat mengakibatkan pelambatan selama penggunaan asisten berat.

Meminta peningkatan kuota

Jika Anda mengalami kesalahan pembatasan saat menggunakan asisten, Anda dapat meminta peningkatan kuota layanan:

Meminta untuk penambahan Kuota

Buka Konsol Service Quotas.
Di panel navigasi, pilih AWS layanan, lalu pilih.
Temukan kuota untuk model yang digunakan oleh asisten (cari kuota yang terkait InvokeModelWithResponseStream dengan model yang relevan).
Pilih nama kuota, lalu pilih Permintaan kenaikan di level akun.
Masukkan nilai kuota yang Anda inginkan dan kirimkan permintaan.

Untuk informasi selengkapnya, lihat Meminta peningkatan kuota di Panduan Pengguna Service Quotas.

catatan

Jika Wilayah Anda menggunakan inferensi lintas wilayah, kuota layanan di Wilayah tujuan juga berlaku. Cross-region profil inferensi mendukung minimal 200 RPM, yang dapat membantu mengurangi pelambatan di Wilayah dengan batas wilayah Tunggal yang lebih rendah.

Pemantauan penggunaan kuota

Anda dapat memantau penggunaan kuota Anda melalui CloudWatch metrik. Siapkan CloudWatch alarm pada metrik pelambatan untuk mengidentifikasi secara proaktif saat Anda mendekati batas kuota. Untuk informasi selengkapnya, lihat Memantau di Panduan Pengguna .

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Biaya

Pemecahan masalah