Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kuota layanan dan pelambatan
Asisten menggunakan inferensi sesuai permintaan, yang tunduk pada kuota layanan akun Anda. Dua kendala utama adalah:
-
Permintaan per menit (RPM) — Jumlah permintaan pemanggilan model yang diizinkan per menit.
-
Token per menit (TPM) — Jumlah total token input dan output yang diproses per menit.
Kuota default bervariasi menurut Wilayah. Beberapa Wilayah memiliki batas default yang lebih rendah (serendah 20 RPM), yang dapat mengakibatkan pelambatan selama penggunaan asisten berat.
Meminta peningkatan kuota
Jika Anda mengalami kesalahan pembatasan saat menggunakan asisten, Anda dapat meminta peningkatan kuota layanan:
Meminta untuk penambahan Kuota
-
Buka Konsol Service Quotas
. -
Di panel navigasi, pilih AWS layanan, lalu pilih.
-
Temukan kuota untuk model yang digunakan oleh asisten (cari kuota yang terkait
InvokeModelWithResponseStreamdengan model yang relevan). -
Pilih nama kuota, lalu pilih Permintaan kenaikan di level akun.
-
Masukkan nilai kuota yang Anda inginkan dan kirimkan permintaan.
Untuk informasi selengkapnya, lihat Meminta peningkatan kuota di Panduan Pengguna Service Quotas.
catatan
Jika Wilayah Anda menggunakan inferensi lintas wilayah, kuota layanan di Wilayah tujuan juga berlaku. Cross-region profil inferensi mendukung minimal 200 RPM, yang dapat membantu mengurangi pelambatan di Wilayah dengan batas wilayah Tunggal yang lebih rendah.
Pemantauan penggunaan kuota
Anda dapat memantau penggunaan kuota Anda melalui CloudWatch metrik. Siapkan CloudWatch alarm pada metrik pelambatan untuk mengidentifikasi secara proaktif saat Anda mendekati batas kuota. Untuk informasi selengkapnya, lihat Memantau di Panduan Pengguna .