Opsi Kapasitas Batas & Kuota Memilih Tier

Kapasitas dan Kinerja

Amazon Bedrock menawarkan opsi kapasitas fleksibel agar sesuai dengan persyaratan dan anggaran beban kerja Anda. Memahami perbedaan antara tingkatan sesuai permintaan (Flex, Priority, Standard), tingkat cadangan, pemrosesan batch, dan inferensi lintas wilayah membantu Anda mengoptimalkan kinerja dan biaya.

Opsi Kapasitas

Jenis Kapasitas	Kasus Penggunaan	Karakteristik Utama
On-Demand: Fleksibel	Beban kerja sporadis dan volume rendah	Biaya terendah per token Best-effort ketersediaan Mungkin mengalami pelambatan Tidak ada SLA
On-Demand: Standar	Beban kerja produksi reguler	Biaya dan kinerja yang seimbang Jaminan throughput moderat Standar SLA Pilihan paling umum
On-Demand: Prioritas	High-priority, aplikasi yang sensitif terhadap latensi	Biaya on-demand tertinggi Alokasi throughput premium SLA yang disempurnakan Mengurangi risiko pelambatan
Tingkat Cadangan	Beban kerja volume tinggi yang konsisten	Unit model yang dipesan Kapasitas terjamin Komitmen 1 atau 3 bulan Kinerja yang dapat diprediksi
Batch	Large-scale, pemrosesan yang tidak sensitif terhadap waktu	Penghematan biaya 50% vs sesuai permintaan Jendela pemrosesan 24 jam Ideal untuk inferensi massal
Cross-Region Inferensi	Ketersediaan tinggi, lalu lintas meledak	Failover otomatis Rute ke daerah yang kurang sibuk Uptime yang ditingkatkan Menggunakan harga sesuai permintaan

Batas & Kuota

On-Demand Batas (berdasarkan tingkat)

Tingkat	Rentang RPM	Rentang TPM	Risiko Pelambatan
Melenturkan	10-100	5 K-50K	Tinggi
Standar	100-500	50 K-150K	Sedang
Prioritas	500-1000+	150 K-300K +	Rendah

Kapasitas burst: Tersedia di semua tingkatan untuk paku pendek
Batas lunak: Dapat ditingkatkan melalui permintaan kuota layanan
Model-specific: Batas aktual bervariasi menurut model pondasi

Batas Tingkat Cadangan

Komitmen minimum: 1 unit model
Unit maksimum: Akun dan spesifik wilayah
Input/output batas token: Berdasarkan unit yang dibeli
Tidak ada pelambatan RPM dalam kapasitas yang dibeli

Batas Pemrosesan Batch

Ukuran pekerjaan: Hingga 10.000 catatan per batch
Ukuran file: Maksimal 200 MB file masukan
Waktu pemrosesan: jendela penyelesaian 24 jam
Pekerjaan bersamaan: Region-specific kuota

Cross-Region Inferensi

Mewarisi batas tingkat sesuai permintaan per wilayah
Tidak ada tambahan kuota overhead
Perutean otomatis (tidak ada manajemen batas manual)

Memilih Tier

Kerangka Keputusan

Skenario	Opsi yang Direkomendasikan	Mengapa
Development/testing	Melenturkan	Biaya terendah, dapat diterima untuk non-produksi
Produksi standar	Standar	Keseimbangan biaya-kinerja terbaik
Aplikasi kritis yang dihadapi pengguna	Prioritas	Keandalan dan kinerja melebihi biaya
Beban volume tinggi yang stabil	Tingkat Cadangan	Penghematan 30-50% dengan komitmen
Pemrosesan data massal	Batch	50% discount, beban kerja tidak mendesak
Mission-critical uptime	Cross-Region Inferensi	Ketersediaan> biaya

Strategi Optimasi

Pilih On-Demand Tier yang Tepat

Mulai dengan Standar untuk sebagian besar beban kerja
Turunkan versi ke Flex untuk lingkungan dev/test
Tingkatkan ke Prioritas hanya jika pembatasan berdampak pada pengguna
Pantau metrik CloudWatch throttle untuk menginformasikan keputusan

Transisi ke Tingkat Cadangan

Ketika beban konsisten melebihi 40% dari biaya sesuai permintaan
Hitung impas: (Biaya sesuai permintaan bulanan) vs (Komitmen cadangan)
Gunakan komitmen 1 bulan pada awalnya
Tingkat cadangan dapat bekerja bersama tingkat sesuai permintaan apa pun

Gunakan Batch untuk

Melatih pembuatan data
Backlog moderasi konten
Pembuatan laporan
Pipa pengayaan data

Menggabungkan Pendekatan

Tingkat cadangan untuk lalu lintas dasar
Standar sesuai permintaan untuk ledakan moderat
Prioritas sesuai permintaan untuk periode puncak kritis
Batch untuk pemrosesan offline
Cross-region hanya untuk failover

Pemantauan Biaya

Bandingkan biaya tingkat: Flex < Standar < Prioritas
Lacak token per permintaan (optimalkan permintaan)
Gunakan CloudWatch metrik untuk digunakan dan pelambatan
Atur alarm penagihan untuk lonjakan tak terduga
Tinjau penggunaan tingkat cadangan setiap bulan
Evaluasi peningkatan tingkat hanya saat pelambatan terjadi

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mengelola Proyek dengan AWS CloudFormation

Tingkat Cadangan, Standar, Prioritas, dan Flex