Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kapasitas, Batas, dan Optimalisasi Biaya
Amazon Bedrock menawarkan opsi kapasitas fleksibel agar sesuai dengan persyaratan dan anggaran beban kerja Anda. Memahami perbedaan antara tingkatan sesuai permintaan (Flex, Priority, Standard), tingkat cadangan, pemrosesan batch, dan inferensi lintas wilayah membantu Anda mengoptimalkan kinerja dan biaya.
Opsi Kapasitas
| Jenis Kapasitas | Kasus Penggunaan | Karakteristik Utama |
|---|---|---|
| Sesuai Permintaan: Flex | Beban kerja sporadis dan volume rendah |
|
| Sesuai Permintaan: Standar | Beban kerja produksi reguler |
|
| Sesuai Permintaan: Prioritas | Prioritas tinggi, aplikasi sensitif latensi |
|
| Tingkat Cadangan | Beban kerja volume tinggi yang konsisten |
|
| Batch | Skala besar, non-time-sensitive pemrosesan |
|
| Inferensi Lintas Wilayah | Ketersediaan tinggi, lalu lintas meledak |
|
Batas & Kuota
Batas Atas Permintaan (berdasarkan tingkat)
| Tingkat | Rentang RPM | Rentang TPM | Risiko Pelambatan |
|---|---|---|---|
| Melenturkan | 10-100 | 5K-50K | Tinggi |
| Standar | 100-500 | 50K-150K | Sedang |
| Prioritas | 500-1000+ | 150K-300K+ | Rendah |
Kapasitas burst: Tersedia di semua tingkatan untuk paku pendek
Batas lunak: Dapat ditingkatkan melalui permintaan kuota layanan
Spesifik model: Batas aktual bervariasi menurut model pondasi
Batas Tingkat Cadangan
Komitmen minimum: 1 unit model
Unit maksimum: Akun dan spesifik wilayah
Batas token input/output: Berdasarkan unit yang dibeli
Tidak ada pelambatan RPM dalam kapasitas yang dibeli
Batas Pemrosesan Batch
Ukuran pekerjaan: Hingga 10.000 catatan per batch
Ukuran file: Maksimal 200 MB file masukan
Waktu pemrosesan: jendela penyelesaian 24 jam
Pekerjaan bersamaan: Kuota khusus wilayah
Inferensi Lintas Wilayah
Mewarisi batas tingkat sesuai permintaan per wilayah
Tidak ada tambahan kuota overhead
Perutean otomatis (tidak ada manajemen batas manual)
Pengoptimalan Biaya
Kerangka Keputusan
| Skenario | Opsi yang Direkomendasikan | Mengapa |
|---|---|---|
| Pengembangan/pengujian | Melenturkan | Biaya terendah, dapat diterima untuk non-produksi |
| Produksi standar | Standar | Keseimbangan biaya-kinerja terbaik |
| Aplikasi kritis yang dihadapi pengguna | Prioritas | Keandalan dan kinerja melebihi biaya |
| Beban volume tinggi yang stabil | Tingkat Cadangan | Penghematan 30-50% dengan komitmen |
| Pemrosesan data massal | Batch | 50% discount, beban kerja tidak mendesak |
| Waktu aktif yang kritis misi | Inferensi Lintas Wilayah | Ketersediaan> biaya |
Strategi Optimasi
Pilih Tingkat Sesuai Permintaan yang Tepat
Mulai dengan Standar untuk sebagian besar beban kerja
Turunkan versi ke Flex untuk lingkungan dev/test
Tingkatkan ke Prioritas hanya jika pembatasan berdampak pada pengguna
Pantau metrik CloudWatch throttle untuk menginformasikan keputusan
Transisi ke Tingkat Cadangan
Ketika beban konsisten melebihi 40% dari biaya sesuai permintaan
Hitung impas: (Biaya sesuai permintaan bulanan) vs (Komitmen cadangan)
Gunakan komitmen 1 bulan pada awalnya
Tingkat cadangan dapat bekerja bersama tingkat permintaan apa pun
Leverage Batch untuk
Melatih pembuatan data
Backlog moderasi konten
Pembuatan laporan
Pipa pengayaan data
Menggabungkan Pendekatan
Tingkat cadangan untuk lalu lintas dasar
Standar sesuai permintaan untuk ledakan moderat
Prioritas sesuai permintaan untuk periode puncak kritis
Batch untuk pemrosesan offline
Lintas wilayah hanya untuk failover
Pemantauan Biaya
Bandingkan biaya tingkat: Flex < Standar < Prioritas
Lacak token per permintaan (optimalkan permintaan)
Gunakan CloudWatch metrik untuk pemanfaatan dan pelambatan
Atur alarm penagihan untuk lonjakan tak terduga
Tinjau pemanfaatan tingkat cadangan setiap bulan
Evaluasi peningkatan tingkat hanya saat pelambatan terjadi