

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Kapasitas dan Kinerja
<a name="capacity-limits-cost-optimization"></a>

Amazon Bedrock menawarkan opsi kapasitas fleksibel agar sesuai dengan persyaratan dan anggaran beban kerja Anda. Memahami perbedaan antara tingkatan sesuai permintaan (Flex, Priority, Standard), tingkat cadangan, pemrosesan batch, dan inferensi lintas wilayah membantu Anda mengoptimalkan kinerja dan biaya.

## Opsi Kapasitas
<a name="capacity-options"></a>


| Jenis Kapasitas | Kasus Penggunaan | Karakteristik Utama | 
| --- | --- | --- | 
| On-Demand: Fleksibel | Beban kerja sporadis dan volume rendah |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| On-Demand: Standar | Beban kerja produksi reguler |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| On-Demand: Prioritas | High-priority, aplikasi yang sensitif terhadap latensi |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Tingkat Cadangan | Beban kerja volume tinggi yang konsisten |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Batch | Large-scale, pemrosesan yang tidak sensitif terhadap waktu |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Cross-Region Inferensi | Ketersediaan tinggi, lalu lintas meledak |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 

## Batas &amp; Kuota
<a name="limits-quotas"></a>

### On-Demand Batas (berdasarkan tingkat)
<a name="on-demand-limits"></a>


| Tingkat | Rentang RPM | Rentang TPM | Risiko Pelambatan | 
| --- | --- | --- | --- | 
| Melenturkan | 10-100 | 5 K-50K | Tinggi | 
| Standar | 100-500 | 50 K-150K | Sedang | 
| Prioritas | 500-1000\+ | 150 K-300K \+ | Rendah | 
+ Kapasitas burst: Tersedia di semua tingkatan untuk paku pendek
+ Batas lunak: Dapat ditingkatkan melalui permintaan kuota layanan
+ Model-specific: Batas aktual bervariasi menurut model pondasi

### Batas Tingkat Cadangan
<a name="reserved-tier-limits"></a>
+ Komitmen minimum: 1 unit model
+ Unit maksimum: Akun dan spesifik wilayah
+ Input/output batas token: Berdasarkan unit yang dibeli
+ Tidak ada pelambatan RPM dalam kapasitas yang dibeli

### Batas Pemrosesan Batch
<a name="batch-processing-limits"></a>
+ Ukuran pekerjaan: Hingga 10.000 catatan per batch
+ Ukuran file: Maksimal 200 MB file masukan
+ Waktu pemrosesan: jendela penyelesaian 24 jam
+ Pekerjaan bersamaan: Region-specific kuota

### Cross-Region Inferensi
<a name="cross-region-inference-limits"></a>
+ Mewarisi batas tingkat sesuai permintaan per wilayah
+ Tidak ada tambahan kuota overhead
+ Perutean otomatis (tidak ada manajemen batas manual)

## Memilih Tier
<a name="cost-optimization"></a>

### Kerangka Keputusan
<a name="decision-framework"></a>


| Skenario | Opsi yang Direkomendasikan | Mengapa | 
| --- | --- | --- | 
| Development/testing | Melenturkan | Biaya terendah, dapat diterima untuk non-produksi | 
| Produksi standar | Standar | Keseimbangan biaya-kinerja terbaik | 
| Aplikasi kritis yang dihadapi pengguna | Prioritas | Keandalan dan kinerja melebihi biaya | 
| Beban volume tinggi yang stabil | Tingkat Cadangan | Penghematan 30-50% dengan komitmen | 
| Pemrosesan data massal | Batch | 50% discount, beban kerja tidak mendesak | 
| Mission-critical uptime | Cross-Region Inferensi | Ketersediaan> biaya | 

### Strategi Optimasi
<a name="optimization-strategies"></a>

**Pilih On-Demand Tier yang Tepat**
+ Mulai dengan Standar untuk sebagian besar beban kerja
+ Turunkan versi ke Flex untuk lingkungan dev/test 
+ Tingkatkan ke Prioritas hanya jika pembatasan berdampak pada pengguna
+ Pantau metrik CloudWatch throttle untuk menginformasikan keputusan

**Transisi ke Tingkat Cadangan**
+ Ketika beban konsisten melebihi 40% dari biaya sesuai permintaan
+ Hitung impas: (Biaya sesuai permintaan bulanan) vs (Komitmen cadangan)
+ Gunakan komitmen 1 bulan pada awalnya
+ Tingkat cadangan dapat bekerja bersama tingkat sesuai permintaan apa pun

**Gunakan Batch untuk**
+ Melatih pembuatan data
+ Backlog moderasi konten
+ Pembuatan laporan
+ Pipa pengayaan data

**Menggabungkan Pendekatan**
+ Tingkat cadangan untuk lalu lintas dasar
+ Standar sesuai permintaan untuk ledakan moderat
+ Prioritas sesuai permintaan untuk periode puncak kritis
+ Batch untuk pemrosesan offline
+ Cross-region hanya untuk failover

**Pemantauan Biaya**
+ Bandingkan biaya tingkat: Flex < Standar < Prioritas
+ Lacak token per permintaan (optimalkan permintaan)
+ Gunakan CloudWatch metrik untuk digunakan dan pelambatan
+ Atur alarm penagihan untuk lonjakan tak terduga
+ Tinjau penggunaan tingkat cadangan setiap bulan
+ Evaluasi peningkatan tingkat hanya saat pelambatan terjadi