Kapasitas, Batas, dan Optimalisasi Biaya - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kapasitas, Batas, dan Optimalisasi Biaya

Amazon Bedrock menawarkan opsi kapasitas fleksibel agar sesuai dengan persyaratan dan anggaran beban kerja Anda. Memahami perbedaan antara tingkatan sesuai permintaan (Flex, Priority, Standard), tingkat cadangan, pemrosesan batch, dan inferensi lintas wilayah membantu Anda mengoptimalkan kinerja dan biaya.

Opsi Kapasitas

Jenis Kapasitas Kasus Penggunaan Karakteristik Utama
Sesuai Permintaan: Flex Beban kerja sporadis dan volume rendah
  • Biaya terendah per token

  • Ketersediaan upaya terbaik

  • Mungkin mengalami pelambatan

  • Tidak ada SLA

Sesuai Permintaan: Standar Beban kerja produksi reguler
  • Biaya dan kinerja yang seimbang

  • Jaminan throughput moderat

  • Standar SLA

  • Pilihan paling umum

Sesuai Permintaan: Prioritas Prioritas tinggi, aplikasi sensitif latensi
  • Biaya on-demand tertinggi

  • Alokasi throughput premium

  • SLA yang disempurnakan

  • Mengurangi risiko pelambatan

Tingkat Cadangan Beban kerja volume tinggi yang konsisten
  • Unit model yang dipesan

  • Kapasitas terjamin

  • Komitmen 1 atau 6 bulan

  • Kinerja yang dapat diprediksi

Batch Skala besar, non-time-sensitive pemrosesan
  • Penghematan biaya 50% vs sesuai permintaan

  • Jendela pemrosesan 24 jam

  • Ideal untuk inferensi massal

Inferensi Lintas Wilayah Ketersediaan tinggi, lalu lintas meledak
  • Failover otomatis

  • Rute ke daerah yang kurang sibuk

  • Uptime yang ditingkatkan

  • Menggunakan harga sesuai permintaan

Batas & Kuota

Batas Atas Permintaan (berdasarkan tingkat)

Tingkat Rentang RPM Rentang TPM Risiko Pelambatan
Melenturkan 10-100 5K-50K Tinggi
Standar 100-500 50K-150K Sedang
Prioritas 500-1000+ 150K-300K+ Rendah
  • Kapasitas burst: Tersedia di semua tingkatan untuk paku pendek

  • Batas lunak: Dapat ditingkatkan melalui permintaan kuota layanan

  • Spesifik model: Batas aktual bervariasi menurut model pondasi

Batas Tingkat Cadangan

  • Komitmen minimum: 1 unit model

  • Unit maksimum: Akun dan spesifik wilayah

  • Batas token input/output: Berdasarkan unit yang dibeli

  • Tidak ada pelambatan RPM dalam kapasitas yang dibeli

Batas Pemrosesan Batch

  • Ukuran pekerjaan: Hingga 10.000 catatan per batch

  • Ukuran file: Maksimal 200 MB file masukan

  • Waktu pemrosesan: jendela penyelesaian 24 jam

  • Pekerjaan bersamaan: Kuota khusus wilayah

Inferensi Lintas Wilayah

  • Mewarisi batas tingkat sesuai permintaan per wilayah

  • Tidak ada tambahan kuota overhead

  • Perutean otomatis (tidak ada manajemen batas manual)

Pengoptimalan Biaya

Kerangka Keputusan

Skenario Opsi yang Direkomendasikan Mengapa
Pengembangan/pengujian Melenturkan Biaya terendah, dapat diterima untuk non-produksi
Produksi standar Standar Keseimbangan biaya-kinerja terbaik
Aplikasi kritis yang dihadapi pengguna Prioritas Keandalan dan kinerja melebihi biaya
Beban volume tinggi yang stabil Tingkat Cadangan Penghematan 30-50% dengan komitmen
Pemrosesan data massal Batch 50% discount, beban kerja tidak mendesak
Waktu aktif yang kritis misi Inferensi Lintas Wilayah Ketersediaan> biaya

Strategi Optimasi

Pilih Tingkat Sesuai Permintaan yang Tepat

  • Mulai dengan Standar untuk sebagian besar beban kerja

  • Turunkan versi ke Flex untuk lingkungan dev/test

  • Tingkatkan ke Prioritas hanya jika pembatasan berdampak pada pengguna

  • Pantau metrik CloudWatch throttle untuk menginformasikan keputusan

Transisi ke Tingkat Cadangan

  • Ketika beban konsisten melebihi 40% dari biaya sesuai permintaan

  • Hitung impas: (Biaya sesuai permintaan bulanan) vs (Komitmen cadangan)

  • Gunakan komitmen 1 bulan pada awalnya

  • Tingkat cadangan dapat bekerja bersama tingkat permintaan apa pun

Leverage Batch untuk

  • Melatih pembuatan data

  • Backlog moderasi konten

  • Pembuatan laporan

  • Pipa pengayaan data

Menggabungkan Pendekatan

  • Tingkat cadangan untuk lalu lintas dasar

  • Standar sesuai permintaan untuk ledakan moderat

  • Prioritas sesuai permintaan untuk periode puncak kritis

  • Batch untuk pemrosesan offline

  • Lintas wilayah hanya untuk failover

Pemantauan Biaya

  • Bandingkan biaya tingkat: Flex < Standar < Prioritas

  • Lacak token per permintaan (optimalkan permintaan)

  • Gunakan CloudWatch metrik untuk pemanfaatan dan pelambatan

  • Atur alarm penagihan untuk lonjakan tak terduga

  • Tinjau pemanfaatan tingkat cadangan setiap bulan

  • Evaluasi peningkatan tingkat hanya saat pelambatan terjadi