Memproses beberapa prompt dengan inferensi batch

Dengan inferensi batch, Anda dapat mengirimkan beberapa prompt dan menghasilkan respons secara asinkron. Anda dapat memformat data input Anda dengan menggunakan format InvokeModel atau Converse API. Inferensi Batch membantu Anda memproses sejumlah besar permintaan secara efisien dengan mengirimkan satu permintaan dan menghasilkan respons dalam bucket Amazon S3. Setelah menentukan input model dalam file yang Anda buat, Anda mengunggah file ke bucket S3. Anda kemudian mengirimkan permintaan inferensi batch dan menentukan bucket S3. Setelah pekerjaan selesai, Anda dapat mengambil file output dari S3. Anda dapat menggunakan inferensi batch untuk meningkatkan kinerja inferensi model pada kumpulan data besar.

catatan

Inferensi Batch tidak didukung untuk model yang disediakan.

catatan

Inferensi Batch tidak mendukung pemanggilan alat (pemanggilan fungsi) atau output terstruktur (response_format). Setiap catatan dalam file JSONL input diproses secara independen tanpa interaksi multi-putaran, sehingga fitur yang memerlukan pertukaran bolak-balik antara model dan klien tidak tersedia.

Lihat sumber daya berikut untuk informasi umum tentang inferensi batch:

Untuk melihat harga inferensi batch, lihat harga Amazon Bedrock.
Untuk melihat kuota untuk inferensi batch, lihat titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS
Untuk menerima pemberitahuan saat pekerjaan inferensi batch selesai atau mengubah status alih-alih polling, lihat. Pantau perubahan status pekerjaan Amazon Bedrock menggunakan Amazon EventBridge

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Tingkat Cadangan, Standar, Prioritas, dan Flex

Daerah dan model yang Didukung