Inferensi Batuan Dasar Amazon

Setelah Anda melatih dan menguji model Amazon Nova Anda, Anda dapat menerapkannya ke Amazon Bedrock untuk inferensi skala produksi. Proses penerapan melibatkan pembuatan model Amazon Bedrock dengan CreateCustomModel API, mengekspor artefak model Anda ke sana dari bucket Amazon S3 terkelola, lalu setelah model AKTIF mengonfigurasi titik akhir dengan inferensi on-demand atau throughput yang disediakan.

Setelah membuat model kustom SageMaker, Anda dapat menggunakan CreateCustomModel API untuk menerapkannya ke Amazon Bedrock dari SageMaker escrow untuk menjalankan inferensi. Anda kemudian dapat menggunakan CreateCustomModelDeployment untuk membuat titik akhir inferensi OD atau menyiapkan inferensi throughput yang disediakan untuk model Parameter Efficient Fine Tuned (PEFT). Anda dapat menyiapkan inferensi throughput yang disediakan untuk model kustom Peringkat Penuh.

Anda juga dapat menggunakan Amazon Nova Forge SDK untuk menerapkan model Amazon Nova yang disesuaikan. Amazon Nova Forge SDK memberikan pengalaman yang efisien untuk mengekstraksi informasi yang relevan dari pekerjaan pelatihan atau pos pemeriksaan model S3 dan menerbitkannya ke Amazon Bedrock. Untuk informasi selengkapnya, lihat Amazon Nova Forge SDK.

Untuk langkah-langkah mendetail untuk menyiapkan inferensi Amazon Bedrock untuk model kustom, lihat Menerapkan model Amazon Nova yang disesuaikan ke Amazon Bedrock.

Bagian berikut memberikan detail lebih lanjut tentang On-Demand Inferensi pada Model Kustom.

On-demand inferensi pada Model Kustom

On-demand Inferensi (OD) memungkinkan Anda menjalankan inferensi pada model Amazon Nova kustom Anda tanpa mempertahankan titik akhir throughput yang disediakan. Ini membantu Anda mengoptimalkan biaya dan menskalakan secara efisien. Dengan On-demand inferensi, Anda dikenakan biaya berdasarkan penggunaan, diukur dalam token, baik masuk maupun keluar.

Persyaratan kompatibilitas

Persyaratan kompatibilitas berikut berlaku:

Inferensi OD didukung untuk model pemahaman kustom Amazon Nova Pro, Lite dan Micro. Inferensi OD tidak didukung untuk model pembuatan konten kustom Nova.
Inferensi OD didukung untuk model pemahaman khusus Amazon Nova yang dilatih setelah 16 Juli 2025. Model khusus yang dilatih sebelum 16 Juli 2025 tidak kompatibel dengan inferensi OD.
Kustomisasi Amazon Bedrock: Inferensi OD didukung untuk model yang disesuaikan dengan kustomisasi Amazon Bedrock dan untuk model siswa yang disuling dari model guru dengan Amazon Bedrock.
SageMaker Kustomisasi AI: Untuk model yang disesuaikan dengan SageMaker AI, inferensi OD hanya didukung untuk model Parameter-efficient fine-tuned (PEFT) saat model di-host di Amazon Bedrock. Ini termasuk Optimasi Preferensi Langsung ditambah PEFT. Inferensi OD tidak didukung untuk model yang Full-rank disetel dengan baik.

Pelatihan model dan inferensi

Saat Anda melatih model Amazon Nova Pro, Lite, atau Micro kustom baru di Amazon Bedrock atau SageMaker AI menggunakan PEFT setelah 16 Juli 2025, model tersebut akan secara otomatis kompatibel dengan opsi inferensi yang disediakan dan sesuai permintaan. Anda dapat memilih metode inferensi pilihan Anda saat menerapkan model Anda.

Untuk menggunakan inferensi OD dengan model yang dilatih setelah 16 Juli 2025, selesaikan langkah-langkah berikut:

Buat pekerjaan fine-tuning baru dengan API kustomisasi Amazon Bedrock atau API kustomisasi AI. SageMaker
Terapkan model yang baru dilatih ke Amazon Bedrock menggunakan API. CreateCustomModel
Terapkan untuk inferensi sesuai permintaan menggunakan API. CustomModelDeployment

Batas tarif

Batas permintaan per menit (RPM) dan token per menit (TPM) berikut berlaku untuk permintaan inferensi sesuai permintaan:

Model Dasar untuk Model Kustom	RPM untuk Penerapan Model Kustom	TPM untuk Penerapan Model Kustom
Nova 2 Lite	2.000	4.000.000

Untuk mempelajari lebih lanjut tentang kuota yang tersedia untuk Amazon Nova, lihatKuota untuk Amazon Nova.

Latensi

Anda dapat mengharapkan perbedaan latensi end-to-end (yaitu, Time To First Token (TTFT)) sebesar 20-55% antara pemanggilan model dasar dan adaptor. Nilai latensi yang tepat bervariasi menurut ukuran model dan sejalan dengan standar industri.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Deteksi penyalahgunaan untuk Amazon Nova Forge

Menerapkan model khusus untuk inferensi sesuai permintaan