Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Inferensi Batuan Dasar Amazon
Setelah Anda melatih dan menguji model Amazon Nova Anda, Anda dapat menerapkannya ke Amazon Bedrock untuk inferensi skala produksi. Proses penerapan melibatkan pembuatan model Amazon Bedrock dengan CreateCustomModel API, mengekspor artefak model Anda ke sana dari bucket Amazon S3 terkelola, lalu setelah model AKTIF mengonfigurasi titik akhir dengan inferensi on-demand atau throughput yang disediakan.
Setelah membuat model kustom SageMaker, Anda dapat menggunakan CreateCustomModel API untuk menerapkannya ke Amazon Bedrock dari SageMaker escrow untuk menjalankan inferensi. Anda kemudian dapat menggunakan CreateCustomModelDeployment untuk membuat titik akhir inferensi OD atau menyiapkan inferensi throughput yang disediakan untuk model Parameter Efficient Fine Tuned (PEFT). Anda dapat menyiapkan inferensi throughput yang disediakan untuk model kustom Peringkat Penuh.
Anda juga dapat menggunakan Amazon Nova Forge SDK untuk menerapkan model Amazon Nova yang disesuaikan. Amazon Nova Forge SDK memberikan pengalaman yang efisien untuk mengekstraksi informasi yang relevan dari pekerjaan pelatihan atau pos pemeriksaan model S3 dan menerbitkannya ke Amazon Bedrock. Untuk informasi selengkapnya, lihat Amazon Nova Forge SDK.
Untuk langkah-langkah mendetail untuk menyiapkan inferensi Amazon Bedrock untuk model kustom, lihat Menerapkan model Amazon Nova yang disesuaikan ke Amazon Bedrock.
Bagian berikut memberikan detail lebih lanjut tentang Inferensi Sesuai Permintaan pada Model Kustom.
Inferensi sesuai permintaan pada Model Kustom
Inferensi sesuai permintaan (OD) memungkinkan Anda menjalankan inferensi pada model Amazon Nova kustom Anda tanpa mempertahankan titik akhir throughput yang disediakan. Ini membantu Anda mengoptimalkan biaya dan skala secara efisien. Dengan inferensi sesuai permintaan, Anda dikenakan biaya berdasarkan penggunaan, diukur dalam token, baik masuk maupun keluar.
Persyaratan kompatibilitas
Persyaratan kompatibilitas berikut berlaku:
-
Inferensi OD didukung untuk model pemahaman kustom Amazon Nova Pro, Lite dan Micro. Inferensi OD tidak didukung untuk model pembuatan konten kustom Nova.
-
Inferensi OD didukung untuk model pemahaman khusus Amazon Nova yang dilatih setelah 16 Juli 2025. Model khusus yang dilatih sebelum 16 Juli 2025 tidak kompatibel dengan inferensi OD.
-
Kustomisasi Amazon Bedrock: Inferensi OD didukung untuk model yang disesuaikan dengan kustomisasi Amazon Bedrock dan untuk model siswa yang disuling dari model guru dengan Amazon Bedrock.
-
SageMaker Kustomisasi AI: Untuk model yang disesuaikan dengan SageMaker AI, inferensi OD hanya didukung untuk model Parameter-efficient fine-tuned (PEFT) saat model di-host di Amazon Bedrock. Ini termasuk Optimasi Preferensi Langsung ditambah PEFT. Inferensi OD tidak didukung untuk model fine-tuned peringkat penuh.
Pelatihan model dan inferensi
Saat Anda melatih model Amazon Nova Pro, Lite, atau Micro kustom baru di Amazon Bedrock atau SageMaker AI menggunakan PEFT setelah 16 Juli 2025, model tersebut akan secara otomatis kompatibel dengan opsi inferensi yang disediakan dan sesuai permintaan. Anda dapat memilih metode inferensi pilihan Anda saat menerapkan model Anda.
Untuk menggunakan inferensi OD dengan model yang dilatih setelah 16 Juli 2025, selesaikan langkah-langkah berikut:
-
Buat pekerjaan fine-tuning baru dengan API kustomisasi Amazon Bedrock atau API kustomisasi AI. SageMaker
-
Terapkan model yang baru dilatih ke Amazon Bedrock menggunakan API. CreateCustomModel
-
Terapkan untuk inferensi sesuai permintaan menggunakan API. CustomModelDeployment
Batas tarif
Batas permintaan per menit (RPM) dan token per menit (TPM) berikut berlaku untuk permintaan inferensi sesuai permintaan:
| Model Dasar untuk Model Kustom | RPM untuk Penerapan Model Kustom | TPM untuk Penerapan Model Kustom |
|---|---|---|
| Nova 2 Lite | 2.000 | 4.000.000 |
Untuk mempelajari lebih lanjut tentang kuota yang tersedia untuk Amazon Nova, lihatKuota untuk Amazon Nova.
Latensi
Anda dapat mengharapkan perbedaan end-to-end latensi (yaitu, Time To First Token (TTFT)) 20-55% antara pemanggilan model dasar dan adaptor. Nilai latensi yang tepat bervariasi menurut ukuran model dan sejalan dengan standar industri.