Cara kerjanya Kasus penggunaan Harga Wilayah yang Didukung

Rekomendasi inferensi AI generatif yang dioptimalkan

Amazon SageMaker AI sekarang mendukung rekomendasi inferensi, kemampuan yang menghilangkan pengoptimalan manual dan benchmarking untuk memberikan kinerja inferensi yang optimal. Alih-alih menguji kombinasi jenis instans GPU secara manual, menyajikan kontainer, strategi paralelisme, dan teknik pengoptimalan, Anda memberikan persyaratan model dan beban kerja Anda, dan SageMaker AI mengembalikan konfigurasi siap penerapan yang divalidasi dengan metrik kinerja nyata.

Rekomendasi inferensi menganalisis arsitektur model Anda, mempersempit ruang konfigurasi, dan menerapkan pengoptimalan yang selaras dengan tujuan seperti decoding spekulatif untuk throughput dan penyetelan kernel untuk latensi. Dengan mengevaluasi beberapa jenis instans, Anda dapat memilih opsi berkinerja harga paling banyak untuk beban kerja Anda. Ini membandingkan setiap konfigurasi pada infrastruktur GPU nyata, sehingga Anda dapat menerapkan dengan percaya diri dan mengukur pengeluaran inferensi Anda dengan tepat.

Cara kerjanya

Memulai dengan rekomendasi inferensi sangat mudah, baik melalui SageMaker AI Studio atau AI API. SageMaker Langkah-langkah berikut menjelaskan alur kerja.

Siapkan model Anda. Arahkan ke artefak model di Amazon S3 atau AI Model SageMaker Registry. Rekomendasi inferensi mendukung format HuggingFace pos pemeriksaan dengan SafeTensor bobot, termasuk model dasar dan model khusus atau yang disetel dengan baik.
Tentukan beban kerja Anda. Jelaskan pola lalu lintas yang Anda harapkan, termasuk distribusi token input dan output serta tingkat konkurensi. Anda dapat menggunakan spesifikasi inline atau dataset representatif dari Amazon S3.
Tetapkan tujuan Anda. Pilih satu tujuan kinerja: optimalkan biaya, minimalkan latensi, atau maksimalkan throughput. Pilih hingga tiga jenis instance untuk dibandingkan.
Tinjau hasil. SageMaker AI mengembalikan konfigurasi yang divalidasi dengan metrik kinerja nyata: Token Time to First (TTFT), latensi antar-token, latensi permintaan pada P50/P90/P99, throughput, dan biaya per konfigurasi. Setiap konfigurasi siap penerapan.
Menyebarkan. Terapkan konfigurasi yang dipilih ke titik akhir inferensi SageMaker AI dengan satu tindakan dari SageMaker AI Studio, atau secara terprogram melalui API.

Anda juga dapat membandingkan titik akhir produksi yang ada untuk memvalidasi kinerja saat ini atau membandingkan dengan konfigurasi baru.

Kasus penggunaan

Berikut ini adalah kasus penggunaan umum untuk rekomendasi inferensi.

Pre-deployment validasi. Optimalkan dan benchmark model baru sebelum berkomitmen untuk penyebaran produksi. Validasi kinerja model sebelum Anda berinvestasi dalam penskalaannya.
Pengujian regresi setelah pembaruan. Validasi kinerja setelah pembaruan kontainer, peningkatan kerangka kerja, atau rilis pustaka penayangan. Konfirmasikan bahwa konfigurasi Anda masih optimal sebelum mendorong ke produksi.
Right-sizing ketika kondisi berubah. Ketika pola lalu lintas bergeser atau jenis instans baru tersedia, jalankan kembali rekomendasi inferensi dalam hitungan jam daripada memulai kembali proses manual selama seminggu.
Perbandingan model. Bandingkan kinerja dan biaya varian model yang berbeda di seluruh jenis instans untuk membuat pilihan berdasarkan informasi sebelum penerapan produksi.
Optimalisasi biaya. Benchmark titik akhir produksi yang ada untuk mengidentifikasi infrastruktur yang disediakan secara berlebihan. Gunakan hasil untuk ukuran yang tepat dan kurangi pengeluaran inferensi berulang.

Harga

Rekomendasi inferensi tidak memiliki biaya layanan tambahan. Anda dapat menggunakan Reservasi ML (Paket Pelatihan Fleksibel) yang ada tanpa biaya komputasi tambahan, atau menggunakan komputasi sesuai permintaan yang disediakan secara otomatis.

Wilayah yang Didukung

Rekomendasi inferensi tersedia di AWS Wilayah berikut:

Timur AS (N. Virginia)
AS Timur (Ohio)
AS Barat (Oregon)
Asia Pasifik (Singapura)
Asia Pasifik (Tokyo)
Eropa (Frankfurt)
Eropa (Irlandia)

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Optimalisasi inferensi

Siapkan konfigurasi beban kerja