View a markdown version of this page

Mempercepat pengembangan AI generatif menggunakan MLFlow terkelola di Amazon AI SageMaker - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mempercepat pengembangan AI generatif menggunakan MLFlow terkelola di Amazon AI SageMaker

MLFlow yang dikelola sepenuhnya di Amazon SageMaker AI memungkinkan Anda mempercepat AI generatif dengan mempermudah melacak eksperimen dan memantau kinerja model dan aplikasi AI menggunakan satu alat.

Pengembangan AI generatif dengan MLFlow

Ketika pelanggan di seluruh industri mempercepat pengembangan AI generatif mereka, mereka membutuhkan kemampuan untuk melacak eksperimen, mengamati perilaku, dan mengevaluasi kinerja model dan aplikasi AI. Ilmuwan dan pengembang data kekurangan alat untuk menganalisis kinerja model dan aplikasi AI dari eksperimen hingga produksi, sehingga sulit untuk mengakar penyebab dan menyelesaikan masalah. Tim menghabiskan lebih banyak waktu untuk mengintegrasikan alat daripada meningkatkan model atau aplikasi AI generatif mereka.

Pelatihan atau penyempurnaan AI generatif dan pembelajaran mesin adalah proses berulang yang memerlukan eksperimen dengan berbagai kombinasi data, algoritma, dan parameter, sambil mengamati dampaknya pada akurasi model. Sifat eksperimen berulang menghasilkan banyak proses dan versi pelatihan model, sehingga menantang untuk melacak model berkinerja terbaik dan konfigurasinya. Kompleksitas mengelola dan membandingkan pelatihan berulang meningkat dengan GenAI, di mana eksperimen tidak hanya melibatkan model fine-tuning tetapi juga mengeksplorasi output yang kreatif dan beragam. Peneliti harus menyesuaikan hiperparameter, memilih arsitektur model yang sesuai, dan mengkurasi kumpulan data yang beragam untuk mengoptimalkan kualitas dan kreativitas konten yang dihasilkan. Mengevaluasi model AI generatif membutuhkan metrik kuantitatif dan kualitatif, menambahkan lapisan kompleksitas lain ke proses eksperimen. Kemampuan pelacakan eksperimen di MLFlow di Amazon SageMaker AI memungkinkan Anda melacak, mengatur, melihat, menganalisis, dan membandingkan eksperimen MLFlow berulang untuk mendapatkan wawasan komparatif serta mendaftarkan serta menerapkan model berkinerja terbaik Anda.

Menelusuri kemampuan dalam MLFlow yang dikelola sepenuhnya memungkinkan Anda merekam input, output, dan metadata di setiap langkah aplikasi AI generatif, membantu Anda mengidentifikasi sumber bug atau perilaku tak terduga dengan cepat. Dengan memelihara catatan setiap model dan versi aplikasi, MLFlow yang dikelola sepenuhnya menawarkan keterlacakan untuk menghubungkan respons AI ke komponen sumbernya, memungkinkan Anda untuk dengan cepat melacak masalah langsung ke kode, data, atau parameter tertentu yang menghasilkannya. Ini secara dramatis mengurangi waktu pemecahan masalah dan memungkinkan tim untuk lebih fokus pada inovasi.

Integrasi MLFlow

Gunakan MLFlow saat melatih dan mengevaluasi model untuk menemukan kandidat terbaik untuk kasus penggunaan Anda. Anda dapat membandingkan kinerja model, parameter, dan metrik di seluruh eksperimen di UI MLFlow, melacak model terbaik Anda di Registri Model MLFlow, mendaftarkannya secara otomatis sebagai model SageMaker AI, dan menerapkan model terdaftar ke titik akhir AI. SageMaker

Amazon SageMaker AI dengan MLFlow

Gunakan MLFlow untuk melacak dan mengelola fase eksperimen siklus hidup pembelajaran mesin (ML) dengan AWS integrasi untuk pengembangan model, manajemen, penerapan, dan pelacakan.

SageMaker Studio Amazon

Buat dan kelola pelacakan server, jalankan buku catatan untuk membuat eksperimen, dan akses UI MLFlow untuk melihat dan membandingkan eksperimen yang dijalankan di seluruh Studio.

SageMaker Registri Model

Kelola versi model dan model katalog untuk produksi dengan mendaftarkan model secara otomatis dari MLFlow Model Registry ke SageMaker Model Registry. Untuk informasi selengkapnya, lihat Secara otomatis mendaftarkan model SageMaker AI dengan SageMaker Model Registry.

SageMaker Inferensi AI

Siapkan model terbaik Anda untuk penerapan pada titik akhir SageMaker AI menggunakan. ModelBuilder Untuk informasi selengkapnya, lihat Terapkan model MLFlow dengan ModelBuilder.

AWS Identity and Access Management

Konfigurasikan akses ke MLFlow menggunakan kontrol akses berbasis peran (RBAC) dengan IAM. Tulis kebijakan identitas IAM untuk mengotorisasi API MLFlow yang dapat dipanggil oleh klien server pelacakan MLFlow. Semua MLFlow REST API direpresentasikan sebagai tindakan IAM di bawah awalan sagemaker-mlflow layanan. Untuk informasi selengkapnya, lihat Menyiapkan izin IAM untuk MLFlow.

AWS CloudTrail

Lihat log in AWS CloudTrail untuk membantu Anda mengaktifkan audit operasional dan risiko, tata kelola, dan kepatuhan akun Anda AWS . Untuk informasi selengkapnya, lihat AWS CloudTrail log.

Amazon EventBridge

Otomatiskan siklus hidup peninjauan dan penerapan model menggunakan peristiwa MLFlow yang ditangkap oleh Amazon. EventBridge Untuk informasi selengkapnya, lihat EventBridge Acara Amazon.

Didukung Region AWS

Server Pelacakan MLFlow

MLFlow Tracking Server umumnya tersedia di semua Wilayah AWS komersial di mana Amazon SageMaker Studio tersedia, kecuali Wilayah Tiongkok. MLFlow Tracking Server hanya tersedia menggunakan Wilayah Eropa (Zurich), Wilayah Asia Pasifik (Hyderabad), Wilayah Asia Pasifik (Melbourne), dan Wilayah Kanada Barat (Calgary). AWS CLI

Pelacakan server diluncurkan dalam satu zona ketersediaan dalam Wilayah yang ditentukan.

Aplikasi MLFlow

Aplikasi MLFlow tersedia dalam hal berikut: Region AWS

  • Wilayah AS Timur (N. Virginia)

  • Wilayah US East (Ohio)

  • Wilayah US West (N California)

  • Wilayah US West (Oregon)

  • Wilayah Asia Pacific (Mumbai)

  • Wilayah Asia Pasifik (Seoul)

  • Wilayah Asia Pasifik (Singapura)

  • Wilayah Asia Pasifik (Sydney)

  • Wilayah Asia Pasifik (Tokyo)

  • Wilayah Kanada (Pusat)

  • Wilayah Eropa (Frankfurt)

  • Wilayah Eropa (Irlandia)

  • Wilayah Eropa (London)

  • Wilayah Eropa (Paris)

  • Wilayah Eropa (Stockholm)

  • Wilayah Amerika Selatan (Sao Paulo)

Cara kerjanya

MLFlow Tracking Server memiliki tiga komponen utama: komputasi, penyimpanan metadata backend, dan penyimpanan artefak. Komputasi yang menghosting server pelacak dan penyimpanan metadata backend di-host dengan aman di akun layanan AI. SageMaker Penyimpanan artefak hidup dalam ember Amazon S3 di akun Anda sendiri AWS .

Diagram yang menunjukkan penyimpanan komputasi dan metadata untuk MLFlow Tracking Server.

Server pelacak memiliki ARN. Anda dapat menggunakan ARN ini untuk menghubungkan SDK MLFlow ke Server Pelacakan dan mulai mencatat proses latihan Anda ke MLFlow.

Baca terus untuk informasi lebih lanjut tentang konsep-konsep kunci berikut:

Penyimpanan metadata backend

Saat Anda membuat MLFlow Tracking Server, backend store, yang menyimpan berbagai metadata untuk setiap Run, seperti run ID, waktu mulai dan berakhir, parameter, dan metrik, secara otomatis dikonfigurasi dalam akun layanan SageMaker AI dan dikelola sepenuhnya untuk Anda.

Penyimpanan artifak

Untuk menyediakan MLFlow penyimpanan persisten untuk metadata untuk setiap proses, seperti bobot model, gambar, file model, dan file data untuk eksperimen yang dijalankan, Anda harus membuat penyimpanan artefak menggunakan Amazon S3. Toko artefak harus diatur dalam AWS akun Anda dan Anda harus secara eksplisit memberikan akses MLFlow ke Amazon S3 untuk mengakses toko artefak Anda. Untuk informasi selengkapnya, lihat Toko Artifact dalam dokumentasi MLFlow.

catatan

SageMaker AI MLFlow memiliki batas ukuran unduhan 200 MB.

Versi aplikasi MLFlow

Versi MLFlow berikut tersedia untuk digunakan dengan SageMaker AI MLFlow Apps:

Versi MLFlow Versi Python
MLFlow 3.10 (versi terbaru) Python 3.10 atau yang lebih baru

Versi terbaru Aplikasi MLFlow memiliki fitur terbaru, patch keamanan, dan perbaikan bug. Saat Anda membuat Aplikasi MLFlow baru, aplikasi ini akan diperbarui secara otomatis ke versi terbaru yang didukung. Untuk informasi selengkapnya tentang membuat Aplikasi MLFlow, lihatPengaturan Aplikasi MLFlow.

Aplikasi MLFlow menggunakan versi semantik. Versi dalam format berikut:major-version.minor-version.patch-version.

Ukuran Server Pelacakan MLFlow

Anda dapat secara opsional menentukan ukuran server pelacakan Anda di UI Studio atau dengan AWS CLI parameter--tracking-server-size. Anda dapat memilih antara"Small","Medium", dan"Large". Ukuran konfigurasi server pelacakan MLFlow default adalah"Small". Anda dapat memilih ukuran tergantung pada proyeksi penggunaan server pelacak seperti volume data yang dicatat, jumlah pengguna, dan frekuensi penggunaan.

Kami merekomendasikan menggunakan server pelacak kecil untuk tim hingga 25 pengguna, server pelacak menengah untuk tim hingga 50 pengguna, dan server pelacak besar untuk tim hingga 100 pengguna. Kami berasumsi bahwa semua pengguna akan membuat permintaan bersamaan ke MLFlow Tracking Server Anda untuk membuat rekomendasi ini. Anda harus memilih ukuran server pelacak berdasarkan pola penggunaan yang diharapkan dan TPS (Transaksi Per Detik) yang didukung oleh setiap server pelacak.

catatan

Sifat beban kerja Anda dan jenis permintaan yang Anda buat ke server pelacakan menentukan TPS yang Anda lihat.

Melacak ukuran server TPS berkelanjutan TPS meledak
Kecil Hingga 25 Hingga 50
Sedang Hingga 50 Hingga 100
Besar Hingga 100 Hingga 200

Melacak versi server

Versi MLFlow berikut tersedia untuk digunakan dengan SageMaker AI:

Versi MLFlow Versi Python
MLFlow 3.0 (versi terbaru) Python 3.9 atau yang lebih baru
MLFlow 2.16 Python 3.8 atau yang lebih baru
MLFlow 2.13 Python 3.8 atau yang lebih baru

Versi terbaru dari server pelacakan memiliki fitur terbaru, patch keamanan, dan perbaikan bug. Saat Anda membuat server pelacak baru, sebaiknya gunakan versi terbaru. Untuk informasi selengkapnya tentang membuat server pelacak, lihatServer Pelacakan MLFlow.

Server pelacakan MLFlow menggunakan versi semantik. Versi dalam format berikut:major-version.minor-version.patch-version.

Fitur terbaru, seperti elemen UI baru dan fungsionalitas API, ada dalam versi minor.

AWS CloudTrail log

AWS CloudTrail secara otomatis mencatat aktivitas yang terkait dengan MLFlow Tracking Server Anda. Panggilan API bidang kontrol berikut dicatat CloudTrail:

  • CreateMlflowTrackingServer

  • DescribeMlflowTrackingServer

  • UpdateMlflowTrackingServer

  • DeleteMlflowTrackingServer

  • ListMlflowTrackingServers

  • CreatePresignedMlflowTrackingServer

  • StartMlflowTrackingServer

  • StopMlflowTrackingServer

AWS CloudTrail juga secara otomatis mencatat aktivitas yang terkait dengan pesawat data MLFlow Anda. Panggilan API bidang data berikut masuk CloudTrail. Untuk nama acara, tambahkan awalan Mlflow (misalnya,MlflowCreateExperiment).

  • CreateExperiment

  • CreateModelVersion

  • CreateRegisteredModel

  • CreateRun

  • DeleteExperiment

  • DeleteModelVersion

  • DeleteModelVersionTag

  • DeleteRegisteredModel

  • DeleteRegisteredModelAlias

  • DeleteRegisteredModelTag

  • DeleteRun

  • DeleteTag

  • GetDownloadURIForModelVersionArtifacts

  • GetExperiment

  • GetExperimentByName

  • GetLatestModelVersions

  • GetMetricHistory

  • GetModelVersion

  • GetModelVersionByAlias

  • GetRegisteredModel

  • GetRun

  • ListArtifacts

  • LogBatch

  • LogInputs

  • LogMetric

  • LogModel

  • LogParam

  • RenameRegisteredModel

  • RestoreExperiment

  • RestoreRun

  • SearchExperiments

  • SearchModelVersions

  • SearchRegisteredModels

  • SearchRuns

  • SetExperimentTag

  • SetModelVersionTag

  • SetRegisteredModelAlias

  • SetRegisteredModelTag

  • SetTag

  • TransitionModelVersionStage

  • UpdateExperiment

  • UpdateModelVersion

  • UpdateRegisteredModel

  • UpdateRun

  • FinalizeLoggedModel

  • GetLoggedModel

  • DeleteLoggedModel

  • SearchLoggedModels

  • SetLoggedModelTags

  • DeleteLoggedModelTag

  • ListLoggedModelArtifacts

  • LogLoggedModelParams

  • LogOutputs

Untuk informasi selengkapnya CloudTrail, lihat Panduan AWS CloudTrail Pengguna.

EventBridge Acara Amazon

Gunakan EventBridge untuk merutekan acara dari menggunakan MLFlow dengan SageMaker AI ke aplikasi konsumen di seluruh organisasi Anda. Peristiwa berikut dipancarkan ke: EventBridge

  • “SageMaker Melacak Pembuatan Server”

  • “Server SageMaker Pelacakan Dibuat”

  • “Membuat Server SageMaker Pelacakan Gagal”

  • “Memutakhirkan Server SageMaker Pelacakan”

  • “Server SageMaker Pelacakan Diperbarui”

  • “SageMaker Pelacakan Pembaruan Server Gagal”

  • “SageMaker Melacak Server Menghapus”

  • “Server SageMaker Pelacakan Dihapus”

  • “SageMaker Penghapusan Server Pelacakan Gagal”

  • “SageMaker Pelacakan Server Mulai”

  • “SageMaker Pelacakan Server Dimulai”

  • “SageMaker Pelacakan Server Mulai Gagal”

  • “SageMaker Melacak Server Berhenti”

  • “Server SageMaker Pelacakan Berhenti”

  • “SageMaker Pelacakan Server Berhenti Gagal”

  • “SageMaker Melacak Pemeliharaan Server Sedang Berlangsung”

  • “SageMaker Pelacakan Pemeliharaan Server Selesai”

  • “SageMaker Pelacakan Pemeliharaan Server Gagal”

  • “SageMaker MLFlow Tracking Server Membuat Jalankan”

  • “SageMaker Pembuatan Server Pelacakan MLFlow” RegisteredModel

  • “SageMaker Pembuatan Server Pelacakan MLFlow” ModelVersion

  • “Tahap Transisi ModelVersion Server Pelacakan SageMaker MLFlow”

  • “SageMaker MLFlow Tracking Server Pengaturan Alias Model Terdaftar”

Untuk informasi selengkapnya EventBridge, lihat Panduan EventBridge Pengguna Amazon.