Metrik observabilitas utama untuk dipantau Layanan AWS untuk mengamati AI tanpa server dan generatif Contoh: Memantau alur kerja dukungan berbasis agen Praktik terbaik untuk observabilitas Ringkasan observabilitas dan pemantauan

Observabilitas dan pemantauan

Observabilitas sangat penting untuk mengoperasikan sistem bertenaga AI yang digerakkan oleh peristiwa dalam skala besar. Tidak seperti aplikasi monolitik, sistem AI tanpa server dan generatif didistribusikan, tanpa kewarganegaraan, dan terdiri dari komputasi sementara dan layanan AI terintegrasi (misalnya, Amazon Bedrock dan Amazon). SageMaker Karakteristik ini membutuhkan pemikiran baru seputar visibilitas, korelasi, dan akuntabilitas.

Tanpa observabilitas, tim menghadapi masalah berikut:

Titik buta dalam eksekusi dan perilaku agen
Anomali biaya yang tidak terdeteksi atau regresi kinerja
Wawasan terbatas tentang output model dan kualitas model bahasa besar (LLM)
Kesulitan dalam analisis akar penyebab di seluruh alur kerja asinkron

Observabilitas memainkan peran penting dalam bidang AI tanpa server berikut:

Output AI - tidak LLMs deterministik. Mencatat dan memeriksa output mereka adalah satu-satunya cara untuk memvalidasi kebenarannya dari waktu ke waktu.
Eksekusi tanpa server — AWS Lambda, AWS Step Functions, dan Amazon EventBridge tidak berjalan pada host tetap. Pemantauan harus berbasis penelusuran, bukan berbasis server.
Biaya dan latensi — Penggunaan Amazon Bedrock didasarkan pada token. Lambda dan Step Functions dikenakan biaya per durasi dan eksekusi.
Keamanan dan tata kelola — Log prompt, penggunaan alat agen, dan panggilan API harus diaudit dan dicakup ke konteks identitas dan peran.
Pengalaman pengguna — Kegagalan, penundaan, atau halusinasi berdampak pada kepercayaan. Deteksi dini masalah ini adalah kunci untuk menjaga kepercayaan pengguna dalam sistem AI.

Metrik observabilitas utama untuk dipantau

Tabel berikut menjelaskan pentingnya metrik utama yang terkait dengan observabilitas dan pemantauan.

Kategori metrik	Metrik	Mengapa metrik itu penting
Perilaku agen	Tingkat pemilihan alat Pemanggilan alat tidak valid	Mengungkapkan ketidaksejajaran antara niat dan tindakan.
Tren biaya	Biaya inferensi per pengguna atau sesi	Memungkinkan FinOps pelaporan dan keputusan perutean model berjenjang.
Metrik invokasi	Doa Lambda Tingkat kesalahan Dingin dimulai	Memvalidasi stabilitas pipa dan ketahanan kesalahan.
Pengambilan basis pengetahuan	Rasio Hit/Miss Skor relevansi landasan	Mengukur seberapa baik kinerja pipa RAG.
Latensi	Latensi inferensi per model	Mendeteksi perlambatan di Amazon Bedrock atau. SageMaker Mengoptimalkan waktu respons pengguna.
Kualitas cepat dan respons	Tingkat halusinasi Tingkat mundur	Memastikan grounding berfungsi dan petunjuknya berperilaku seperti yang diharapkan.
Keamanan dan akses	Penggunaan agen dan alat oleh peran IAM	Memastikan prinsip hak istimewa dan ketertelusuran paling sedikit.
Penggunaan token	Total input dan output token (Amazon Bedrock)	Mengontrol biaya. Mendeteksi kembung cepat atau penyalahgunaan model.
Alur kerja kesehatan	Kegagalan alur kerja Step Functions, percobaan ulang, dan batas waktu	Memunculkan masalah orkestrasi dan coba lagi loop.

Layanan AWS untuk mengamati AI tanpa server dan generatif

Tabel berikut menjelaskan Layanan AWS dan fitur yang mendukung observabilitas untuk aplikasi AI tanpa server dan generatif, termasuk kasus penggunaan idealnya.

Layanan AWS	Deskripsi	Kasus penggunaan yang ideal
CloudWatch Log Amazon	Menangkap log dari Lambda, Step Functions, Amazon Bedrock Agents, dan Amazon API Gateway	Debugging Jejak audit Penelusuran sesi pengguna
CloudWatch Metrik Amazon	Indikator kinerja utama yang dibuat khusus dan yang dihasilkan layanan (KPIs), seperti jumlah pemanggilan, durasi, dan jumlah token	Dasbor Pemberitahuan Analisis tren
AWS X-Ray	Menelusuri seluruh alur tanpa server, termasuk Lambda, API Gateway, dan Step Functions	Analisis akar penyebab Pelacakan latensi Pemetaan ketergantungan
CloudWatch format metrik tertanam	Pencatatan terstruktur untuk metrik lanjutan dalam aliran log	Aktifkan analitik tanpa panggilan metrik terpisah
Pelacakan agen Amazon Bedrock dan pencatatan pemanggilan model	Pelacakan eksekusi Amazon Bedrock Agent asli, panggilan alat, dan wawasan RAG	Memantau perilaku agen dan memecahkan masalah kegagalan
EventBridgePipa Amazon dan pendaftar skema	Melacak dan memvalidasi format acara yang mengalir melalui pipeline	Mencegah peristiwa yang salah Pastikan konsistensi kontrak
AWS CloudTrail	Mencatat semua panggilan API dan konteks identitas	Kepatuhan Audit keamanan Penggunaan agen dan alat berdasarkan peran
OpenSearch Layanan Amazon	Mengindeks tanggapan inferensi, log terstruktur, atau catatan audit	Pencarian tanggapan semantik Dasbor observabilitas
Amazon CloudWatch Synthetics	Mensimulasikan lalu lintas untuk menguji titik akhir atau alur kerja secara proaktif	Memastikan uptime dan pemantauan regresi di seluruh versi

Contoh: Memantau alur kerja dukungan berbasis agen

Untuk memantau alur kerja dukungan berbasis agen secara efektif, pertimbangkan untuk menggunakan metrik berikut pada tahap alur kerja terkait:

Kueri pengguna ke API Gateway - Memantau waktu respons dan kesalahan 5xx.
Fungsi Lambda pra-prosesor - Pantau start dingin dan kegagalan penguraian.
Agen Amazon Bedrock — Monitor prompt, jejak panggilan alat, biaya token, dan latensi.
Fungsi Alat Lambda (misalnya,getOrderStatus) - Memantau waktu eksekusi dan jumlah pemanggilan alat per pengguna.
Kueri RAG melalui basis pengetahuan — Pantau skor relevansi dan landasan yang hilang.
Fungsi Lambda pasca-prosesor - Memantau validasi skema dan pemicu fallback.
Log CloudWatch dan OpenSearch — Pantau log sesi, jejak IDs, dan kualitas respons model.
Alarm — Pantau peringatan untuk tingkat kegagalan yang tinggi, lonjakan biaya per sesi, dan latensi yang menurun.

Praktik terbaik untuk observabilitas

Pertimbangkan praktik terbaik berikut untuk observabilitas dalam alur kerja AI tanpa server dan generatif:

Instrumen AI mengalir dengan log terstruktur untuk mengaktifkan korelasi antar komponen (misalnya, sesi pengguna, ID pelacakan, dan respons model).
Gunakan skema logging yang konsisten untuk mendukung saluran parsing, peringatan, dan analitik hilir.
Memancarkan metrik khusus per lapisan untuk membantu melacak kesalahan terkait model dibandingkan dengan masalah infrastruktur.
Tandai log dengan lingkungan dan konteks untuk mengaktifkan pemfilteran berdasarkan peran pengguna, wilayah, versi, atau tim.
Gunakan alarm deteksi anomali untuk mendeteksi lonjakan token, lonjakan latensi, atau penyimpangan keluaran.
Korelasikan log respons LLM dengan dampak hilir untuk menghubungkan output agen dengan keputusan, eskalasi, atau kegagalan.
Otomatiskan pembuatan laporan melalui dasbor mingguan dengan biaya yang cepat, penggunaan model, dan tingkat fallback untuk mendorong siklus akuntabilitas dan peningkatan.

Ringkasan observabilitas dan pemantauan

Dalam sistem tanpa server berbasis AI, Anda tidak memantau host. Sebaliknya, Anda memantau perilaku, biaya, dan kebenaran. Observabilitas memberikan dasar untuk ketahanan operasional, pengendalian dan peramalan biaya, evaluasi kinerja LLM, tata kelola dan kepatuhan, dan peningkatan cepat dan agen yang berkelanjutan.

Asli Layanan AWS yang mendukung observabilitas dan pemantauan, bersama dengan telemetri terstruktur dan sadar peristiwa menyediakan kemampuan yang diperlukan. Dengan kemampuan ini, tim dapat dengan percaya diri mengoperasikan beban kerja AI dalam skala besar, mengetahui apa yang terjadi, di mana, dan mengapa.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pengujian dan validasi

Keamanan dan tata kelola