View a markdown version of this page

Observabilitas dan pemantauan - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Observabilitas dan pemantauan

Observabilitas sangat penting untuk mengoperasikan sistem bertenaga AI yang digerakkan oleh peristiwa dalam skala besar. Tidak seperti aplikasi monolitik, sistem AI tanpa server dan generatif didistribusikan, tanpa kewarganegaraan, dan terdiri dari komputasi sementara dan layanan AI terintegrasi (misalnya, Amazon Bedrock dan Amazon). SageMaker Karakteristik ini membutuhkan pemikiran baru seputar visibilitas, korelasi, dan akuntabilitas.

Tanpa observabilitas, tim menghadapi masalah berikut:

  • Titik buta dalam eksekusi dan perilaku agen

  • Anomali biaya yang tidak terdeteksi atau regresi kinerja

  • Wawasan terbatas tentang output model dan kualitas model bahasa besar (LLM)

  • Kesulitan dalam analisis akar penyebab di seluruh alur kerja asinkron

Observabilitas memainkan peran penting dalam bidang AI tanpa server berikut:

  • Output AI - tidak LLMs deterministik. Mencatat dan memeriksa output mereka adalah satu-satunya cara untuk memvalidasi kebenarannya dari waktu ke waktu.

  • Eksekusi tanpa server — AWS Lambda, AWS Step Functions, dan Amazon EventBridge tidak berjalan pada host tetap. Pemantauan harus berbasis penelusuran, bukan berbasis server.

  • Biaya dan latensi — Penggunaan Amazon Bedrock didasarkan pada token. Lambda dan Step Functions dikenakan biaya per durasi dan eksekusi.

  • Keamanan dan tata kelola — Log prompt, penggunaan alat agen, dan panggilan API harus diaudit dan dicakup ke konteks identitas dan peran.

  • Pengalaman pengguna — Kegagalan, penundaan, atau halusinasi berdampak pada kepercayaan. Deteksi dini masalah ini adalah kunci untuk menjaga kepercayaan pengguna dalam sistem AI.

Metrik observabilitas utama untuk dipantau

Tabel berikut menjelaskan pentingnya metrik utama yang terkait dengan observabilitas dan pemantauan.

Kategori metrik

Metrik

Mengapa metrik itu penting

Perilaku agen

  • Tingkat pemilihan alat

  • Pemanggilan alat tidak valid

Mengungkapkan ketidaksejajaran antara niat dan tindakan.

Tren biaya

Biaya inferensi per pengguna atau sesi

Memungkinkan FinOps pelaporan dan keputusan perutean model berjenjang.

Metrik invokasi

  • Doa Lambda

  • Tingkat kesalahan

  • Dingin dimulai

Memvalidasi stabilitas pipa dan ketahanan kesalahan.

Pengambilan basis pengetahuan

  • Rasio Hit/Miss

  • Skor relevansi landasan

Mengukur seberapa baik kinerja pipa RAG.

Latensi

Latensi inferensi per model

  • Mendeteksi perlambatan di Amazon Bedrock atau. SageMaker

  • Mengoptimalkan waktu respons pengguna.

Kualitas cepat dan respons

  • Tingkat halusinasi

  • Tingkat mundur

Memastikan grounding berfungsi dan petunjuknya berperilaku seperti yang diharapkan.

Keamanan dan akses

Penggunaan agen dan alat oleh peran IAM

Memastikan prinsip hak istimewa dan ketertelusuran paling sedikit.

Penggunaan token

Total input dan output token (Amazon Bedrock)

  • Mengontrol biaya.

  • Mendeteksi kembung cepat atau penyalahgunaan model.

Alur kerja kesehatan

Kegagalan alur kerja Step Functions, percobaan ulang, dan batas waktu

Memunculkan masalah orkestrasi dan coba lagi loop.

Layanan AWS untuk mengamati AI tanpa server dan generatif

Tabel berikut menjelaskan Layanan AWS dan fitur yang mendukung observabilitas untuk aplikasi AI tanpa server dan generatif, termasuk kasus penggunaan idealnya.

Layanan AWS

Deskripsi

Kasus penggunaan yang ideal

CloudWatch Log Amazon

Menangkap log dari Lambda, Step Functions, Amazon Bedrock Agents, dan Amazon API Gateway

  • Debugging

  • Jejak audit

  • Penelusuran sesi pengguna

CloudWatch Metrik Amazon

Indikator kinerja utama yang dibuat khusus dan yang dihasilkan layanan (KPIs), seperti jumlah pemanggilan, durasi, dan jumlah token

  • Dasbor

  • Pemberitahuan

  • Analisis tren

AWS X-Ray

Menelusuri seluruh alur tanpa server, termasuk Lambda, API Gateway, dan Step Functions

  • Analisis akar penyebab

  • Pelacakan latensi

  • Pemetaan ketergantungan

CloudWatch format metrik tertanam

Pencatatan terstruktur untuk metrik lanjutan dalam aliran log

Aktifkan analitik tanpa panggilan metrik terpisah

Pelacakan agen Amazon Bedrock dan pencatatan pemanggilan model

Pelacakan eksekusi Amazon Bedrock Agent asli, panggilan alat, dan wawasan RAG

Memantau perilaku agen dan memecahkan masalah kegagalan

EventBridgePipa Amazon dan pendaftar skema

Melacak dan memvalidasi format acara yang mengalir melalui pipeline

  • Mencegah peristiwa yang salah

  • Pastikan konsistensi kontrak

AWS CloudTrail

Mencatat semua panggilan API dan konteks identitas

  • Kepatuhan

  • Audit keamanan

  • Penggunaan agen dan alat berdasarkan peran

OpenSearch Layanan Amazon

Mengindeks tanggapan inferensi, log terstruktur, atau catatan audit

  • Pencarian tanggapan semantik

  • Dasbor observabilitas

Amazon CloudWatch Synthetics

Mensimulasikan lalu lintas untuk menguji titik akhir atau alur kerja secara proaktif

Memastikan uptime dan pemantauan regresi di seluruh versi

Contoh: Memantau alur kerja dukungan berbasis agen

Untuk memantau alur kerja dukungan berbasis agen secara efektif, pertimbangkan untuk menggunakan metrik berikut pada tahap alur kerja terkait:

  1. Kueri pengguna ke API Gateway - Memantau waktu respons dan kesalahan 5xx.

  2. Fungsi Lambda pra-prosesor - Pantau start dingin dan kegagalan penguraian.

  3. Agen Amazon Bedrock — Monitor prompt, jejak panggilan alat, biaya token, dan latensi.

  4. Fungsi Alat Lambda (misalnya,getOrderStatus) - Memantau waktu eksekusi dan jumlah pemanggilan alat per pengguna.

  5. Kueri RAG melalui basis pengetahuan — Pantau skor relevansi dan landasan yang hilang.

  6. Fungsi Lambda pasca-prosesor - Memantau validasi skema dan pemicu fallback.

  7. Log CloudWatch dan OpenSearch — Pantau log sesi, jejak IDs, dan kualitas respons model.

  8. Alarm — Pantau peringatan untuk tingkat kegagalan yang tinggi, lonjakan biaya per sesi, dan latensi yang menurun.

Praktik terbaik untuk observabilitas

Pertimbangkan praktik terbaik berikut untuk observabilitas dalam alur kerja AI tanpa server dan generatif:

  • Instrumen AI mengalir dengan log terstruktur untuk mengaktifkan korelasi antar komponen (misalnya, sesi pengguna, ID pelacakan, dan respons model).

  • Gunakan skema logging yang konsisten untuk mendukung saluran parsing, peringatan, dan analitik hilir.

  • Memancarkan metrik khusus per lapisan untuk membantu melacak kesalahan terkait model dibandingkan dengan masalah infrastruktur.

  • Tandai log dengan lingkungan dan konteks untuk mengaktifkan pemfilteran berdasarkan peran pengguna, wilayah, versi, atau tim.

  • Gunakan alarm deteksi anomali untuk mendeteksi lonjakan token, lonjakan latensi, atau penyimpangan keluaran.

  • Korelasikan log respons LLM dengan dampak hilir untuk menghubungkan output agen dengan keputusan, eskalasi, atau kegagalan.

  • Otomatiskan pembuatan laporan melalui dasbor mingguan dengan biaya yang cepat, penggunaan model, dan tingkat fallback untuk mendorong siklus akuntabilitas dan peningkatan.

Ringkasan observabilitas dan pemantauan

Dalam sistem tanpa server berbasis AI, Anda tidak memantau host. Sebaliknya, Anda memantau perilaku, biaya, dan kebenaran. Observabilitas memberikan dasar untuk ketahanan operasional, pengendalian dan peramalan biaya, evaluasi kinerja LLM, tata kelola dan kepatuhan, dan peningkatan cepat dan agen yang berkelanjutan.

Asli Layanan AWS yang mendukung observabilitas dan pemantauan, bersama dengan telemetri terstruktur dan sadar peristiwa menyediakan kemampuan yang diperlukan. Dengan kemampuan ini, tim dapat dengan percaya diri mengoperasikan beban kerja AI dalam skala besar, mengetahui apa yang terjadi, di mana, dan mengapa.