Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Observabilitas dan pemantauan
<a name="observability-and-monitoring"></a>

Observabilitas sangat penting untuk mengoperasikan sistem bertenaga AI yang digerakkan oleh peristiwa dalam skala besar. Tidak seperti aplikasi monolitik, sistem AI tanpa server dan generatif didistribusikan, tanpa kewarganegaraan, dan terdiri dari komputasi sementara dan layanan AI terintegrasi (misalnya, Amazon Bedrock dan Amazon). SageMaker Karakteristik ini membutuhkan pemikiran baru seputar visibilitas, korelasi, dan akuntabilitas.

Tanpa observabilitas, tim menghadapi masalah berikut:
+ Titik buta dalam eksekusi dan perilaku agen
+ Anomali biaya yang tidak terdeteksi atau regresi kinerja
+ Wawasan terbatas tentang output model dan kualitas model bahasa besar (LLM)
+ Kesulitan dalam analisis akar penyebab di seluruh alur kerja asinkron

Observabilitas memainkan peran penting dalam bidang AI tanpa server berikut:
+ **Output AI** - tidak LLMs deterministik. Mencatat dan memeriksa output mereka adalah satu-satunya cara untuk memvalidasi kebenarannya dari waktu ke waktu.
+ **Eksekusi tanpa server** — AWS Lambda, AWS Step Functions, dan Amazon EventBridge tidak berjalan pada host tetap. Pemantauan harus berbasis penelusuran, bukan berbasis server.
+ **Biaya dan latensi** — Penggunaan Amazon Bedrock didasarkan pada token. Lambda dan Step Functions dikenakan biaya per durasi dan eksekusi.
+ **Keamanan dan tata kelola** — Log prompt, penggunaan alat agen, dan panggilan API harus diaudit dan dicakup ke konteks identitas dan peran.
+ **Pengalaman pengguna** — Kegagalan, penundaan, atau halusinasi berdampak pada kepercayaan. Deteksi dini masalah ini adalah kunci untuk menjaga kepercayaan pengguna dalam sistem AI.

## Metrik observabilitas utama untuk dipantau
<a name="section-observability-key-metrics"></a>

Tabel berikut menjelaskan pentingnya metrik utama yang terkait dengan observabilitas dan pemantauan.


| 
| 
| **Kategori metrik** | **Metrik** | **Mengapa metrik itu penting** | 
| --- |--- |--- |
| Perilaku agen |   Tingkat pemilihan alat   Pemanggilan alat tidak valid   | Mengungkapkan ketidaksejajaran antara niat dan tindakan. | 
| Tren biaya | Biaya inferensi per pengguna atau sesi | Memungkinkan FinOps pelaporan dan keputusan perutean model berjenjang. | 
| Metrik invokasi |   Doa Lambda   Tingkat kesalahan   Dingin dimulai   | Memvalidasi stabilitas pipa dan ketahanan kesalahan. | 
| Pengambilan basis pengetahuan |   Rasio Hit/Miss   Skor relevansi landasan   | Mengukur seberapa baik kinerja pipa RAG. | 
| Latensi | Latensi inferensi per model |   Mendeteksi perlambatan di Amazon Bedrock atau. SageMaker   Mengoptimalkan waktu respons pengguna.   | 
| Kualitas cepat dan respons |   Tingkat halusinasi   Tingkat mundur   | Memastikan grounding berfungsi dan petunjuknya berperilaku seperti yang diharapkan. | 
| Keamanan dan akses | Penggunaan agen dan alat oleh peran IAM | Memastikan prinsip hak istimewa dan ketertelusuran paling sedikit. | 
| Penggunaan token | Total input dan output token (Amazon Bedrock) |   Mengontrol biaya.   Mendeteksi kembung cepat atau penyalahgunaan model.   | 
| Alur kerja kesehatan | Kegagalan alur kerja Step Functions, percobaan ulang, dan batas waktu | Memunculkan masalah orkestrasi dan coba lagi loop. | 

## Layanan AWS untuk mengamati AI tanpa server dan generatif
<a name="section-observability-aws-services"></a>

Tabel berikut menjelaskan Layanan AWS dan fitur yang mendukung observabilitas untuk aplikasi AI tanpa server dan generatif, termasuk kasus penggunaan idealnya.


| 
| 
| **Layanan AWS** | **Deskripsi** | **Kasus penggunaan yang ideal** | 
| --- |--- |--- |
| [ CloudWatch Log Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) | Menangkap log dari Lambda, Step Functions, Amazon Bedrock Agents, dan Amazon API Gateway |   Debugging   Jejak audit   Penelusuran sesi pengguna   | 
| [ CloudWatch Metrik Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) | Indikator kinerja utama yang dibuat khusus dan yang dihasilkan layanan (KPIs), seperti jumlah pemanggilan, durasi, dan jumlah token |   Dasbor   Pemberitahuan    Analisis tren   | 
| [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) | Menelusuri seluruh alur tanpa server, termasuk Lambda, API Gateway, dan Step Functions |   Analisis akar penyebab   Pelacakan latensi   Pemetaan ketergantungan   | 
| [CloudWatch format metrik tertanam](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Embedded_Metric_Format.html) | Pencatatan terstruktur untuk metrik lanjutan dalam aliran log | Aktifkan analitik tanpa panggilan metrik terpisah | 
| Pelacakan [agen Amazon Bedrock dan pencatatan](https://docs.aws.amazon.com/bedrock/latest/userguide/trace-events.html) [pemanggilan model](https://docs.aws.amazon.com/bedrock/latest/userguide/model-invocation-logging.html) | Pelacakan eksekusi Amazon Bedrock Agent asli, panggilan alat, dan wawasan RAG | Memantau perilaku agen dan memecahkan masalah kegagalan | 
| [ EventBridgePipa Amazon](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-pipes.html) dan [pendaftar skema](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-schema-registry.html) | Melacak dan memvalidasi format acara yang mengalir melalui pipeline |   Mencegah peristiwa yang salah    Pastikan konsistensi kontrak   | 
| [AWS CloudTrail](https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-user-guide.html) | Mencatat semua panggilan API dan konteks identitas |   Kepatuhan   Audit keamanan   Penggunaan agen dan alat berdasarkan peran   | 
| [ OpenSearch Layanan Amazon](https://docs.aws.amazon.com/whitepapers/latest/big-data-analytics-options/elasticsearch.html) | Mengindeks tanggapan inferensi, log terstruktur, atau catatan audit |   Pencarian tanggapan semantik    Dasbor observabilitas   | 
| [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) | Mensimulasikan lalu lintas untuk menguji titik akhir atau alur kerja secara proaktif | Memastikan uptime dan pemantauan regresi di seluruh versi | 

## Contoh: Memantau alur kerja dukungan berbasis agen
<a name="section-observability-example-workflow"></a>

Untuk memantau alur kerja dukungan berbasis agen secara efektif, pertimbangkan untuk menggunakan metrik berikut pada tahap alur kerja terkait:

1. **Kueri pengguna ke** **API Gateway** - Memantau waktu respons dan kesalahan 5xx.

1. Fungsi **Lambda pra-prosesor** - Pantau start dingin dan kegagalan penguraian.

1. **Agen Amazon Bedrock** — Monitor prompt, jejak panggilan alat, biaya token, dan latensi.

1. **Fungsi Alat Lambda** (misalnya,`getOrderStatus`) - Memantau waktu eksekusi dan jumlah pemanggilan alat per pengguna.

1. **Kueri RAG melalui basis pengetahuan** — Pantau skor relevansi dan landasan yang hilang.

1. Fungsi **Lambda pasca-prosesor** - Memantau validasi skema dan pemicu fallback.

1. **Log CloudWatch dan OpenSearch** — Pantau log sesi, jejak IDs, dan kualitas respons model.

1. **Alarm** — Pantau peringatan untuk tingkat kegagalan yang tinggi, lonjakan biaya per sesi, dan latensi yang menurun.

## Praktik terbaik untuk observabilitas
<a name="section-observability-best-practices"></a>

Pertimbangkan praktik terbaik berikut untuk observabilitas dalam alur kerja AI tanpa server dan generatif:
+ Instrumen AI mengalir dengan log terstruktur untuk mengaktifkan korelasi antar komponen (misalnya, sesi pengguna, ID pelacakan, dan respons model).
+ Gunakan skema logging yang konsisten untuk mendukung saluran parsing, peringatan, dan analitik hilir.
+ Memancarkan metrik khusus per lapisan untuk membantu melacak kesalahan terkait model dibandingkan dengan masalah infrastruktur.
+ Tandai log dengan lingkungan dan konteks untuk mengaktifkan pemfilteran berdasarkan peran pengguna, wilayah, versi, atau tim.
+ Gunakan alarm deteksi anomali untuk mendeteksi lonjakan token, lonjakan latensi, atau penyimpangan keluaran.
+ Korelasikan log respons LLM dengan dampak hilir untuk menghubungkan output agen dengan keputusan, eskalasi, atau kegagalan.
+ Otomatiskan pembuatan laporan melalui dasbor mingguan dengan biaya yang cepat, penggunaan model, dan tingkat fallback untuk mendorong siklus akuntabilitas dan peningkatan.

## Ringkasan observabilitas dan pemantauan
<a name="section-observability-summary"></a>

Dalam sistem tanpa server berbasis AI, Anda tidak memantau host. Sebaliknya, Anda memantau perilaku, biaya, dan kebenaran. Observabilitas memberikan dasar untuk ketahanan operasional, pengendalian dan peramalan biaya, evaluasi kinerja LLM, tata kelola dan kepatuhan, dan peningkatan cepat dan agen yang berkelanjutan. 

Asli Layanan AWS yang mendukung observabilitas dan pemantauan, bersama dengan telemetri terstruktur dan sadar peristiwa menyediakan kemampuan yang diperlukan. Dengan kemampuan ini, tim dapat dengan percaya diri mengoperasikan beban kerja AI dalam skala besar, mengetahui apa yang terjadi, di mana, dan mengapa.