

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Osservabilità e monitoraggio
<a name="observability-and-monitoring"></a>

L'osservabilità è essenziale per gestire sistemi basati su eventi e basati sull'intelligenza artificiale su larga scala. A differenza delle applicazioni monolitiche, i sistemi di intelligenza artificiale generativi e serverless sono distribuiti, stateless e composti da elaborazione effimera e servizi di intelligenza artificiale integrati (ad esempio, Amazon Bedrock e Amazon). SageMaker Queste caratteristiche richiedono una nuova concezione della visibilità, della correlazione e della responsabilità.

Senza osservabilità, i team devono affrontare i seguenti problemi:
+ Punti ciechi nell'esecuzione e nel comportamento degli agenti
+ Anomalie dei costi o regressioni delle prestazioni non rilevate
+ Informazioni limitate sugli output del modello e sulla qualità del Large Language Model (LLM)
+ Difficoltà nell'analisi delle cause principali nei flussi di lavoro asincroni

L'osservabilità gioca un ruolo fondamentale nelle seguenti aree dell'IA serverless:
+ I **risultati dell'IA non sono deterministici** LLMs . La registrazione e l'ispezione dei loro risultati sono l'unico modo per convalidarne la correttezza nel tempo.
+ **Esecuzione senza server**: AWS Lambda e Amazon EventBridge non funziona su host fissi. AWS Step Functions Il monitoraggio deve essere basato sulla traccia, non su server.
+ **Costi e latenza**: l'utilizzo di Amazon Bedrock si basa su token. Lambda e Step Functions vengono addebitati in base alla durata e all'esecuzione.
+ **Sicurezza e governance**: i registri tempestivi, l'utilizzo degli strumenti degli agenti e le chiamate API devono essere controllati e adattati al contesto dell'identità e del ruolo.
+ **Esperienza utente**: guasti, ritardi o allucinazioni influiscono sulla fiducia. L'individuazione precoce di questi problemi è fondamentale per mantenere la fiducia degli utenti nei sistemi di intelligenza artificiale.

## Principali metriche di osservabilità da monitorare
<a name="section-observability-key-metrics"></a>

La tabella seguente descrive l'importanza delle metriche chiave relative all'osservabilità e al monitoraggio.


| 
| 
| **Categoria di metriche** | **Parametro** | **Perché la metrica è importante** | 
| --- |--- |--- |
| Comportamento dell'agente |   Frequenza di selezione degli utensili   Richiamazioni di strumenti non valide   | Rivela il disallineamento tra intento e azione. | 
| Tendenze dei costi | Costo di inferenza per utente o sessione | Consente la FinOps creazione di report e decisioni di routing dei modelli a più livelli. | 
| Parametri di invocazione |   Invocazioni Lambda   Tasso di errore   Partenze a freddo   | Convalida la stabilità della pipeline e la resilienza agli errori. | 
| Recupero della Knowledge Base |   Rapporto Hit/Mancate   Punteggio di pertinenza fondamentale   | Misura le prestazioni della pipeline RAG. | 
| Latenza | Latenza di inferenza per modello |   Rileva rallentamenti in Amazon Bedrock o. SageMaker   Ottimizza i tempi di risposta degli utenti.   | 
| Qualità tempestiva e di risposta |   Tasso di allucinazioni   Tasso di fallback   | Assicura che la messa a terra funzioni e che le istruzioni si comportino come previsto. | 
| Sicurezza e accesso | Utilizzo di agenti e strumenti in base al ruolo IAM | Garantisce il principio del privilegio minimo e della tracciabilità. | 
| Utilizzo dei token | Token totali di input e output (Amazon Bedrock) |   Controlla i costi.   Rileva un rapido aumento o un uso improprio del modello.   | 
| Stato del flusso di lavoro | Errori, nuovi tentativi e timeout del flusso di lavoro di Step Functions | Risolve i problemi di orchestrazione e i cicli di ripetizione dei tentativi. | 

## Servizi AWS per osservare l'IA generativa e senza server
<a name="section-observability-aws-services"></a>

La tabella seguente descrive Servizi AWS le funzionalità che supportano l'osservabilità per applicazioni di intelligenza artificiale generativa e senza server, compresi i loro casi d'uso ideali.


| 
| 
| **Servizio AWS** | **Descrizione** | **Caso d’uso ideale** | 
| --- |--- |--- |
| [ CloudWatch Registri Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) | Acquisisce i log da Lambda, Step Functions, Amazon Bedrock Agents e Amazon API Gateway |   Debug   Audit trail   Tracciamento delle sessioni utente   | 
| [ CloudWatch Metriche Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) | Indicatori di prestazioni chiave personalizzati e generati dal servizio (KPIs), come il numero di chiamate, la durata e il numero di token |   Creazione di pannelli di controllo   Avvisi    Analisi delle tendenze   | 
| [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) | Tracce su flussi serverless, tra cui Lambda, API Gateway e Step Functions |   Analisi della causa principale   Monitoraggio della latenza   Mappatura delle dipendenze   | 
| [CloudWatch formato metrico incorporato](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Embedded_Metric_Format.html) | Registrazione strutturata per metriche avanzate nei flussi di log | Abilita l'analisi senza chiamate metriche separate | 
| Registrazione delle [chiamate di modelli](https://docs.aws.amazon.com/bedrock/latest/userguide/model-invocation-logging.html) e [tracciamento degli agenti Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/trace-events.html) | Traccia di esecuzione nativa di Amazon Bedrock Agent, chiamate agli strumenti e approfondimenti RAG | Monitora il comportamento degli agenti e risolvi gli errori | 
| [Amazon EventBridge Pipes](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-pipes.html) e [registri degli schemi](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-schema-registry.html) | Monitora e convalida i formati degli eventi che fluiscono nella tua pipeline |   Previeni eventi malformati    Garantire la coerenza contr   | 
| [AWS CloudTrail](https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-user-guide.html) | Registra tutte le chiamate API e il contesto dell'identità |   Conformità   Audit di sicurezza   Utilizzo di agenti e strumenti per ruolo   | 
| [ OpenSearch Servizio Amazon](https://docs.aws.amazon.com/whitepapers/latest/big-data-analytics-options/elasticsearch.html) | Indicizza le risposte di inferenza, i log strutturati o i record di controllo |   Ricerca semantica delle risposte    Dashboard di osservabilità   | 
| [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) | Simula il traffico per testare endpoint o flussi di lavoro in modo proattivo | Garantisci il monitoraggio dell'operatività e della regressione tra le versioni | 

## Esempio: monitoraggio di un flusso di lavoro di supporto basato su agenti
<a name="section-observability-example-workflow"></a>

Per monitorare efficacemente un flusso di lavoro di supporto basato su agenti, prendi in considerazione l'utilizzo delle seguenti metriche nella fase del flusso di lavoro associata:

1. **Interrogazione dell'utente su** **API Gateway**: monitora il tempo di risposta e 5xx errori.

1. Funzione **Lambda del preprocessore**: monitora gli avviamenti a freddo e gli errori di analisi.

1. **Agente Amazon Bedrock**: monitora i prompt, le tracce delle chiamate agli strumenti, il costo dei token e la latenza.

1. **Funzione Tool Lambda** (ad esempio,`getOrderStatus`): monitora il tempo di esecuzione e il numero di chiamate dello strumento per utente.

1. **Interrogazione RAG tramite la knowledge base**: monitora il punteggio di pertinenza e i fondamenti mancanti.

1. Funzione **Lambda del postprocessore**: monitora la convalida dello schema e i trigger di fallback.

1. Registri ** CloudWatch e OpenSearch: monitora i registri** delle sessioni, traccia e modella la qualità della risposta. IDs

1. **Allarmi**: monitora gli avvisi per rilevare tassi di errore elevati, picchi di costo per sessione e latenza ridotta.

## Le migliori pratiche per l'osservabilità
<a name="section-observability-best-practices"></a>

Prendi in considerazione le seguenti best practice per l'osservabilità nei flussi di lavoro di intelligenza artificiale generativi e senza server:
+ Strumenta i flussi di intelligenza artificiale con log strutturati per consentire la correlazione tra i componenti (ad esempio, sessione utente, trace ID e risposta del modello).
+ Utilizza uno schema di registrazione coerente per supportare le pipeline di analisi, avvisi e analisi a valle.
+ Emetti metriche personalizzate per livello per aiutare a tracciare gli errori relativi al modello rispetto ai problemi dell'infrastruttura.
+ Contrassegna i log in base all'ambiente e al contesto per consentire il filtraggio in base al ruolo dell'utente, alla regione, alla versione o al team.
+ Utilizza gli allarmi di rilevamento delle anomalie per rilevare picchi di token, picchi di latenza o deviazioni dell'output.
+ Correla i log di risposta LLM con l'impatto a valle per collegare gli output degli agenti a decisioni, escalation o errori.
+ Automatizza la generazione di report tramite dashboard settimanali con costi rapidi, utilizzo dei modelli e tassi di fallback per promuovere la responsabilità e i cicli di miglioramento.

## Riepilogo dell'osservabilità e del monitoraggio
<a name="section-observability-summary"></a>

Nei sistemi serverless basati sull'intelligenza artificiale, non si monitorano gli host. Al contrario, monitorate il comportamento, i costi e la correttezza. L'osservabilità fornisce le basi per la resilienza operativa, il controllo e la previsione dei costi, la valutazione delle prestazioni LLM, la governance e la conformità e il miglioramento continuo dei tempi e degli agenti. 

Le funzionalità native Servizi AWS che supportano l'osservabilità e il monitoraggio, insieme alla telemetria strutturata e sensibile agli eventi, forniscono le funzionalità necessarie. Con queste funzionalità, i team possono gestire con sicurezza carichi di lavoro di intelligenza artificiale su larga scala, sapendo cosa sta succedendo, dove e perché.