Principali metriche di osservabilità da monitorare Servizi AWS per osservare l'IA generativa e senza server Esempio: monitoraggio di un flusso di lavoro di supporto basato su agenti Le migliori pratiche per l'osservabilità Riepilogo dell'osservabilità e del monitoraggio

Osservabilità e monitoraggio

L'osservabilità è essenziale per gestire sistemi basati su eventi e basati sull'intelligenza artificiale su larga scala. A differenza delle applicazioni monolitiche, i sistemi di intelligenza artificiale generativi e serverless sono distribuiti, stateless e composti da elaborazione effimera e servizi di intelligenza artificiale integrati (ad esempio, Amazon Bedrock e Amazon). SageMaker Queste caratteristiche richiedono una nuova concezione della visibilità, della correlazione e della responsabilità.

Senza osservabilità, i team devono affrontare i seguenti problemi:

Punti ciechi nell'esecuzione e nel comportamento degli agenti
Anomalie dei costi o regressioni delle prestazioni non rilevate
Informazioni limitate sugli output del modello e sulla qualità del Large Language Model (LLM)
Difficoltà nell'analisi delle cause principali nei flussi di lavoro asincroni

L'osservabilità gioca un ruolo fondamentale nelle seguenti aree dell'IA serverless:

I risultati dell'IA non sono deterministici LLMs . La registrazione e l'ispezione dei loro risultati sono l'unico modo per convalidarne la correttezza nel tempo.
Esecuzione senza server: AWS Lambda e Amazon EventBridge non funziona su host fissi. AWS Step Functions Il monitoraggio deve essere basato sulla traccia, non su server.
Costi e latenza: l'utilizzo di Amazon Bedrock si basa su token. Lambda e Step Functions vengono addebitati in base alla durata e all'esecuzione.
Sicurezza e governance: i registri tempestivi, l'utilizzo degli strumenti degli agenti e le chiamate API devono essere controllati e adattati al contesto dell'identità e del ruolo.
Esperienza utente: guasti, ritardi o allucinazioni influiscono sulla fiducia. L'individuazione precoce di questi problemi è fondamentale per mantenere la fiducia degli utenti nei sistemi di intelligenza artificiale.

Principali metriche di osservabilità da monitorare

La tabella seguente descrive l'importanza delle metriche chiave relative all'osservabilità e al monitoraggio.

Categoria di metriche	Parametro	Perché la metrica è importante
Comportamento dell'agente	Frequenza di selezione degli utensili Richiamazioni di strumenti non valide	Rivela il disallineamento tra intento e azione.
Tendenze dei costi	Costo di inferenza per utente o sessione	Consente la FinOps creazione di report e decisioni di routing dei modelli a più livelli.
Parametri di invocazione	Invocazioni Lambda Tasso di errore Partenze a freddo	Convalida la stabilità della pipeline e la resilienza agli errori.
Recupero della Knowledge Base	Rapporto Hit/Mancate Punteggio di pertinenza fondamentale	Misura le prestazioni della pipeline RAG.
Latenza	Latenza di inferenza per modello	Rileva rallentamenti in Amazon Bedrock o. SageMaker Ottimizza i tempi di risposta degli utenti.
Qualità tempestiva e di risposta	Tasso di allucinazioni Tasso di fallback	Assicura che la messa a terra funzioni e che le istruzioni si comportino come previsto.
Sicurezza e accesso	Utilizzo di agenti e strumenti in base al ruolo IAM	Garantisce il principio del privilegio minimo e della tracciabilità.
Utilizzo dei token	Token totali di input e output (Amazon Bedrock)	Controlla i costi. Rileva un rapido aumento o un uso improprio del modello.
Stato del flusso di lavoro	Errori, nuovi tentativi e timeout del flusso di lavoro di Step Functions	Risolve i problemi di orchestrazione e i cicli di ripetizione dei tentativi.

Servizi AWS per osservare l'IA generativa e senza server

La tabella seguente descrive Servizi AWS le funzionalità che supportano l'osservabilità per applicazioni di intelligenza artificiale generativa e senza server, compresi i loro casi d'uso ideali.

Servizio AWS	Descrizione	Caso d’uso ideale
CloudWatch Registri Amazon	Acquisisce i log da Lambda, Step Functions, Amazon Bedrock Agents e Amazon API Gateway	Debug Audit trail Tracciamento delle sessioni utente
CloudWatch Metriche Amazon	Indicatori di prestazioni chiave personalizzati e generati dal servizio (KPIs), come il numero di chiamate, la durata e il numero di token	Creazione di pannelli di controllo Avvisi Analisi delle tendenze
AWS X-Ray	Tracce su flussi serverless, tra cui Lambda, API Gateway e Step Functions	Analisi della causa principale Monitoraggio della latenza Mappatura delle dipendenze
CloudWatch formato metrico incorporato	Registrazione strutturata per metriche avanzate nei flussi di log	Abilita l'analisi senza chiamate metriche separate
Registrazione delle chiamate di modelli e tracciamento degli agenti Amazon Bedrock	Traccia di esecuzione nativa di Amazon Bedrock Agent, chiamate agli strumenti e approfondimenti RAG	Monitora il comportamento degli agenti e risolvi gli errori
Amazon EventBridge Pipes e registri degli schemi	Monitora e convalida i formati degli eventi che fluiscono nella tua pipeline	Previeni eventi malformati Garantire la coerenza contr
AWS CloudTrail	Registra tutte le chiamate API e il contesto dell'identità	Conformità Audit di sicurezza Utilizzo di agenti e strumenti per ruolo
OpenSearch Servizio Amazon	Indicizza le risposte di inferenza, i log strutturati o i record di controllo	Ricerca semantica delle risposte Dashboard di osservabilità
Amazon CloudWatch Synthetics	Simula il traffico per testare endpoint o flussi di lavoro in modo proattivo	Garantisci il monitoraggio dell'operatività e della regressione tra le versioni

Esempio: monitoraggio di un flusso di lavoro di supporto basato su agenti

Per monitorare efficacemente un flusso di lavoro di supporto basato su agenti, prendi in considerazione l'utilizzo delle seguenti metriche nella fase del flusso di lavoro associata:

Interrogazione dell'utente su API Gateway: monitora il tempo di risposta e 5xx errori.
Funzione Lambda del preprocessore: monitora gli avviamenti a freddo e gli errori di analisi.
Agente Amazon Bedrock: monitora i prompt, le tracce delle chiamate agli strumenti, il costo dei token e la latenza.
Funzione Tool Lambda (ad esempio,getOrderStatus): monitora il tempo di esecuzione e il numero di chiamate dello strumento per utente.
Interrogazione RAG tramite la knowledge base: monitora il punteggio di pertinenza e i fondamenti mancanti.
Funzione Lambda del postprocessore: monitora la convalida dello schema e i trigger di fallback.
Registri CloudWatch e OpenSearch: monitora i registri delle sessioni, traccia e modella la qualità della risposta. IDs
Allarmi: monitora gli avvisi per rilevare tassi di errore elevati, picchi di costo per sessione e latenza ridotta.

Le migliori pratiche per l'osservabilità

Prendi in considerazione le seguenti best practice per l'osservabilità nei flussi di lavoro di intelligenza artificiale generativi e senza server:

Strumenta i flussi di intelligenza artificiale con log strutturati per consentire la correlazione tra i componenti (ad esempio, sessione utente, trace ID e risposta del modello).
Utilizza uno schema di registrazione coerente per supportare le pipeline di analisi, avvisi e analisi a valle.
Emetti metriche personalizzate per livello per aiutare a tracciare gli errori relativi al modello rispetto ai problemi dell'infrastruttura.
Contrassegna i log in base all'ambiente e al contesto per consentire il filtraggio in base al ruolo dell'utente, alla regione, alla versione o al team.
Utilizza gli allarmi di rilevamento delle anomalie per rilevare picchi di token, picchi di latenza o deviazioni dell'output.
Correla i log di risposta LLM con l'impatto a valle per collegare gli output degli agenti a decisioni, escalation o errori.
Automatizza la generazione di report tramite dashboard settimanali con costi rapidi, utilizzo dei modelli e tassi di fallback per promuovere la responsabilità e i cicli di miglioramento.

Riepilogo dell'osservabilità e del monitoraggio

Nei sistemi serverless basati sull'intelligenza artificiale, non si monitorano gli host. Al contrario, monitorate il comportamento, i costi e la correttezza. L'osservabilità fornisce le basi per la resilienza operativa, il controllo e la previsione dei costi, la valutazione delle prestazioni LLM, la governance e la conformità e il miglioramento continuo dei tempi e degli agenti.

Le funzionalità native Servizi AWS che supportano l'osservabilità e il monitoraggio, insieme alla telemetria strutturata e sensibile agli eventi, forniscono le funzionalità necessarie. Con queste funzionalità, i team possono gestire con sicurezza carichi di lavoro di intelligenza artificiale su larga scala, sapendo cosa sta succedendo, dove e perché.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Test e convalida

Sicurezza e governance