View a markdown version of this page

Osservabilità e monitoraggio - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Osservabilità e monitoraggio

L'osservabilità è essenziale per gestire sistemi basati su eventi e basati sull'intelligenza artificiale su larga scala. A differenza delle applicazioni monolitiche, i sistemi di intelligenza artificiale generativi e serverless sono distribuiti, stateless e composti da elaborazione effimera e servizi di intelligenza artificiale integrati (ad esempio, Amazon Bedrock e Amazon). SageMaker Queste caratteristiche richiedono una nuova concezione della visibilità, della correlazione e della responsabilità.

Senza osservabilità, i team devono affrontare i seguenti problemi:

  • Punti ciechi nell'esecuzione e nel comportamento degli agenti

  • Anomalie dei costi o regressioni delle prestazioni non rilevate

  • Informazioni limitate sugli output del modello e sulla qualità del Large Language Model (LLM)

  • Difficoltà nell'analisi delle cause principali nei flussi di lavoro asincroni

L'osservabilità gioca un ruolo fondamentale nelle seguenti aree dell'IA serverless:

  • I risultati dell'IA non sono deterministici LLMs . La registrazione e l'ispezione dei loro risultati sono l'unico modo per convalidarne la correttezza nel tempo.

  • Esecuzione senza server: AWS Lambda e Amazon EventBridge non funziona su host fissi. AWS Step Functions Il monitoraggio deve essere basato sulla traccia, non su server.

  • Costi e latenza: l'utilizzo di Amazon Bedrock si basa su token. Lambda e Step Functions vengono addebitati in base alla durata e all'esecuzione.

  • Sicurezza e governance: i registri tempestivi, l'utilizzo degli strumenti degli agenti e le chiamate API devono essere controllati e adattati al contesto dell'identità e del ruolo.

  • Esperienza utente: guasti, ritardi o allucinazioni influiscono sulla fiducia. L'individuazione precoce di questi problemi è fondamentale per mantenere la fiducia degli utenti nei sistemi di intelligenza artificiale.

Principali metriche di osservabilità da monitorare

La tabella seguente descrive l'importanza delle metriche chiave relative all'osservabilità e al monitoraggio.

Categoria di metriche

Parametro

Perché la metrica è importante

Comportamento dell'agente

  • Frequenza di selezione degli utensili

  • Richiamazioni di strumenti non valide

Rivela il disallineamento tra intento e azione.

Tendenze dei costi

Costo di inferenza per utente o sessione

Consente la FinOps creazione di report e decisioni di routing dei modelli a più livelli.

Parametri di invocazione

  • Invocazioni Lambda

  • Tasso di errore

  • Partenze a freddo

Convalida la stabilità della pipeline e la resilienza agli errori.

Recupero della Knowledge Base

  • Rapporto Hit/Mancate

  • Punteggio di pertinenza fondamentale

Misura le prestazioni della pipeline RAG.

Latenza

Latenza di inferenza per modello

  • Rileva rallentamenti in Amazon Bedrock o. SageMaker

  • Ottimizza i tempi di risposta degli utenti.

Qualità tempestiva e di risposta

  • Tasso di allucinazioni

  • Tasso di fallback

Assicura che la messa a terra funzioni e che le istruzioni si comportino come previsto.

Sicurezza e accesso

Utilizzo di agenti e strumenti in base al ruolo IAM

Garantisce il principio del privilegio minimo e della tracciabilità.

Utilizzo dei token

Token totali di input e output (Amazon Bedrock)

  • Controlla i costi.

  • Rileva un rapido aumento o un uso improprio del modello.

Stato del flusso di lavoro

Errori, nuovi tentativi e timeout del flusso di lavoro di Step Functions

Risolve i problemi di orchestrazione e i cicli di ripetizione dei tentativi.

Servizi AWS per osservare l'IA generativa e senza server

La tabella seguente descrive Servizi AWS le funzionalità che supportano l'osservabilità per applicazioni di intelligenza artificiale generativa e senza server, compresi i loro casi d'uso ideali.

Servizio AWS

Descrizione

Caso d’uso ideale

CloudWatch Registri Amazon

Acquisisce i log da Lambda, Step Functions, Amazon Bedrock Agents e Amazon API Gateway

  • Debug

  • Audit trail

  • Tracciamento delle sessioni utente

CloudWatch Metriche Amazon

Indicatori di prestazioni chiave personalizzati e generati dal servizio (KPIs), come il numero di chiamate, la durata e il numero di token

  • Creazione di pannelli di controllo

  • Avvisi

  • Analisi delle tendenze

AWS X-Ray

Tracce su flussi serverless, tra cui Lambda, API Gateway e Step Functions

  • Analisi della causa principale

  • Monitoraggio della latenza

  • Mappatura delle dipendenze

CloudWatch formato metrico incorporato

Registrazione strutturata per metriche avanzate nei flussi di log

Abilita l'analisi senza chiamate metriche separate

Registrazione delle chiamate di modelli e tracciamento degli agenti Amazon Bedrock

Traccia di esecuzione nativa di Amazon Bedrock Agent, chiamate agli strumenti e approfondimenti RAG

Monitora il comportamento degli agenti e risolvi gli errori

Amazon EventBridge Pipes e registri degli schemi

Monitora e convalida i formati degli eventi che fluiscono nella tua pipeline

  • Previeni eventi malformati

  • Garantire la coerenza contr

AWS CloudTrail

Registra tutte le chiamate API e il contesto dell'identità

  • Conformità

  • Audit di sicurezza

  • Utilizzo di agenti e strumenti per ruolo

OpenSearch Servizio Amazon

Indicizza le risposte di inferenza, i log strutturati o i record di controllo

  • Ricerca semantica delle risposte

  • Dashboard di osservabilità

Amazon CloudWatch Synthetics

Simula il traffico per testare endpoint o flussi di lavoro in modo proattivo

Garantisci il monitoraggio dell'operatività e della regressione tra le versioni

Esempio: monitoraggio di un flusso di lavoro di supporto basato su agenti

Per monitorare efficacemente un flusso di lavoro di supporto basato su agenti, prendi in considerazione l'utilizzo delle seguenti metriche nella fase del flusso di lavoro associata:

  1. Interrogazione dell'utente su API Gateway: monitora il tempo di risposta e 5xx errori.

  2. Funzione Lambda del preprocessore: monitora gli avviamenti a freddo e gli errori di analisi.

  3. Agente Amazon Bedrock: monitora i prompt, le tracce delle chiamate agli strumenti, il costo dei token e la latenza.

  4. Funzione Tool Lambda (ad esempio,getOrderStatus): monitora il tempo di esecuzione e il numero di chiamate dello strumento per utente.

  5. Interrogazione RAG tramite la knowledge base: monitora il punteggio di pertinenza e i fondamenti mancanti.

  6. Funzione Lambda del postprocessore: monitora la convalida dello schema e i trigger di fallback.

  7. Registri CloudWatch e OpenSearch: monitora i registri delle sessioni, traccia e modella la qualità della risposta. IDs

  8. Allarmi: monitora gli avvisi per rilevare tassi di errore elevati, picchi di costo per sessione e latenza ridotta.

Le migliori pratiche per l'osservabilità

Prendi in considerazione le seguenti best practice per l'osservabilità nei flussi di lavoro di intelligenza artificiale generativi e senza server:

  • Strumenta i flussi di intelligenza artificiale con log strutturati per consentire la correlazione tra i componenti (ad esempio, sessione utente, trace ID e risposta del modello).

  • Utilizza uno schema di registrazione coerente per supportare le pipeline di analisi, avvisi e analisi a valle.

  • Emetti metriche personalizzate per livello per aiutare a tracciare gli errori relativi al modello rispetto ai problemi dell'infrastruttura.

  • Contrassegna i log in base all'ambiente e al contesto per consentire il filtraggio in base al ruolo dell'utente, alla regione, alla versione o al team.

  • Utilizza gli allarmi di rilevamento delle anomalie per rilevare picchi di token, picchi di latenza o deviazioni dell'output.

  • Correla i log di risposta LLM con l'impatto a valle per collegare gli output degli agenti a decisioni, escalation o errori.

  • Automatizza la generazione di report tramite dashboard settimanali con costi rapidi, utilizzo dei modelli e tassi di fallback per promuovere la responsabilità e i cicli di miglioramento.

Riepilogo dell'osservabilità e del monitoraggio

Nei sistemi serverless basati sull'intelligenza artificiale, non si monitorano gli host. Al contrario, monitorate il comportamento, i costi e la correttezza. L'osservabilità fornisce le basi per la resilienza operativa, il controllo e la previsione dei costi, la valutazione delle prestazioni LLM, la governance e la conformità e il miglioramento continuo dei tempi e degli agenti.

Le funzionalità native Servizi AWS che supportano l'osservabilità e il monitoraggio, insieme alla telemetria strutturata e sensibile agli eventi, forniscono le funzionalità necessarie. Con queste funzionalità, i team possono gestire con sicurezza carichi di lavoro di intelligenza artificiale su larga scala, sapendo cosa sta succedendo, dove e perché.