Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Osservabilità e monitoraggio
L'osservabilità è essenziale per gestire sistemi basati su eventi e basati sull'intelligenza artificiale su larga scala. A differenza delle applicazioni monolitiche, i sistemi di intelligenza artificiale generativi e serverless sono distribuiti, stateless e composti da elaborazione effimera e servizi di intelligenza artificiale integrati (ad esempio, Amazon Bedrock e Amazon). SageMaker Queste caratteristiche richiedono una nuova concezione della visibilità, della correlazione e della responsabilità.
Senza osservabilità, i team devono affrontare i seguenti problemi:
-
Punti ciechi nell'esecuzione e nel comportamento degli agenti
-
Anomalie dei costi o regressioni delle prestazioni non rilevate
-
Informazioni limitate sugli output del modello e sulla qualità del Large Language Model (LLM)
-
Difficoltà nell'analisi delle cause principali nei flussi di lavoro asincroni
L'osservabilità gioca un ruolo fondamentale nelle seguenti aree dell'IA serverless:
-
I risultati dell'IA non sono deterministici LLMs . La registrazione e l'ispezione dei loro risultati sono l'unico modo per convalidarne la correttezza nel tempo.
-
Esecuzione senza server: AWS Lambda e Amazon EventBridge non funziona su host fissi. AWS Step Functions Il monitoraggio deve essere basato sulla traccia, non su server.
-
Costi e latenza: l'utilizzo di Amazon Bedrock si basa su token. Lambda e Step Functions vengono addebitati in base alla durata e all'esecuzione.
-
Sicurezza e governance: i registri tempestivi, l'utilizzo degli strumenti degli agenti e le chiamate API devono essere controllati e adattati al contesto dell'identità e del ruolo.
-
Esperienza utente: guasti, ritardi o allucinazioni influiscono sulla fiducia. L'individuazione precoce di questi problemi è fondamentale per mantenere la fiducia degli utenti nei sistemi di intelligenza artificiale.
Principali metriche di osservabilità da monitorare
La tabella seguente descrive l'importanza delle metriche chiave relative all'osservabilità e al monitoraggio.
Categoria di metriche |
Parametro |
Perché la metrica è importante |
|---|---|---|
Comportamento dell'agente |
|
Rivela il disallineamento tra intento e azione. |
Tendenze dei costi |
Costo di inferenza per utente o sessione |
Consente la FinOps creazione di report e decisioni di routing dei modelli a più livelli. |
Parametri di invocazione |
|
Convalida la stabilità della pipeline e la resilienza agli errori. |
Recupero della Knowledge Base |
|
Misura le prestazioni della pipeline RAG. |
Latenza |
Latenza di inferenza per modello |
|
Qualità tempestiva e di risposta |
|
Assicura che la messa a terra funzioni e che le istruzioni si comportino come previsto. |
Sicurezza e accesso |
Utilizzo di agenti e strumenti in base al ruolo IAM |
Garantisce il principio del privilegio minimo e della tracciabilità. |
Utilizzo dei token |
Token totali di input e output (Amazon Bedrock) |
|
Stato del flusso di lavoro |
Errori, nuovi tentativi e timeout del flusso di lavoro di Step Functions |
Risolve i problemi di orchestrazione e i cicli di ripetizione dei tentativi. |
Servizi AWS per osservare l'IA generativa e senza server
La tabella seguente descrive Servizi AWS le funzionalità che supportano l'osservabilità per applicazioni di intelligenza artificiale generativa e senza server, compresi i loro casi d'uso ideali.
Servizio AWS |
Descrizione |
Caso d’uso ideale |
|---|---|---|
Acquisisce i log da Lambda, Step Functions, Amazon Bedrock Agents e Amazon API Gateway |
|
|
Indicatori di prestazioni chiave personalizzati e generati dal servizio (KPIs), come il numero di chiamate, la durata e il numero di token |
|
|
Tracce su flussi serverless, tra cui Lambda, API Gateway e Step Functions |
|
|
Registrazione strutturata per metriche avanzate nei flussi di log |
Abilita l'analisi senza chiamate metriche separate |
|
Registrazione delle chiamate di modelli e tracciamento degli agenti Amazon Bedrock |
Traccia di esecuzione nativa di Amazon Bedrock Agent, chiamate agli strumenti e approfondimenti RAG |
Monitora il comportamento degli agenti e risolvi gli errori |
Monitora e convalida i formati degli eventi che fluiscono nella tua pipeline |
|
|
Registra tutte le chiamate API e il contesto dell'identità |
|
|
Indicizza le risposte di inferenza, i log strutturati o i record di controllo |
|
|
Simula il traffico per testare endpoint o flussi di lavoro in modo proattivo |
Garantisci il monitoraggio dell'operatività e della regressione tra le versioni |
Esempio: monitoraggio di un flusso di lavoro di supporto basato su agenti
Per monitorare efficacemente un flusso di lavoro di supporto basato su agenti, prendi in considerazione l'utilizzo delle seguenti metriche nella fase del flusso di lavoro associata:
-
Interrogazione dell'utente su API Gateway: monitora il tempo di risposta e 5xx errori.
-
Funzione Lambda del preprocessore: monitora gli avviamenti a freddo e gli errori di analisi.
-
Agente Amazon Bedrock: monitora i prompt, le tracce delle chiamate agli strumenti, il costo dei token e la latenza.
-
Funzione Tool Lambda (ad esempio,
getOrderStatus): monitora il tempo di esecuzione e il numero di chiamate dello strumento per utente. -
Interrogazione RAG tramite la knowledge base: monitora il punteggio di pertinenza e i fondamenti mancanti.
-
Funzione Lambda del postprocessore: monitora la convalida dello schema e i trigger di fallback.
-
Registri CloudWatch e OpenSearch: monitora i registri delle sessioni, traccia e modella la qualità della risposta. IDs
-
Allarmi: monitora gli avvisi per rilevare tassi di errore elevati, picchi di costo per sessione e latenza ridotta.
Le migliori pratiche per l'osservabilità
Prendi in considerazione le seguenti best practice per l'osservabilità nei flussi di lavoro di intelligenza artificiale generativi e senza server:
-
Strumenta i flussi di intelligenza artificiale con log strutturati per consentire la correlazione tra i componenti (ad esempio, sessione utente, trace ID e risposta del modello).
-
Utilizza uno schema di registrazione coerente per supportare le pipeline di analisi, avvisi e analisi a valle.
-
Emetti metriche personalizzate per livello per aiutare a tracciare gli errori relativi al modello rispetto ai problemi dell'infrastruttura.
-
Contrassegna i log in base all'ambiente e al contesto per consentire il filtraggio in base al ruolo dell'utente, alla regione, alla versione o al team.
-
Utilizza gli allarmi di rilevamento delle anomalie per rilevare picchi di token, picchi di latenza o deviazioni dell'output.
-
Correla i log di risposta LLM con l'impatto a valle per collegare gli output degli agenti a decisioni, escalation o errori.
-
Automatizza la generazione di report tramite dashboard settimanali con costi rapidi, utilizzo dei modelli e tassi di fallback per promuovere la responsabilità e i cicli di miglioramento.
Riepilogo dell'osservabilità e del monitoraggio
Nei sistemi serverless basati sull'intelligenza artificiale, non si monitorano gli host. Al contrario, monitorate il comportamento, i costi e la correttezza. L'osservabilità fornisce le basi per la resilienza operativa, il controllo e la previsione dei costi, la valutazione delle prestazioni LLM, la governance e la conformità e il miglioramento continuo dei tempi e degli agenti.
Le funzionalità native Servizi AWS che supportano l'osservabilità e il monitoraggio, insieme alla telemetria strutturata e sensibile agli eventi, forniscono le funzionalità necessarie. Con queste funzionalità, i team possono gestire con sicurezza carichi di lavoro di intelligenza artificiale su larga scala, sapendo cosa sta succedendo, dove e perché.