Errori di consegna degli eventi Ritardi nella consegna degli eventi

Le migliori pratiche per monitorare la distribuzione degli eventi in Amazon EventBridge

Per garantire che la logica di business delle applicazioni basate sugli eventi venga eseguita in modo affidabile, è essenziale monitorare il comportamento di distribuzione degli eventi. EventBridge fornisce metriche che consentono di monitorare, rilevare e mitigare tempestivamente i problemi per garantire una distribuzione affidabile degli eventi. Tali parametri includono:

Counter-based metriche, come, RetryInvocationAttempts e InvocationAttempts SuccessfulInvocationAttemptsFailedInvocations, per consentire di osservare la limitazione degli obiettivi e calcolare i tassi di errore.
Latency-based metriche, ad esempio per fornire informazioni sulla IngestionToInvocationSuccessLatency consegna degli eventi e sui ritardi.

Queste metriche consentono di monitorare lo stato delle architetture basate sugli eventi e di comprendere e mitigare i problemi di distribuzione degli eventi causati da obiettivi poco performanti, sottodimensionati o che non rispondono. Ad esempio, un obiettivo costantemente sottodimensionato o limitato può portare a tentativi eccessivi, ritardi nella consegna degli eventi e errori di consegna permanenti.

Ti consigliamo di combinare più metriche per ottenere una panoramica olistica e monitorarle attentamente. La configurazione di allarmi e dashboard appropriati consente di risolvere tempestivamente i problemi persistenti.

Per informazioni su metriche specifiche, consulta. EventBridge metriche

Rilevamento degli errori di consegna degli eventi

EventBridge include metriche che è possibile configurare per segnalare le chiamate di destinazione, ovvero i tentativi di consegna degli eventi, in base alla regola.

Ti consigliamo di monitorare le seguenti metriche a livello di regola:

InvocationAttemptsper osservare il numero totale di EventBridge tentativi di richiamo dell'obiettivo, compresi i nuovi tentativi di consegna degli eventi.
SuccessfulInvocationAttemptsper il numero di tentativi di invocazione in cui l'evento è EventBridge stato inviato con successo alla destinazione.
RetryInvocationAttemptsper il numero di tentativi che rappresentano nuovi tentativi di consegna dell'evento.

Un aumento RetryInvocationAttempts può essere un'indicazione precoce di un obiettivo sottodimensionato.

Inoltre, poiché l'aumento dei tentativi di ripetizione può essere un primo segno di problemi di consegna, consigliamo anche di creare un'unica metrica che registri la percentuale di invocazioni di Target riuscite rispetto a tutte le chiamate di Target. Ad esempio, CloudWatch puoi usare la matematica metrica per creare una metrica di questo tipo, chiamata, utilizzando la seguente formula: SuccessfulInvocationRate

SuccessfulInvocationRate = SuccessfulInvocationAttempts / InvocationAttempts

Quindi, a seconda delle tue esigenze, puoi configurare gli CloudWatch allarmi per creare notifiche quando viene raggiunta una determinata soglia.

Sebbene una diminuzione occasionale SuccessfulInvocationRate dovuta a picchi di traffico temporanei o errori di invocazione possa essere considerata normale, una mancata corrispondenza costante è indice di un obiettivo mal configurato e deve essere affrontata nell'ambito del modello di responsabilità condivisa.

Per ulteriori informazioni sulla matematica dei parametri, consulta Using math expression with CloudWatch metrics nella Amazon User Guide. CloudWatch

Per impostazione predefinita, EventBridge riprova a fornire un evento per 24 ore e fino a 185 volte. Dopo aver EventBridge esaurito questi nuovi tentativi, EventBridge annulla l'evento o lo invia a una coda di lettere morte, se ne è stata specificata una. Per ulteriori informazioni, consulta Riprova a consegnare un evento. Per evitare di perdere gli eventi se non vengono consegnati, ti consigliamo di configurare una coda di lettere non scritte per ogni destinazione della regola. Per ulteriori informazioni, consulta Utilizzo di code DLQ.

Gli eventi che EventBridge non vengono consegnati alla destinazione specificata vengono riportati nella FailedInvocations metrica e nella InvocationsSentToDlq metrica se hai configurato una coda di lettere morte per la destinazione. Se la tua applicazione registra un numero elevato di InvocationsSentToDlq segnalazioni, ti consigliamo di FailedInvocations verificare se l'obiettivo è dimensionato correttamente e se è in grado di ricevere il traffico specificato.

Rilevamento dei ritardi nella consegna degli eventi

EventBridge fornisce inoltre una metrica che consente di osservare la latenza end-to-end, ovvero il tempo necessario dall'inserimento dell'evento alla corretta consegna al target. Ciò IngestionToInvocationSuccessLatency può essere ottenuto con la metrica. Questa metrica evidenzia gli effetti dei nuovi tentativi e dei ritardi nelle consegne, ad esempio a causa di timeout e di risposte lente da parte degli obiettivi. IngestionToInvocationSuccessLatencyinclude il tempo impiegato dal target per rispondere correttamente alla consegna dell'evento. Ciò consente di monitorare la latenza end-to-end tra EventBridge e il target e di rilevare le variazioni delle prestazioni e il degrado degli obiettivi, anche in assenza di limitazione o errori del target.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Monitoraggio

CloudWatch Eventi