Metriche di inferenza Metriche dei token Dimensioni Scelta del giusto livello di granularità Differenze rispetto alle metriche di base in fase di esecuzione Visualizzazione delle metriche bedrock-mantle

Monitora l'`inferenza tra basamento e mantello utilizzando` le metriche CloudWatch

Amazon Bedrock OpenAI-compatible endpoint (bedrock-mantle.region.api.aws) pubblica i parametri rivolti ai clienti su Amazon nello spazio dei nomi. CloudWatch AWS/BedrockMantle Utilizza queste metriche per monitorare il volume di inferenza, il consumo di token e i tassi di errore nei tuoi progetti e modelli. Account AWS

Se la tua applicazione richiama l'inferenza bedrock-runtime.region.amazonaws.com utilizzando Converse,, o ConverseStream InvokeModel InvokeModelWithResponseStream, vedi invece. Metriche di runtime Amazon Bedrock bedrock-mantlele metriche coprono solo l'inferenza emessa tramite l'API Responses, l'API Chat Completions e l'API Anthropic Messages sull'endpoint. bedrock-mantle

bedrock-mantlepubblica metriche a quattro livelli di granularità. Ogni livello utilizza una diversa combinazione di CloudWatch dimensioni, descritta in. Dimensioni Tutte le metriche si riferiscono al tuo. Account AWS

Metriche di inferenza

Metriche di inferenza
Nome parametro	Unità	Description
`Inferences`	Conteggio	Numero totale di richieste di inferenza completate tramite le API Responses, Chat Completions e Messages. Pubblicato a livello di Account, Project, Model e Project+Model.
`InferenceClientErrors`	Conteggio	Numero di richieste di inferenza non riuscite con un errore lato client (4xx). Pubblicato a livello di account, progetto, modello e progetto+modello.

Metriche dei token

Metriche dei token
Nome parametro	Unità	Description
`TotalInputTokens`	Conteggio	Token di input fatturabili aggregati elaborati entro l'intervallo di pubblicazione. Pubblicato a livello di account, progetto e modello. Utilizzato per somme e calcoli dei tassi.
`TotalOutputTokens`	Conteggio	Token di output fatturabili aggregati generati nell'intervallo di pubblicazione. Pubblicato a livello di account, progetto e modello.
`InputTokens`	Conteggio	Per-inference token di input fatturabili. Ogni inferenza completata emette un dato. Pubblicato solo a livello di progetto+modello. Usalo quando hai bisogno di statistiche percentili (p50/p90/p99) sul conteggio dei token per richiesta.
`OutputTokens`	Conteggio	Per-inference token di output fatturabili. Ogni inferenza completata emette un dato. Pubblicato solo a livello di progetto+modello.

Dimensioni

Dimensioni
Nome dimensione	Valori	Si applica a
`Project`	L'ID del progetto associato alla richiesta di inferenza.	Progetto, progetto+modello
`Model`	L'identificatore del modello (ad esempio,). `anthropic.claude-opus-4-7`	Modello, progetto+modello

Account-level le metriche hanno un ambito specifico Account AWS e non hanno dimensioni aggiuntive. Ogni livello di granularità viene emesso in modo indipendente, quindi una singola inferenza contribuisce a tutti e quattro i livelli quando è possibile risolvere sia il progetto che il modello.

Scelta del giusto livello di granularità

Livello di account: utilizzo complessivo, tasso di errore e volume aggregato dei token. Adatto per dashboard di alto livello e allarmi a livello di account. Non adatto per l'analisi dei costi, poiché i prezzi variano in base al modello.
A livello di progetto: riepiloghi per progetto per chargeback e dashboard a livello di team.
Livello di modello: utilizzo e tassi di errore per modello, adatti per la migrazione di dashboard basati sulla dimensione esistente. bedrock-runtime ModelId
Livello progetto+modello: livello principale per l'analisi dei costi, la latenza percentile e l'analisi dei token. Usalo quando hai bisogno sia dell'attribuzione del progetto che dell'attribuzione del modello sullo stesso dato.

`Differenze rispetto alle metriche di base in fase di esecuzione`

Namespace separato. bedrock-mantlele metriche vengono pubblicate su. AWS/BedrockMantle Le dashboard e gli allarmi esistenti su cui sono stati creati non AWS/Bedrock aumenteranno il traffico. bedrock-mantle
Denominazione. bedrock-mantleusa Inferences piuttosto cheInvocations, TotalInputTokens e TotalOutputTokens piuttosto che InputTokenCount e OutputTokenCount InferenceClientErrors piuttosto InvocationClientErrors che.
Dimensione del progetto. bedrock-mantlele metriche hanno una Project dimensione diversa dalle bedrock-runtime metriche, che consente l'attribuzione dei costi per progetto.
Cross-region inferenza. bedrock-mantleè solo all'interno della regione. Le metriche vengono emesse nella regione che ha gestito la richiesta e non vengono aggregate tra le regioni allo stesso modo in cui è attivo il traffico di inferenza interregionale (CRIS). bedrock-runtime
Metriche di latenza. InvocationLatencye TimeToFirstToken gli equivalenti non sono ancora stati pubblicati da. bedrock-mantle

Visualizzazione delle metriche `bedrock-mantle`

Per visualizzare le metriche nella console: bedrock-mantle CloudWatch

Apri la CloudWatch console.
Nel pannello di navigazione, seleziona Metrics (Parametri), All metrics (Tutti i parametri).
Scegli il namespace AWS/BedrockMantle.
Seleziona un livello di granularità scegliendo il set di dimensioni che corrisponde alla tua query (ad esempio, Project, Model per le suddivisioni di progetti e modelli).

È necessario disporre delle autorizzazioni appropriate per leggere le metriche. CloudWatch bedrock-mantle Per ulteriori informazioni, consulta Autenticazione e controllo degli accessi per Amazon CloudWatch nella Amazon CloudWatch User Guide.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Monitora il substrato roccioso-mantello

CloudTrail

Monitora l'inferenza tra basamento e mantello utilizzando le metriche CloudWatch