Opzioni di capacità Limiti & e quote Scelta di un livello

Capacità e prestazioni

Amazon Bedrock offre opzioni di capacità flessibili per soddisfare i requisiti di carico di lavoro e il budget. Comprendere le differenze tra i livelli on-demand (Flex, Priority, Standard), il livello riservato, l'elaborazione in batch e l'inferenza tra regioni aiuta a ottimizzare sia le prestazioni che i costi.

Opzioni di capacità

Tipo di capacità	Caso d'uso	Caratteristiche chiave
On-Demand: Flex	Carichi di lavoro sporadici e a basso volume	Costo per token più basso Best-effort disponibilità Potrebbe verificarsi una limitazione Nessuno SLA
On-Demand: Standard	Carichi di lavoro di produzione regolari	Costi e prestazioni bilanciati Garanzie di produttività moderate SLA standard La scelta più comune
On-Demand: Priorità	High-priority, app sensibili alla latenza	Costo on-demand più elevato Allocazione del throughput premium SLA migliorato Rischio di strozzamento ridotto
Livello riservato	Carichi di lavoro coerenti e ad alto volume	Unità modello riservate Capacità garantita Impegni di 1 o 3 mesi Prestazioni prevedibili
Archiviazione	Large-scale, elaborazione non sensibile al fattore tempo	Risparmio sui costi del 50% rispetto a quello su richiesta Finestra di elaborazione di 24 ore Ideale per l'inferenza di massa
Cross-Region Inferenza	Alta disponibilità, traffico vertiginoso	Failover automatico Percorso verso regioni meno trafficate Maggiore operatività Utilizza prezzi su richiesta

Limiti & e quote

On-Demand Limiti (per livello)

Livello	Intervallo di giri	Intervallo TPM	Rischio di limitazione
Flettere	10-100	5K-50K	Elevata
Standard	100-500	50 K-150K	Media
Priorità	500-1000 +	150 + K-300K	Bassa

Capacità burst: disponibile su tutti i livelli per picchi brevi
Limiti flessibili: aumentabili tramite richieste di quote di servizio
Model-specific: I limiti effettivi variano in base al modello di base

Limiti dei livelli riservati

Impegno minimo: 1 unità modello
Unità massime: specifiche per account e regione
Input/output limiti dei token: in base alle unità acquistate
Nessuna limitazione del numero di giri all'interno della capacità acquistata

Limiti di elaborazione in batch

Dimensione del lavoro: fino a 10.000 record per batch
Dimensione del file: massimo 200 MB di file di input
Tempo di elaborazione: finestra di completamento di 24 ore
Lavori simultanei: quote Region-specific

Cross-Region Inferenza

Eredita i limiti dei livelli on-demand per regione
Nessun sovraccarico di quota aggiuntivo
Routing automatico (nessuna gestione manuale dei limiti)

Scelta di un livello

Quadro decisionale

Scenario	Opzione consigliata	Perché
Development/testing	Flettere	Costo più basso, accettabile per la non produzione
Produzione standard	Standard	Il miglior equilibrio tra costi e prestazioni
App critiche rivolte agli utenti	Priorità	Affidabilità e prestazioni rispetto ai costi
Carico costante ad alto volume	Livello riservato	Risparmio del 30-50% con impegno
Elaborazione di dati in blocco	Archiviazione	50% di sconto, carichi di lavoro non urgenti
Mission-critical operatività	Cross-Region Inferenza	Disponibilità > costo

Strategie di ottimizzazione

Scegli il On-Demand livello giusto

Inizia con Standard per la maggior parte dei carichi di lavoro
Esegui il downgrade a Flex per ambienti dev/test
Esegui l'upgrade a Priority solo quando la limitazione ha un impatto sugli utenti
Monitora le CloudWatch metriche relative all'acceleratore per prendere decisioni informate

Transizione al livello riservato

Quando il carico costante supera il 40% dei costi on-demand
Calcola il pareggio: (costo mensile su richiesta) vs (impegno riservato)
Utilizza inizialmente un impegno di 1 mese
Il livello riservato può funzionare insieme a qualsiasi livello on-demand

Usa Batch per

Generazione di dati di addestramento
Arretrati relativi alla moderazione dei contenuti
Generazione di report
Pipeline di arricchimento dei dati

Combina approcci

Livello riservato per il traffico di base
Standard on-demand per raffiche moderate
Priorità su richiesta per i periodi di picco critici
Batch per l'elaborazione offline
Cross-region solo per il failover

Monitoraggio dei costi

Confronta i costi dei livelli: Flex < Standard < Priority
Tieni traccia dei token per richiesta (ottimizza le istruzioni)
Utilizza le CloudWatch metriche per l'uso e la limitazione
Imposta allarmi di fatturazione per picchi imprevisti
Verifica mensilmente l'utilizzo del piano riservato
Valuta gli upgrade di livello solo in caso di limitazione

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Gestione di progetti con AWS CloudFormation

Livelli Reserved, Standard, Priority e Flex