Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Capacità e prestazioni
Amazon Bedrock offre opzioni di capacità flessibili per soddisfare i requisiti di carico di lavoro e il budget. Comprendere le differenze tra i livelli on-demand (Flex, Priority, Standard), il livello riservato, l'elaborazione in batch e l'inferenza tra regioni aiuta a ottimizzare sia le prestazioni che i costi.
Opzioni di capacità
| Tipo di capacità | Caso d'uso | Caratteristiche chiave |
|---|---|---|
| On-Demand: Flex | Carichi di lavoro sporadici e a basso volume |
|
| On-Demand: Standard | Carichi di lavoro di produzione regolari |
|
| On-Demand: Priorità | High-priority, app sensibili alla latenza |
|
| Livello riservato | Carichi di lavoro coerenti e ad alto volume |
|
| Archiviazione | Large-scale, elaborazione non sensibile al fattore tempo |
|
| Cross-Region Inferenza | Alta disponibilità, traffico vertiginoso |
|
Limiti & e quote
On-Demand Limiti (per livello)
| Livello | Intervallo di giri | Intervallo TPM | Rischio di limitazione |
|---|---|---|---|
| Flettere | 10-100 | 5K-50K | Elevata |
| Standard | 100-500 | 50 K-150K | Media |
| Priorità | 500-1000 + | 150 + K-300K | Bassa |
Capacità burst: disponibile su tutti i livelli per picchi brevi
Limiti flessibili: aumentabili tramite richieste di quote di servizio
Model-specific: I limiti effettivi variano in base al modello di base
Limiti dei livelli riservati
Impegno minimo: 1 unità modello
Unità massime: specifiche per account e regione
Input/output limiti dei token: in base alle unità acquistate
Nessuna limitazione del numero di giri all'interno della capacità acquistata
Limiti di elaborazione in batch
Dimensione del lavoro: fino a 10.000 record per batch
Dimensione del file: massimo 200 MB di file di input
Tempo di elaborazione: finestra di completamento di 24 ore
Lavori simultanei: quote Region-specific
Cross-Region Inferenza
Eredita i limiti dei livelli on-demand per regione
Nessun sovraccarico di quota aggiuntivo
Routing automatico (nessuna gestione manuale dei limiti)
Scelta di un livello
Quadro decisionale
| Scenario | Opzione consigliata | Perché |
|---|---|---|
| Development/testing | Flettere | Costo più basso, accettabile per la non produzione |
| Produzione standard | Standard | Il miglior equilibrio tra costi e prestazioni |
| App critiche rivolte agli utenti | Priorità | Affidabilità e prestazioni rispetto ai costi |
| Carico costante ad alto volume | Livello riservato | Risparmio del 30-50% con impegno |
| Elaborazione di dati in blocco | Archiviazione | 50% di sconto, carichi di lavoro non urgenti |
| Mission-critical operatività | Cross-Region Inferenza | Disponibilità > costo |
Strategie di ottimizzazione
Scegli il On-Demand livello giusto
Inizia con Standard per la maggior parte dei carichi di lavoro
Esegui il downgrade a Flex per ambienti dev/test
Esegui l'upgrade a Priority solo quando la limitazione ha un impatto sugli utenti
Monitora le CloudWatch metriche relative all'acceleratore per prendere decisioni informate
Transizione al livello riservato
Quando il carico costante supera il 40% dei costi on-demand
Calcola il pareggio: (costo mensile su richiesta) vs (impegno riservato)
Utilizza inizialmente un impegno di 1 mese
Il livello riservato può funzionare insieme a qualsiasi livello on-demand
Usa Batch per
Generazione di dati di addestramento
Arretrati relativi alla moderazione dei contenuti
Generazione di report
Pipeline di arricchimento dei dati
Combina approcci
Livello riservato per il traffico di base
Standard on-demand per raffiche moderate
Priorità su richiesta per i periodi di picco critici
Batch per l'elaborazione offline
Cross-region solo per il failover
Monitoraggio dei costi
Confronta i costi dei livelli: Flex < Standard < Priority
Tieni traccia dei token per richiesta (ottimizza le istruzioni)
Utilizza le CloudWatch metriche per l'uso e la limitazione
Imposta allarmi di fatturazione per picchi imprevisti
Verifica mensilmente l'utilizzo del piano riservato
Valuta gli upgrade di livello solo in caso di limitazione