Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Capacità, limiti e ottimizzazione dei costi
Amazon Bedrock offre opzioni di capacità flessibili per soddisfare i requisiti di carico di lavoro e il budget. Comprendere le differenze tra i livelli on-demand (Flex, Priority, Standard), il livello riservato, l'elaborazione in batch e l'inferenza tra regioni aiuta a ottimizzare sia le prestazioni che i costi.
Opzioni di capacità
| Tipo di capacità | Caso d'uso | Caratteristiche chiave |
|---|---|---|
| Su richiesta: Flex | Carichi di lavoro sporadici e a basso volume |
|
| Su richiesta: standard | Carichi di lavoro di produzione regolari |
|
| Su richiesta: priorità | App ad alta priorità e sensibili alla latenza |
|
| Livello riservato | Carichi di lavoro coerenti e ad alto volume |
|
| Archiviazione | Elaborazione su larga scala non-time-sensitive |
|
| Inferenza tra regioni | Alta disponibilità, traffico vertiginoso |
|
Limiti e quote
Limiti su richiesta (per livello)
| Livello | Intervallo di giri | Intervallo TPM | Rischio di limitazione |
|---|---|---|---|
| Flettere | 10-100 | 5K-50K | Elevata |
| Standard | 100-500 | 50K-150K | Media |
| Priorità | 500-1000 + | 150K-300K+ | Bassa |
Capacità burst: disponibile su tutti i livelli per picchi brevi
Limiti flessibili: aumentabili tramite richieste di quote di servizio
Specifico del modello: i limiti effettivi variano in base al modello di base
Limiti riservati ai livelli
Impegno minimo: 1 unità modello
Unità massime: specifiche per account e regione
Limiti dei token di input/output: in base alle unità acquistate
Nessuna limitazione del numero di giri all'interno della capacità acquistata
Limiti di elaborazione in batch
Dimensione del lavoro: fino a 10.000 record per batch
Dimensione del file: massimo 200 MB di file di input
Tempo di elaborazione: finestra di completamento di 24 ore
Lavori simultanei: quote specifiche per regione
Inferenza tra regioni
Eredita i limiti dei livelli on-demand per regione
Nessun sovraccarico di quota aggiuntivo
Routing automatico (nessuna gestione manuale dei limiti)
Ottimizzazione dei costi
Quadro decisionale
| Scenario | Opzione consigliata | Perché |
|---|---|---|
| Sviluppo/test | Flettere | Costo più basso, accettabile per la non produzione |
| Produzione standard | Standard | Il miglior equilibrio tra costi e prestazioni |
| App critiche rivolte agli utenti | Priorità | Affidabilità e prestazioni rispetto ai costi |
| Carico costante ad alto volume | Livello riservato | Risparmio del 30-50% con impegno |
| Elaborazione di dati in blocco | Archiviazione | 50% di sconto, carichi di lavoro non urgenti |
| Operatività fondamentale | Inferenza tra regioni | Disponibilità > costo |
Strategie di ottimizzazione
Scegli il livello on-demand giusto
Inizia con Standard per la maggior parte dei carichi di lavoro
Esegui il downgrade a Flex per ambienti dev/test
Esegui l'upgrade a Priority solo quando la limitazione ha un impatto sugli utenti
Monitora le CloudWatch metriche di accelerazione per prendere decisioni informate
Transizione al livello riservato
Quando il carico costante supera il 40% dei costi on-demand
Calcola il pareggio: (costo mensile su richiesta) vs (impegno riservato)
Utilizza inizialmente un impegno di 1 mese
Il livello riservato può funzionare insieme a qualsiasi livello on-demand
Sfrutta Batch per
Generazione di dati di formazione
Arretrati relativi alla moderazione dei contenuti
Generazione di report
Pipeline di arricchimento dei dati
Combina approcci
Livello riservato per il traffico di base
Standard on-demand per raffiche moderate
Priorità su richiesta per i periodi di picco critici
Batch per l'elaborazione offline
Interregione solo per il failover
Monitoraggio dei costi
Confronta i costi dei livelli: Flex < Standard < Priority
Tieni traccia dei token per richiesta (ottimizza le istruzioni)
Utilizza le CloudWatch metriche per l'utilizzo e la limitazione
Imposta allarmi di fatturazione per picchi imprevisti
Verifica mensilmente l'utilizzo del livello riservato
Valuta gli upgrade di livello solo in caso di limitazione