Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà. # Capacità e prestazioni Amazon Bedrock offre opzioni di capacità flessibili per soddisfare i requisiti di carico di lavoro e il budget. Comprendere le differenze tra i livelli on-demand (Flex, Priority, Standard), il livello riservato, l'elaborazione in batch e l'inferenza tra regioni aiuta a ottimizzare sia le prestazioni che i costi. ## Opzioni di capacità | Tipo di capacità | Caso d'uso | Caratteristiche chiave | | --- | --- | --- | | On-Demand: Flex | Carichi di lavoro sporadici e a basso volume | [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | On-Demand: Standard | Carichi di lavoro di produzione regolari | [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | On-Demand: Priorità | High-priority, app sensibili alla latenza | [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Livello riservato | Carichi di lavoro coerenti e ad alto volume | [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Archiviazione | Large-scale, elaborazione non sensibile al fattore tempo | [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Cross-Region Inferenza | Alta disponibilità, traffico vertiginoso | [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | ## Limiti & e quote ### On-Demand Limiti (per livello) | Livello | Intervallo di giri | Intervallo TPM | Rischio di limitazione | | --- | --- | --- | --- | | Flettere | 10-100 | 5K-50K | Elevata | | Standard | 100-500 | 50 K-150K | Media | | Priorità | 500-1000 \+ | 150 \+ K-300K | Bassa | + Capacità burst: disponibile su tutti i livelli per picchi brevi + Limiti flessibili: aumentabili tramite richieste di quote di servizio + Model-specific: I limiti effettivi variano in base al modello di base ### Limiti dei livelli riservati + Impegno minimo: 1 unità modello + Unità massime: specifiche per account e regione + Input/output limiti dei token: in base alle unità acquistate + Nessuna limitazione del numero di giri all'interno della capacità acquistata ### Limiti di elaborazione in batch + Dimensione del lavoro: fino a 10.000 record per batch + Dimensione del file: massimo 200 MB di file di input + Tempo di elaborazione: finestra di completamento di 24 ore + Lavori simultanei: quote Region-specific ### Cross-Region Inferenza + Eredita i limiti dei livelli on-demand per regione + Nessun sovraccarico di quota aggiuntivo + Routing automatico (nessuna gestione manuale dei limiti) ## Scelta di un livello ### Quadro decisionale | Scenario | Opzione consigliata | Perché | | --- | --- | --- | | Development/testing | Flettere | Costo più basso, accettabile per la non produzione | | Produzione standard | Standard | Il miglior equilibrio tra costi e prestazioni | | App critiche rivolte agli utenti | Priorità | Affidabilità e prestazioni rispetto ai costi | | Carico costante ad alto volume | Livello riservato | Risparmio del 30-50% con impegno | | Elaborazione di dati in blocco | Archiviazione | 50% di sconto, carichi di lavoro non urgenti | | Mission-critical operatività | Cross-Region Inferenza | Disponibilità > costo | ### Strategie di ottimizzazione **Scegli il On-Demand livello giusto** + Inizia con Standard per la maggior parte dei carichi di lavoro + Esegui il downgrade a Flex per ambienti dev/test + Esegui l'upgrade a Priority solo quando la limitazione ha un impatto sugli utenti + Monitora le CloudWatch metriche relative all'acceleratore per prendere decisioni informate **Transizione al livello riservato** + Quando il carico costante supera il 40% dei costi on-demand + Calcola il pareggio: (costo mensile su richiesta) vs (impegno riservato) + Utilizza inizialmente un impegno di 1 mese + Il livello riservato può funzionare insieme a qualsiasi livello on-demand **Usa Batch per** + Generazione di dati di addestramento + Arretrati relativi alla moderazione dei contenuti + Generazione di report + Pipeline di arricchimento dei dati **Combina approcci** + Livello riservato per il traffico di base + Standard on-demand per raffiche moderate + Priorità su richiesta per i periodi di picco critici + Batch per l'elaborazione offline + Cross-region solo per il failover **Monitoraggio dei costi** + Confronta i costi dei livelli: Flex < Standard < Priority + Tieni traccia dei token per richiesta (ottimizza le istruzioni) + Utilizza le CloudWatch metriche per l'uso e la limitazione + Imposta allarmi di fatturazione per picchi imprevisti + Verifica mensilmente l'utilizzo del piano riservato + Valuta gli upgrade di livello solo in caso di limitazione