

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Capacità e prestazioni
<a name="capacity-limits-cost-optimization"></a>

Amazon Bedrock offre opzioni di capacità flessibili per soddisfare i requisiti di carico di lavoro e il budget. Comprendere le differenze tra i livelli on-demand (Flex, Priority, Standard), il livello riservato, l'elaborazione in batch e l'inferenza tra regioni aiuta a ottimizzare sia le prestazioni che i costi.

## Opzioni di capacità
<a name="capacity-options"></a>


| Tipo di capacità | Caso d'uso | Caratteristiche chiave | 
| --- | --- | --- | 
| On-Demand: Flex | Carichi di lavoro sporadici e a basso volume |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| On-Demand: Standard | Carichi di lavoro di produzione regolari |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| On-Demand: Priorità | High-priority, app sensibili alla latenza |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Livello riservato | Carichi di lavoro coerenti e ad alto volume |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Archiviazione | Large-scale, elaborazione non sensibile al fattore tempo |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Cross-Region Inferenza | Alta disponibilità, traffico vertiginoso |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 

## Limiti &amp; e quote
<a name="limits-quotas"></a>

### On-Demand Limiti (per livello)
<a name="on-demand-limits"></a>


| Livello | Intervallo di giri | Intervallo TPM | Rischio di limitazione | 
| --- | --- | --- | --- | 
| Flettere | 10-100 | 5K-50K | Elevata | 
| Standard | 100-500 | 50 K-150K | Media | 
| Priorità | 500-1000 \+ | 150 \+ K-300K | Bassa | 
+ Capacità burst: disponibile su tutti i livelli per picchi brevi
+ Limiti flessibili: aumentabili tramite richieste di quote di servizio
+ Model-specific: I limiti effettivi variano in base al modello di base

### Limiti dei livelli riservati
<a name="reserved-tier-limits"></a>
+ Impegno minimo: 1 unità modello
+ Unità massime: specifiche per account e regione
+ Input/output limiti dei token: in base alle unità acquistate
+ Nessuna limitazione del numero di giri all'interno della capacità acquistata

### Limiti di elaborazione in batch
<a name="batch-processing-limits"></a>
+ Dimensione del lavoro: fino a 10.000 record per batch
+ Dimensione del file: massimo 200 MB di file di input
+ Tempo di elaborazione: finestra di completamento di 24 ore
+ Lavori simultanei: quote Region-specific 

### Cross-Region Inferenza
<a name="cross-region-inference-limits"></a>
+ Eredita i limiti dei livelli on-demand per regione
+ Nessun sovraccarico di quota aggiuntivo
+ Routing automatico (nessuna gestione manuale dei limiti)

## Scelta di un livello
<a name="cost-optimization"></a>

### Quadro decisionale
<a name="decision-framework"></a>


| Scenario | Opzione consigliata | Perché | 
| --- | --- | --- | 
| Development/testing | Flettere | Costo più basso, accettabile per la non produzione | 
| Produzione standard | Standard | Il miglior equilibrio tra costi e prestazioni | 
| App critiche rivolte agli utenti | Priorità | Affidabilità e prestazioni rispetto ai costi | 
| Carico costante ad alto volume | Livello riservato | Risparmio del 30-50% con impegno | 
| Elaborazione di dati in blocco | Archiviazione | 50% di sconto, carichi di lavoro non urgenti | 
| Mission-critical operatività | Cross-Region Inferenza | Disponibilità > costo | 

### Strategie di ottimizzazione
<a name="optimization-strategies"></a>

**Scegli il On-Demand livello giusto**
+ Inizia con Standard per la maggior parte dei carichi di lavoro
+ Esegui il downgrade a Flex per ambienti dev/test 
+ Esegui l'upgrade a Priority solo quando la limitazione ha un impatto sugli utenti
+ Monitora le CloudWatch metriche relative all'acceleratore per prendere decisioni informate

**Transizione al livello riservato**
+ Quando il carico costante supera il 40% dei costi on-demand
+ Calcola il pareggio: (costo mensile su richiesta) vs (impegno riservato)
+ Utilizza inizialmente un impegno di 1 mese
+ Il livello riservato può funzionare insieme a qualsiasi livello on-demand

**Usa Batch per**
+ Generazione di dati di addestramento
+ Arretrati relativi alla moderazione dei contenuti
+ Generazione di report
+ Pipeline di arricchimento dei dati

**Combina approcci**
+ Livello riservato per il traffico di base
+ Standard on-demand per raffiche moderate
+ Priorità su richiesta per i periodi di picco critici
+ Batch per l'elaborazione offline
+ Cross-region solo per il failover

**Monitoraggio dei costi**
+ Confronta i costi dei livelli: Flex < Standard < Priority
+ Tieni traccia dei token per richiesta (ottimizza le istruzioni)
+ Utilizza le CloudWatch metriche per l'uso e la limitazione
+ Imposta allarmi di fatturazione per picchi imprevisti
+ Verifica mensilmente l'utilizzo del piano riservato
+ Valuta gli upgrade di livello solo in caso di limitazione