View a markdown version of this page

Capacità e prestazioni - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Capacità e prestazioni

Amazon Bedrock offre opzioni di capacità flessibili per soddisfare i requisiti di carico di lavoro e il budget. Comprendere le differenze tra i livelli on-demand (Flex, Priority, Standard), il livello riservato, l'elaborazione in batch e l'inferenza tra regioni aiuta a ottimizzare sia le prestazioni che i costi.

Opzioni di capacità

Tipo di capacità Caso d'uso Caratteristiche chiave
On-Demand: Flex Carichi di lavoro sporadici e a basso volume
  • Costo per token più basso

  • Best-effort disponibilità

  • Potrebbe verificarsi una limitazione

  • Nessuno SLA

On-Demand: Standard Carichi di lavoro di produzione regolari
  • Costi e prestazioni bilanciati

  • Garanzie di produttività moderate

  • SLA standard

  • La scelta più comune

On-Demand: Priorità High-priority, app sensibili alla latenza
  • Costo on-demand più elevato

  • Allocazione del throughput premium

  • SLA migliorato

  • Rischio di strozzamento ridotto

Livello riservato Carichi di lavoro coerenti e ad alto volume
  • Unità modello riservate

  • Capacità garantita

  • Impegni di 1 o 3 mesi

  • Prestazioni prevedibili

Archiviazione Large-scale, elaborazione non sensibile al fattore tempo
  • Risparmio sui costi del 50% rispetto a quello su richiesta

  • Finestra di elaborazione di 24 ore

  • Ideale per l'inferenza di massa

Cross-Region Inferenza Alta disponibilità, traffico vertiginoso
  • Failover automatico

  • Percorso verso regioni meno trafficate

  • Maggiore operatività

  • Utilizza prezzi su richiesta

Limiti & e quote

On-Demand Limiti (per livello)

Livello Intervallo di giri Intervallo TPM Rischio di limitazione
Flettere 10-100 5K-50K Elevata
Standard 100-500 50 K-150K Media
Priorità 500-1000 + 150 + K-300K Bassa
  • Capacità burst: disponibile su tutti i livelli per picchi brevi

  • Limiti flessibili: aumentabili tramite richieste di quote di servizio

  • Model-specific: I limiti effettivi variano in base al modello di base

Limiti dei livelli riservati

  • Impegno minimo: 1 unità modello

  • Unità massime: specifiche per account e regione

  • Input/output limiti dei token: in base alle unità acquistate

  • Nessuna limitazione del numero di giri all'interno della capacità acquistata

Limiti di elaborazione in batch

  • Dimensione del lavoro: fino a 10.000 record per batch

  • Dimensione del file: massimo 200 MB di file di input

  • Tempo di elaborazione: finestra di completamento di 24 ore

  • Lavori simultanei: quote Region-specific

Cross-Region Inferenza

  • Eredita i limiti dei livelli on-demand per regione

  • Nessun sovraccarico di quota aggiuntivo

  • Routing automatico (nessuna gestione manuale dei limiti)

Scelta di un livello

Quadro decisionale

Scenario Opzione consigliata Perché
Development/testing Flettere Costo più basso, accettabile per la non produzione
Produzione standard Standard Il miglior equilibrio tra costi e prestazioni
App critiche rivolte agli utenti Priorità Affidabilità e prestazioni rispetto ai costi
Carico costante ad alto volume Livello riservato Risparmio del 30-50% con impegno
Elaborazione di dati in blocco Archiviazione 50% di sconto, carichi di lavoro non urgenti
Mission-critical operatività Cross-Region Inferenza Disponibilità > costo

Strategie di ottimizzazione

Scegli il On-Demand livello giusto

  • Inizia con Standard per la maggior parte dei carichi di lavoro

  • Esegui il downgrade a Flex per ambienti dev/test

  • Esegui l'upgrade a Priority solo quando la limitazione ha un impatto sugli utenti

  • Monitora le CloudWatch metriche relative all'acceleratore per prendere decisioni informate

Transizione al livello riservato

  • Quando il carico costante supera il 40% dei costi on-demand

  • Calcola il pareggio: (costo mensile su richiesta) vs (impegno riservato)

  • Utilizza inizialmente un impegno di 1 mese

  • Il livello riservato può funzionare insieme a qualsiasi livello on-demand

Usa Batch per

  • Generazione di dati di addestramento

  • Arretrati relativi alla moderazione dei contenuti

  • Generazione di report

  • Pipeline di arricchimento dei dati

Combina approcci

  • Livello riservato per il traffico di base

  • Standard on-demand per raffiche moderate

  • Priorità su richiesta per i periodi di picco critici

  • Batch per l'elaborazione offline

  • Cross-region solo per il failover

Monitoraggio dei costi

  • Confronta i costi dei livelli: Flex < Standard < Priority

  • Tieni traccia dei token per richiesta (ottimizza le istruzioni)

  • Utilizza le CloudWatch metriche per l'uso e la limitazione

  • Imposta allarmi di fatturazione per picchi imprevisti

  • Verifica mensilmente l'utilizzo del piano riservato

  • Valuta gli upgrade di livello solo in caso di limitazione