Capacità, limiti e ottimizzazione dei costi - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Capacità, limiti e ottimizzazione dei costi

Amazon Bedrock offre opzioni di capacità flessibili per soddisfare i requisiti di carico di lavoro e il budget. Comprendere le differenze tra i livelli on-demand (Flex, Priority, Standard), il livello riservato, l'elaborazione in batch e l'inferenza tra regioni aiuta a ottimizzare sia le prestazioni che i costi.

Opzioni di capacità

Tipo di capacità Caso d'uso Caratteristiche chiave
Su richiesta: Flex Carichi di lavoro sporadici e a basso volume
  • Costo per token più basso

  • Disponibilità al massimo

  • Potrebbe verificarsi una limitazione

  • Nessuno SLA

Su richiesta: standard Carichi di lavoro di produzione regolari
  • Costi e prestazioni bilanciati

  • Garanzie di produttività moderate

  • SLA standard

  • La scelta più comune

Su richiesta: priorità App ad alta priorità e sensibili alla latenza
  • Costo on-demand più elevato

  • Allocazione del throughput premium

  • SLA migliorato

  • Rischio di strozzamento ridotto

Livello riservato Carichi di lavoro coerenti e ad alto volume
  • Unità modello riservate

  • Capacità garantita

  • Impegni di 1 o 6 mesi

  • Prestazioni prevedibili

Archiviazione Elaborazione su larga scala non-time-sensitive
  • Risparmio sui costi del 50% rispetto a quello on-demand

  • Finestra di elaborazione di 24 ore

  • Ideale per l'inferenza di massa

Inferenza tra regioni Alta disponibilità, traffico vertiginoso
  • Failover automatico

  • Percorso verso regioni meno trafficate

  • Maggiore operatività

  • Utilizza prezzi su richiesta

Limiti e quote

Limiti su richiesta (per livello)

Livello Intervallo di giri Intervallo TPM Rischio di limitazione
Flettere 10-100 5K-50K Elevata
Standard 100-500 50K-150K Media
Priorità 500-1000 + 150K-300K+ Bassa
  • Capacità burst: disponibile su tutti i livelli per picchi brevi

  • Limiti flessibili: aumentabili tramite richieste di quote di servizio

  • Specifico del modello: i limiti effettivi variano in base al modello di base

Limiti riservati ai livelli

  • Impegno minimo: 1 unità modello

  • Unità massime: specifiche per account e regione

  • Limiti dei token di input/output: in base alle unità acquistate

  • Nessuna limitazione del numero di giri all'interno della capacità acquistata

Limiti di elaborazione in batch

  • Dimensione del lavoro: fino a 10.000 record per batch

  • Dimensione del file: massimo 200 MB di file di input

  • Tempo di elaborazione: finestra di completamento di 24 ore

  • Lavori simultanei: quote specifiche per regione

Inferenza tra regioni

  • Eredita i limiti dei livelli on-demand per regione

  • Nessun sovraccarico di quota aggiuntivo

  • Routing automatico (nessuna gestione manuale dei limiti)

Ottimizzazione dei costi

Quadro decisionale

Scenario Opzione consigliata Perché
Sviluppo/test Flettere Costo più basso, accettabile per la non produzione
Produzione standard Standard Il miglior equilibrio tra costi e prestazioni
App critiche rivolte agli utenti Priorità Affidabilità e prestazioni rispetto ai costi
Carico costante ad alto volume Livello riservato Risparmio del 30-50% con impegno
Elaborazione di dati in blocco Archiviazione 50% di sconto, carichi di lavoro non urgenti
Operatività fondamentale Inferenza tra regioni Disponibilità > costo

Strategie di ottimizzazione

Scegli il livello on-demand giusto

  • Inizia con Standard per la maggior parte dei carichi di lavoro

  • Esegui il downgrade a Flex per ambienti dev/test

  • Esegui l'upgrade a Priority solo quando la limitazione ha un impatto sugli utenti

  • Monitora le CloudWatch metriche di accelerazione per prendere decisioni informate

Transizione al livello riservato

  • Quando il carico costante supera il 40% dei costi on-demand

  • Calcola il pareggio: (costo mensile su richiesta) vs (impegno riservato)

  • Utilizza inizialmente un impegno di 1 mese

  • Il livello riservato può funzionare insieme a qualsiasi livello on-demand

Sfrutta Batch per

  • Generazione di dati di formazione

  • Arretrati relativi alla moderazione dei contenuti

  • Generazione di report

  • Pipeline di arricchimento dei dati

Combina approcci

  • Livello riservato per il traffico di base

  • Standard on-demand per raffiche moderate

  • Priorità su richiesta per i periodi di picco critici

  • Batch per l'elaborazione offline

  • Interregione solo per il failover

Monitoraggio dei costi

  • Confronta i costi dei livelli: Flex < Standard < Priority

  • Tieni traccia dei token per richiesta (ottimizza le istruzioni)

  • Utilizza le CloudWatch metriche per l'utilizzo e la limitazione

  • Imposta allarmi di fatturazione per picchi imprevisti

  • Verifica mensilmente l'utilizzo del livello riservato

  • Valuta gli upgrade di livello solo in caso di limitazione