Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Quote di servizio e limitazione
L'assistente utilizza l'inferenza su richiesta, che è soggetta alle quote di servizio del tuo account. I due vincoli principali sono:
-
Richieste al minuto (RPM): il numero di richieste di invocazione del modello consentite al minuto.
-
Token al minuto (TPM): il numero totale di token di input e output elaborati al minuto.
Le quote predefinite variano in base alla regione. Alcune regioni hanno limiti predefiniti inferiori (fino a 20 giri/min), il che potrebbe comportare un rallentamento durante l'utilizzo intensivo dell'assistente.
Richiedere un aumento della quota
Se riscontri errori di limitazione durante l'utilizzo dell'assistente, puoi richiedere un aumento della quota di servizio:
Richiesta di un aumento delle quote
-
Apri la console Service Quotas
. -
Nel riquadro di navigazione, scegli AWS servizi, quindi scegli.
-
Trova la quota per il modello utilizzato dall'assistente (cerca le quote
InvokeModelWithResponseStreamrelative al modello pertinente). -
Scegli il nome della quota, quindi scegli Richiedi aumento a livello di account.
-
Inserisci il valore di quota desiderato e invia la richiesta.
Per ulteriori informazioni, consulta Richiesta di un aumento delle quote nella Guida per l’utente di Service Quotas.
Nota
Se la tua regione utilizza l'inferenza tra regioni, si applicano anche le quote di servizio nelle regioni di destinazione. Cross-region i profili di inferenza supportano un minimo di 200 giri/min, il che può aiutare ad alleviare la limitazione nelle regioni con limiti inferiori per singola regione.
Monitoraggio dell'utilizzo delle quote
Puoi monitorare l'utilizzo delle quote tramite CloudWatch metriche. Imposta CloudWatch allarmi sulle metriche di limitazione per identificare in modo proattivo quando ti stai avvicinando ai limiti di quota. Per ulteriori informazioni, consulta l'articolo sul monitoraggio di nella Guida per l'utente di .