Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Quotas de service et régulation
L'assistant utilise l'inférence à la demande, qui est soumise aux quotas de service de votre compte. Les deux principales contraintes sont les suivantes :
-
Demandes par minute (RPM) : nombre de demandes d'invocation modèles autorisées par minute.
-
Jetons par minute (TPM) : nombre total de jetons d'entrée et de sortie traités par minute.
Les quotas par défaut varient selon les régions. Certaines régions ont des limites par défaut plus basses (jusqu'à 20 tr/min), ce qui peut entraîner un ralentissement en cas d'utilisation intensive de l'assistant.
Demande d’augmentation de quota
Si vous rencontrez des erreurs de régulation lors de l'utilisation de l'assistant, vous pouvez demander une augmentation du quota de service :
Pour demander une augmentation de quota
-
Ouvrez la console Service Quotas
. -
Dans le volet de navigation, choisissez AWS services, puis choisissez.
-
Trouvez le quota pour le modèle utilisé par l'assistant (recherchez les quotas associés au
InvokeModelWithResponseStreammodèle concerné). -
Choisissez le nom du quota, puis sélectionnez Demander une augmentation au niveau du compte.
-
Entrez la valeur de quota souhaitée et soumettez la demande.
Pour plus d’informations, consultez Demande d’augmentation de quota dans le Guide de l’utilisateur Service Quotas.
Note
Si votre région utilise l'inférence entre régions, les quotas de service dans les régions de destination s'appliquent également. Cross-region les profils d'inférence prennent en charge un minimum de 200 tr/min, ce qui peut contribuer à atténuer l'étranglement dans les régions où les limites d'une seule région sont inférieures.
Surveillance de l'utilisation des quotas
Vous pouvez surveiller l'utilisation de vos quotas par le biais de CloudWatch métriques. Configurez des CloudWatch alarmes sur les métriques de régulation afin d'identifier de manière proactive le moment où vous approchez de vos limites de quota. Pour plus d’informations, consultez Surveillance de dans le Guide de l’utilisateur .