Demande d’augmentation de quota Surveillance de l'utilisation des quotas

Quotas de service et régulation

L'assistant utilise l'inférence à la demande, qui est soumise aux quotas de service de votre compte. Les deux principales contraintes sont les suivantes :

Demandes par minute (RPM) : nombre de demandes d'invocation modèles autorisées par minute.
Jetons par minute (TPM) : nombre total de jetons d'entrée et de sortie traités par minute.

Les quotas par défaut varient selon les régions. Certaines régions ont des limites par défaut plus basses (jusqu'à 20 tr/min), ce qui peut entraîner un ralentissement en cas d'utilisation intensive de l'assistant.

Demande d’augmentation de quota

Si vous rencontrez des erreurs de régulation lors de l'utilisation de l'assistant, vous pouvez demander une augmentation du quota de service :

Pour demander une augmentation de quota

Ouvrez la console Service Quotas.
Dans le volet de navigation, choisissez AWS services, puis choisissez.
Trouvez le quota pour le modèle utilisé par l'assistant (recherchez les quotas associés au InvokeModelWithResponseStream modèle concerné).
Choisissez le nom du quota, puis sélectionnez Demander une augmentation au niveau du compte.
Entrez la valeur de quota souhaitée et soumettez la demande.

Pour plus d’informations, consultez Demande d’augmentation de quota dans le Guide de l’utilisateur Service Quotas.

Note

Si votre région utilise l'inférence entre régions, les quotas de service dans les régions de destination s'appliquent également. Cross-region les profils d'inférence prennent en charge un minimum de 200 tr/min, ce qui peut contribuer à atténuer l'étranglement dans les régions où les limites d'une seule région sont inférieures.

Surveillance de l'utilisation des quotas

Vous pouvez surveiller l'utilisation de vos quotas par le biais de CloudWatch métriques. Configurez des CloudWatch alarmes sur les métriques de régulation afin d'identifier de manière proactive le moment où vous approchez de vos limites de quota. Pour plus d’informations, consultez Surveillance de dans le Guide de l’utilisateur .

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Coûts

Résolution des problèmes