View a markdown version of this page

Cuotas de servicio y limitaciones - AWS Nube de plazos

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cuotas de servicio y limitaciones

El asistente utiliza la inferencia bajo demanda, que está sujeta a las cuotas de servicio de tu cuenta. Las dos restricciones principales son:

  • Solicitudes por minuto (RPM): la cantidad de solicitudes de invocación de modelos permitidas por minuto.

  • Tokens por minuto (TPM): el número total de tokens de entrada y salida procesados por minuto.

Las cuotas predeterminadas varían según la región. Algunas regiones tienen límites predeterminados más bajos (tan solo 20 RPM), lo que puede provocar una limitación si se utiliza mucho el asistente.

Solicitud de aumento de cuota

Si se producen errores de limitación al utilizar el asistente, puede solicitar un aumento de la cuota de servicio:

Cómo solicitar un aumento de cuota
  1. Abra la consola de Service Quotas.

  2. En el panel de navegación, selecciona AWS servicios y, a continuación, selecciona.

  3. Busque la cuota del modelo utilizado por el asistente (busque las cuotas InvokeModelWithResponseStream relacionadas con el modelo correspondiente).

  4. Elija el nombre de la cuota y, a continuación, elija Solicitar aumento a nivel de cuenta.

  5. Introduzca el valor de cuota que desee y envíe la solicitud.

Para obtener más información, consulte Solicitud de aumento de cuota en la Guía del usuario de Service Quotas.

nota

Si su región utiliza la inferencia interregional, también se aplicarán las cuotas de servicio en las regiones de destino. Cross-region Los perfiles de inferencia admiten un mínimo de 200 RPM, lo que puede ayudar a reducir las limitaciones en las regiones con límites más bajos para una sola región.

Supervisión del uso de las cuotas

Puede supervisar el uso de su cuota mediante CloudWatch métricas. Configura CloudWatch alarmas en las métricas de limitación para identificar de forma proactiva cuándo te estás acercando a los límites de tu cuota. Para obtener más información, consulte Supervisión de en la Guía del usuario de .