Solicitar um aumento de cota Monitorando o uso da cota

Cotas de serviço e limitação

O assistente usa inferência sob demanda, que está sujeita às cotas de serviço da sua conta. As duas principais restrições são:

Solicitações por minuto (RPM) — O número de solicitações de invocação de modelo permitidas por minuto.
Tokens por minuto (TPM) — O número total de tokens de entrada e saída processados por minuto.

As cotas padrão variam de acordo com a região. Algumas regiões têm limites padrão mais baixos (tão baixos quanto 20 RPM), o que pode resultar em limitação durante o uso intenso do assistente.

Solicitar um aumento de cota

Se você tiver erros de limitação ao usar o assistente, poderá solicitar um aumento da cota de serviço:

Para solicitar um aumento da cota

Abra o console do Service Quotas.
No painel de navegação, escolha AWS serviços e, em seguida, escolha.
Encontre a cota para o modelo usado pelo assistente (procure cotas relacionadas ao InvokeModelWithResponseStream modelo relevante).
Escolha o nome da cota e escolha Solicitar aumento no nível da conta.
Insira o valor da cota desejada e envie a solicitação.

Para obter mais informações, consulte Solicitando um Aumento de Cota no Guia do Usuário do Service Quotas.

nota

Se sua região usa inferência entre regiões, as cotas de serviço nas regiões de destino também se aplicam. Cross-region os perfis de inferência oferecem suporte a um mínimo de 200 RPM, o que pode ajudar a aliviar a limitação em regiões com limites mais baixos de uma única região.

Monitorando o uso da cota

Você pode monitorar o uso da sua cota por meio de CloudWatch métricas. Configure CloudWatch alarmes nas métricas de limitação para identificar proativamente quando você está se aproximando dos limites da cota. Para obter mais informações, consulte Monitorar o no Guia do usuário do .

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Custos

Solução de problemas