As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Cotas de serviço e limitação
O assistente usa inferência sob demanda, que está sujeita às cotas de serviço da sua conta. As duas principais restrições são:
-
Solicitações por minuto (RPM) — O número de solicitações de invocação de modelo permitidas por minuto.
-
Tokens por minuto (TPM) — O número total de tokens de entrada e saída processados por minuto.
As cotas padrão variam de acordo com a região. Algumas regiões têm limites padrão mais baixos (tão baixos quanto 20 RPM), o que pode resultar em limitação durante o uso intenso do assistente.
Solicitar um aumento de cota
Se você tiver erros de limitação ao usar o assistente, poderá solicitar um aumento da cota de serviço:
Para solicitar um aumento da cota
-
Abra o console do Service Quotas
. -
No painel de navegação, escolha AWS serviços e, em seguida, escolha.
-
Encontre a cota para o modelo usado pelo assistente (procure cotas relacionadas ao
InvokeModelWithResponseStreammodelo relevante). -
Escolha o nome da cota e escolha Solicitar aumento no nível da conta.
-
Insira o valor da cota desejada e envie a solicitação.
Para obter mais informações, consulte Solicitando um Aumento de Cota no Guia do Usuário do Service Quotas.
nota
Se sua região usa inferência entre regiões, as cotas de serviço nas regiões de destino também se aplicam. Cross-region os perfis de inferência oferecem suporte a um mínimo de 200 RPM, o que pode ajudar a aliviar a limitação em regiões com limites mais baixos de uma única região.
Monitorando o uso da cota
Você pode monitorar o uso da sua cota por meio de CloudWatch métricas. Configure CloudWatch alarmes nas métricas de limitação para identificar proativamente quando você está se aproximando dos limites da cota. Para obter mais informações, consulte Monitorar o no Guia do usuário do .