As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá. # Capacidade e desempenho O Amazon Bedrock oferece opções flexíveis de capacidade para atender aos requisitos de carga de trabalho e ao orçamento. Compreender as diferenças entre os níveis sob demanda (Flex, Priority, Standard), o nível reservado, o processamento em lote e a inferência entre regiões ajuda a otimizar o desempenho e o custo. ## Opções de capacidade | Tipo de capacidade | Caso de uso | Características principais | | --- | --- | --- | | On-Demand: Flexionar | Cargas de trabalho esporádicas e de baixo volume | [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | On-Demand: Padrão | Cargas de trabalho de produção regulares | [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | On-Demand: Prioridade | High-priority, aplicativos sensíveis à latência | [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Nível reservado | Cargas de trabalho consistentes e de alto volume | [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Batch | Large-scale, processamento não sensível ao tempo | [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Cross-Region Inferência | Alta disponibilidade, tráfego intenso | [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | ## Limita as & cotas ### On-Demand Limites (por nível) | Tier | Faixa de RPM | Intervalo TPM | Risco de limitação | | --- | --- | --- | --- | | Flexionar | 10-100 | 5K-50K | Alto | | Standard | 100-500 | 50 K-150K | Médio | | Prioridade | Mais de 500 a 1000 | 150 K-300K \+ | Baixo | + Capacidade de explosão: disponível em todos os níveis para picos curtos + Limites flexíveis: aumentáveis por meio de solicitações de cota de serviço + Model-specific: Os limites reais variam de acordo com o modelo da fundação ### Limites de nível reservado + Compromisso mínimo: 1 unidade modelo + Número máximo de unidades: específico da conta e da região + Input/output limites de tokens: com base nas unidades compradas + Sem limitação de RPM dentro da capacidade adquirida ### Limites de processamento em lote + Tamanho do trabalho: até 10.000 registros por lote + Tamanho do arquivo: máximo de 200 MB de arquivo de entrada + Tempo de processamento: janela de conclusão de 24 horas + Trabalhos simultâneos: Region-specific cotas ### Cross-Region Inferência + Herda limites de nível sob demanda por região + Sem sobrecarga de cota adicional + Roteamento automático (sem gerenciamento manual de limites) ## Escolhendo um nível ### Estrutura de decisão | Cenário | Opção recomendada | Por que | | --- | --- | --- | | Development/testing | Flexionar | Menor custo, aceitável para não produção | | Produção padrão | Standard | Melhor equilíbrio entre custo e desempenho | | Aplicativos essenciais voltados para o usuário | Prioridade | Confiabilidade e desempenho acima do custo | | Carga estável de alto volume | Nível reservado | Economia de 30 a 50% com compromisso | | Processamento de dados em massa | Batch | 50% de desconto, cargas de trabalho não urgentes | | Mission-critical tempo de atividade | Cross-Region Inferência | Disponibilidade > custo | ### Estratégias de otimização **Escolha o On-Demand nível certo** + Comece com o Standard para a maioria das cargas de trabalho + Faça o downgrade para o Flex para ambientes dev/test + Atualize para Prioridade somente quando a limitação afetar os usuários + Monitore CloudWatch as métricas de aceleração para embasar as decisões **Transição para o nível reservado** + Quando a carga consistente excede 40% dos custos sob demanda + Calcule o ponto de equilíbrio: (custo mensal sob demanda) versus (compromisso reservado) + Use o compromisso de 1 mês inicialmente + O nível reservado pode funcionar junto com qualquer nível sob demanda **Use o Batch para** + Geração de dados de treinamento + Backlogs de moderação de conteúdo + Geração de relatórios + Pipelines de enriquecimento de dados **Combine abordagens** + Nível reservado para tráfego de linha de base + Padrão sob demanda para rajadas moderadas + Prioridade sob demanda para períodos críticos de pico + Batch para processamento off-line + Cross-region somente para failover **Monitoramento de custos** + Compare os custos dos níveis: Flex < Standard < Priority + Rastreie tokens por solicitação (otimize solicitações) + Use CloudWatch métricas para uso e limitação + Defina alarmes de cobrança para picos inesperados + Analise o uso do nível reservado mensalmente + Avalie as atualizações de nível somente quando ocorrer limitação