

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Capacidade e desempenho
<a name="capacity-limits-cost-optimization"></a>

O Amazon Bedrock oferece opções flexíveis de capacidade para atender aos requisitos de carga de trabalho e ao orçamento. Compreender as diferenças entre os níveis sob demanda (Flex, Priority, Standard), o nível reservado, o processamento em lote e a inferência entre regiões ajuda a otimizar o desempenho e o custo.

## Opções de capacidade
<a name="capacity-options"></a>


| Tipo de capacidade | Caso de uso | Características principais | 
| --- | --- | --- | 
| On-Demand: Flexionar | Cargas de trabalho esporádicas e de baixo volume |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| On-Demand: Padrão | Cargas de trabalho de produção regulares |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| On-Demand: Prioridade | High-priority, aplicativos sensíveis à latência |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Nível reservado | Cargas de trabalho consistentes e de alto volume |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Batch | Large-scale, processamento não sensível ao tempo |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Cross-Region Inferência | Alta disponibilidade, tráfego intenso |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/pt_br/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 

## Limita as &amp; cotas
<a name="limits-quotas"></a>

### On-Demand Limites (por nível)
<a name="on-demand-limits"></a>


| Tier | Faixa de RPM | Intervalo TPM | Risco de limitação | 
| --- | --- | --- | --- | 
| Flexionar | 10-100 | 5K-50K | Alto | 
| Standard | 100-500 | 50 K-150K | Médio | 
| Prioridade | Mais de 500 a 1000 | 150 K-300K \+ | Baixo | 
+ Capacidade de explosão: disponível em todos os níveis para picos curtos
+ Limites flexíveis: aumentáveis por meio de solicitações de cota de serviço
+ Model-specific: Os limites reais variam de acordo com o modelo da fundação

### Limites de nível reservado
<a name="reserved-tier-limits"></a>
+ Compromisso mínimo: 1 unidade modelo
+ Número máximo de unidades: específico da conta e da região
+ Input/output limites de tokens: com base nas unidades compradas
+ Sem limitação de RPM dentro da capacidade adquirida

### Limites de processamento em lote
<a name="batch-processing-limits"></a>
+ Tamanho do trabalho: até 10.000 registros por lote
+ Tamanho do arquivo: máximo de 200 MB de arquivo de entrada
+ Tempo de processamento: janela de conclusão de 24 horas
+ Trabalhos simultâneos: Region-specific cotas

### Cross-Region Inferência
<a name="cross-region-inference-limits"></a>
+ Herda limites de nível sob demanda por região
+ Sem sobrecarga de cota adicional
+ Roteamento automático (sem gerenciamento manual de limites)

## Escolhendo um nível
<a name="cost-optimization"></a>

### Estrutura de decisão
<a name="decision-framework"></a>


| Cenário | Opção recomendada | Por que | 
| --- | --- | --- | 
| Development/testing | Flexionar | Menor custo, aceitável para não produção | 
| Produção padrão | Standard | Melhor equilíbrio entre custo e desempenho | 
| Aplicativos essenciais voltados para o usuário | Prioridade | Confiabilidade e desempenho acima do custo | 
| Carga estável de alto volume | Nível reservado | Economia de 30 a 50% com compromisso | 
| Processamento de dados em massa | Batch | 50% de desconto, cargas de trabalho não urgentes | 
| Mission-critical tempo de atividade | Cross-Region Inferência | Disponibilidade > custo | 

### Estratégias de otimização
<a name="optimization-strategies"></a>

**Escolha o On-Demand nível certo**
+ Comece com o Standard para a maioria das cargas de trabalho
+ Faça o downgrade para o Flex para ambientes dev/test 
+ Atualize para Prioridade somente quando a limitação afetar os usuários
+ Monitore CloudWatch as métricas de aceleração para embasar as decisões

**Transição para o nível reservado**
+ Quando a carga consistente excede 40% dos custos sob demanda
+ Calcule o ponto de equilíbrio: (custo mensal sob demanda) versus (compromisso reservado)
+ Use o compromisso de 1 mês inicialmente
+ O nível reservado pode funcionar junto com qualquer nível sob demanda

**Use o Batch para**
+ Geração de dados de treinamento
+ Backlogs de moderação de conteúdo
+ Geração de relatórios
+ Pipelines de enriquecimento de dados

**Combine abordagens**
+ Nível reservado para tráfego de linha de base
+ Padrão sob demanda para rajadas moderadas
+ Prioridade sob demanda para períodos críticos de pico
+ Batch para processamento off-line
+ Cross-region somente para failover

**Monitoramento de custos**
+ Compare os custos dos níveis: Flex < Standard < Priority
+ Rastreie tokens por solicitação (otimize solicitações)
+ Use CloudWatch métricas para uso e limitação
+ Defina alarmes de cobrança para picos inesperados
+ Analise o uso do nível reservado mensalmente
+ Avalie as atualizações de nível somente quando ocorrer limitação