As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Capacidade e desempenho
O Amazon Bedrock oferece opções flexíveis de capacidade para atender aos requisitos de carga de trabalho e ao orçamento. Compreender as diferenças entre os níveis sob demanda (Flex, Priority, Standard), o nível reservado, o processamento em lote e a inferência entre regiões ajuda a otimizar o desempenho e o custo.
Opções de capacidade
| Tipo de capacidade | Caso de uso | Características principais |
|---|---|---|
| On-Demand: Flexionar | Cargas de trabalho esporádicas e de baixo volume |
|
| On-Demand: Padrão | Cargas de trabalho de produção regulares |
|
| On-Demand: Prioridade | High-priority, aplicativos sensíveis à latência |
|
| Nível reservado | Cargas de trabalho consistentes e de alto volume |
|
| Batch | Large-scale, processamento não sensível ao tempo |
|
| Cross-Region Inferência | Alta disponibilidade, tráfego intenso |
|
Limita as & cotas
On-Demand Limites (por nível)
| Tier | Faixa de RPM | Intervalo TPM | Risco de limitação |
|---|---|---|---|
| Flexionar | 10-100 | 5K-50K | Alto |
| Standard | 100-500 | 50 K-150K | Médio |
| Prioridade | Mais de 500 a 1000 | 150 K-300K + | Baixo |
Capacidade de explosão: disponível em todos os níveis para picos curtos
Limites flexíveis: aumentáveis por meio de solicitações de cota de serviço
Model-specific: Os limites reais variam de acordo com o modelo da fundação
Limites de nível reservado
Compromisso mínimo: 1 unidade modelo
Número máximo de unidades: específico da conta e da região
Input/output limites de tokens: com base nas unidades compradas
Sem limitação de RPM dentro da capacidade adquirida
Limites de processamento em lote
Tamanho do trabalho: até 10.000 registros por lote
Tamanho do arquivo: máximo de 200 MB de arquivo de entrada
Tempo de processamento: janela de conclusão de 24 horas
Trabalhos simultâneos: Region-specific cotas
Cross-Region Inferência
Herda limites de nível sob demanda por região
Sem sobrecarga de cota adicional
Roteamento automático (sem gerenciamento manual de limites)
Escolhendo um nível
Estrutura de decisão
| Cenário | Opção recomendada | Por que |
|---|---|---|
| Development/testing | Flexionar | Menor custo, aceitável para não produção |
| Produção padrão | Standard | Melhor equilíbrio entre custo e desempenho |
| Aplicativos essenciais voltados para o usuário | Prioridade | Confiabilidade e desempenho acima do custo |
| Carga estável de alto volume | Nível reservado | Economia de 30 a 50% com compromisso |
| Processamento de dados em massa | Batch | 50% de desconto, cargas de trabalho não urgentes |
| Mission-critical tempo de atividade | Cross-Region Inferência | Disponibilidade > custo |
Estratégias de otimização
Escolha o On-Demand nível certo
Comece com o Standard para a maioria das cargas de trabalho
Faça o downgrade para o Flex para ambientes dev/test
Atualize para Prioridade somente quando a limitação afetar os usuários
Monitore CloudWatch as métricas de aceleração para embasar as decisões
Transição para o nível reservado
Quando a carga consistente excede 40% dos custos sob demanda
Calcule o ponto de equilíbrio: (custo mensal sob demanda) versus (compromisso reservado)
Use o compromisso de 1 mês inicialmente
O nível reservado pode funcionar junto com qualquer nível sob demanda
Use o Batch para
Geração de dados de treinamento
Backlogs de moderação de conteúdo
Geração de relatórios
Pipelines de enriquecimento de dados
Combine abordagens
Nível reservado para tráfego de linha de base
Padrão sob demanda para rajadas moderadas
Prioridade sob demanda para períodos críticos de pico
Batch para processamento off-line
Cross-region somente para failover
Monitoramento de custos
Compare os custos dos níveis: Flex < Standard < Priority
Rastreie tokens por solicitação (otimize solicitações)
Use CloudWatch métricas para uso e limitação
Defina alarmes de cobrança para picos inesperados
Analise o uso do nível reservado mensalmente
Avalie as atualizações de nível somente quando ocorrer limitação