Opções de capacidade Limita as & cotas Escolhendo um nível

Capacidade e desempenho

O Amazon Bedrock oferece opções flexíveis de capacidade para atender aos requisitos de carga de trabalho e ao orçamento. Compreender as diferenças entre os níveis sob demanda (Flex, Priority, Standard), o nível reservado, o processamento em lote e a inferência entre regiões ajuda a otimizar o desempenho e o custo.

Opções de capacidade

Tipo de capacidade	Caso de uso	Características principais
On-Demand: Flexionar	Cargas de trabalho esporádicas e de baixo volume	Menor custo por token Best-effort disponibilidade Pode experimentar estrangulamento Sem SLA
On-Demand: Padrão	Cargas de trabalho de produção regulares	Custo e desempenho equilibrados Garantias de produtividade moderada SLA padrão Escolha mais comum
On-Demand: Prioridade	High-priority, aplicativos sensíveis à latência	Maior custo sob demanda Alocação de taxa de transferência premium SLA aprimorado Risco reduzido de estrangulamento
Nível reservado	Cargas de trabalho consistentes e de alto volume	Unidades modelo reservadas Capacidade garantida Compromissos de 1 ou 3 meses Desempenho previsível
Batch	Large-scale, processamento não sensível ao tempo	50% de economia de custos versus sob demanda Janela de processamento de 24 horas Ideal para inferência em massa
Cross-Region Inferência	Alta disponibilidade, tráfego intenso	Failover automático Rota para regiões menos movimentadas Tempo de atividade aprimorado Usa preços sob demanda

Limita as & cotas

On-Demand Limites (por nível)

Tier	Faixa de RPM	Intervalo TPM	Risco de limitação
Flexionar	10-100	5K-50K	Alto
Standard	100-500	50 K-150K	Médio
Prioridade	Mais de 500 a 1000	150 K-300K +	Baixo

Capacidade de explosão: disponível em todos os níveis para picos curtos
Limites flexíveis: aumentáveis por meio de solicitações de cota de serviço
Model-specific: Os limites reais variam de acordo com o modelo da fundação

Limites de nível reservado

Compromisso mínimo: 1 unidade modelo
Número máximo de unidades: específico da conta e da região
Input/output limites de tokens: com base nas unidades compradas
Sem limitação de RPM dentro da capacidade adquirida

Limites de processamento em lote

Tamanho do trabalho: até 10.000 registros por lote
Tamanho do arquivo: máximo de 200 MB de arquivo de entrada
Tempo de processamento: janela de conclusão de 24 horas
Trabalhos simultâneos: Region-specific cotas

Cross-Region Inferência

Herda limites de nível sob demanda por região
Sem sobrecarga de cota adicional
Roteamento automático (sem gerenciamento manual de limites)

Escolhendo um nível

Estrutura de decisão

Cenário	Opção recomendada	Por que
Development/testing	Flexionar	Menor custo, aceitável para não produção
Produção padrão	Standard	Melhor equilíbrio entre custo e desempenho
Aplicativos essenciais voltados para o usuário	Prioridade	Confiabilidade e desempenho acima do custo
Carga estável de alto volume	Nível reservado	Economia de 30 a 50% com compromisso
Processamento de dados em massa	Batch	50% de desconto, cargas de trabalho não urgentes
Mission-critical tempo de atividade	Cross-Region Inferência	Disponibilidade > custo

Estratégias de otimização

Escolha o On-Demand nível certo

Comece com o Standard para a maioria das cargas de trabalho
Faça o downgrade para o Flex para ambientes dev/test
Atualize para Prioridade somente quando a limitação afetar os usuários
Monitore CloudWatch as métricas de aceleração para embasar as decisões

Transição para o nível reservado

Quando a carga consistente excede 40% dos custos sob demanda
Calcule o ponto de equilíbrio: (custo mensal sob demanda) versus (compromisso reservado)
Use o compromisso de 1 mês inicialmente
O nível reservado pode funcionar junto com qualquer nível sob demanda

Use o Batch para

Geração de dados de treinamento
Backlogs de moderação de conteúdo
Geração de relatórios
Pipelines de enriquecimento de dados

Combine abordagens

Nível reservado para tráfego de linha de base
Padrão sob demanda para rajadas moderadas
Prioridade sob demanda para períodos críticos de pico
Batch para processamento off-line
Cross-region somente para failover

Monitoramento de custos

Compare os custos dos níveis: Flex < Standard < Priority
Rastreie tokens por solicitação (otimize solicitações)
Use CloudWatch métricas para uso e limitação
Defina alarmes de cobrança para picos inesperados
Analise o uso do nível reservado mensalmente
Avalie as atualizações de nível somente quando ocorrer limitação

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Gerenciamento de projetos com a AWS CloudFormation

Níveis Reservado, Padrão, Prioritário e Flex