View a markdown version of this page

Capacidade e desempenho - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Capacidade e desempenho

O Amazon Bedrock oferece opções flexíveis de capacidade para atender aos requisitos de carga de trabalho e ao orçamento. Compreender as diferenças entre os níveis sob demanda (Flex, Priority, Standard), o nível reservado, o processamento em lote e a inferência entre regiões ajuda a otimizar o desempenho e o custo.

Opções de capacidade

Tipo de capacidade Caso de uso Características principais
On-Demand: Flexionar Cargas de trabalho esporádicas e de baixo volume
  • Menor custo por token

  • Best-effort disponibilidade

  • Pode experimentar estrangulamento

  • Sem SLA

On-Demand: Padrão Cargas de trabalho de produção regulares
  • Custo e desempenho equilibrados

  • Garantias de produtividade moderada

  • SLA padrão

  • Escolha mais comum

On-Demand: Prioridade High-priority, aplicativos sensíveis à latência
  • Maior custo sob demanda

  • Alocação de taxa de transferência premium

  • SLA aprimorado

  • Risco reduzido de estrangulamento

Nível reservado Cargas de trabalho consistentes e de alto volume
  • Unidades modelo reservadas

  • Capacidade garantida

  • Compromissos de 1 ou 3 meses

  • Desempenho previsível

Batch Large-scale, processamento não sensível ao tempo
  • 50% de economia de custos versus sob demanda

  • Janela de processamento de 24 horas

  • Ideal para inferência em massa

Cross-Region Inferência Alta disponibilidade, tráfego intenso
  • Failover automático

  • Rota para regiões menos movimentadas

  • Tempo de atividade aprimorado

  • Usa preços sob demanda

Limita as & cotas

On-Demand Limites (por nível)

Tier Faixa de RPM Intervalo TPM Risco de limitação
Flexionar 10-100 5K-50K Alto
Standard 100-500 50 K-150K Médio
Prioridade Mais de 500 a 1000 150 K-300K + Baixo
  • Capacidade de explosão: disponível em todos os níveis para picos curtos

  • Limites flexíveis: aumentáveis por meio de solicitações de cota de serviço

  • Model-specific: Os limites reais variam de acordo com o modelo da fundação

Limites de nível reservado

  • Compromisso mínimo: 1 unidade modelo

  • Número máximo de unidades: específico da conta e da região

  • Input/output limites de tokens: com base nas unidades compradas

  • Sem limitação de RPM dentro da capacidade adquirida

Limites de processamento em lote

  • Tamanho do trabalho: até 10.000 registros por lote

  • Tamanho do arquivo: máximo de 200 MB de arquivo de entrada

  • Tempo de processamento: janela de conclusão de 24 horas

  • Trabalhos simultâneos: Region-specific cotas

Cross-Region Inferência

  • Herda limites de nível sob demanda por região

  • Sem sobrecarga de cota adicional

  • Roteamento automático (sem gerenciamento manual de limites)

Escolhendo um nível

Estrutura de decisão

Cenário Opção recomendada Por que
Development/testing Flexionar Menor custo, aceitável para não produção
Produção padrão Standard Melhor equilíbrio entre custo e desempenho
Aplicativos essenciais voltados para o usuário Prioridade Confiabilidade e desempenho acima do custo
Carga estável de alto volume Nível reservado Economia de 30 a 50% com compromisso
Processamento de dados em massa Batch 50% de desconto, cargas de trabalho não urgentes
Mission-critical tempo de atividade Cross-Region Inferência Disponibilidade > custo

Estratégias de otimização

Escolha o On-Demand nível certo

  • Comece com o Standard para a maioria das cargas de trabalho

  • Faça o downgrade para o Flex para ambientes dev/test

  • Atualize para Prioridade somente quando a limitação afetar os usuários

  • Monitore CloudWatch as métricas de aceleração para embasar as decisões

Transição para o nível reservado

  • Quando a carga consistente excede 40% dos custos sob demanda

  • Calcule o ponto de equilíbrio: (custo mensal sob demanda) versus (compromisso reservado)

  • Use o compromisso de 1 mês inicialmente

  • O nível reservado pode funcionar junto com qualquer nível sob demanda

Use o Batch para

  • Geração de dados de treinamento

  • Backlogs de moderação de conteúdo

  • Geração de relatórios

  • Pipelines de enriquecimento de dados

Combine abordagens

  • Nível reservado para tráfego de linha de base

  • Padrão sob demanda para rajadas moderadas

  • Prioridade sob demanda para períodos críticos de pico

  • Batch para processamento off-line

  • Cross-region somente para failover

Monitoramento de custos

  • Compare os custos dos níveis: Flex < Standard < Priority

  • Rastreie tokens por solicitação (otimize solicitações)

  • Use CloudWatch métricas para uso e limitação

  • Defina alarmes de cobrança para picos inesperados

  • Analise o uso do nível reservado mensalmente

  • Avalie as atualizações de nível somente quando ocorrer limitação