Capacidade, limites e otimização de custos - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Capacidade, limites e otimização de custos

O Amazon Bedrock oferece opções flexíveis de capacidade para atender aos requisitos de carga de trabalho e ao orçamento. Compreender as diferenças entre os níveis sob demanda (Flex, Priority, Standard), o nível reservado, o processamento em lote e a inferência entre regiões ajuda a otimizar o desempenho e o custo.

Opções de capacidade

Tipo de capacidade Caso de uso Características principais
Sob demanda: Flex Cargas de trabalho esporádicas e de baixo volume
  • Menor custo por token

  • Disponibilidade do melhor esforço

  • Pode sofrer limitação

  • Sem SLA

Sob demanda: Padrão Cargas de trabalho de produção regulares
  • Custo e desempenho equilibrados

  • Garantias de produtividade moderada

  • SLA padrão

  • Escolha mais comum

Sob demanda: prioridade Aplicativos de alta prioridade e sensíveis à latência
  • Maior custo sob demanda

  • Alocação de taxa de transferência premium

  • SLA aprimorado

  • Risco reduzido de estrangulamento

Nível reservado Cargas de trabalho consistentes e de alto volume
  • Unidades modelo reservadas

  • Capacidade garantida

  • Compromissos de 1 ou 6 meses

  • Desempenho previsível

Batch Processamento em grande escala non-time-sensitive
  • 50% de economia de custos versus sob demanda

  • Janela de processamento de 24 horas

  • Ideal para inferência em massa

Inferência entre regiões Alta disponibilidade, tráfego intenso
  • Failover automático

  • Rota para regiões menos movimentadas

  • Tempo de atividade aprimorado

  • Usa preços sob demanda

Limites e cotas

Limites sob demanda (por nível)

Tier Faixa de RPM Intervalo TPM Risco de limitação
Flexionar 10-100 5K-50K Alto
Standard 100-500 50K-150K Médio
Prioridade Mais de 500 a 1000 150K-300K+ Baixo
  • Capacidade de explosão: disponível em todos os níveis para picos curtos

  • Limites flexíveis: aumentáveis por meio de solicitações de cota de serviço

  • Específico do modelo: os limites reais variam de acordo com o modelo de fundação

Limites de nível reservado

  • Compromisso mínimo: 1 unidade modelo

  • Número máximo de unidades: específico da conta e da região

  • Limites de tokens de entrada/saída: com base nas unidades compradas

  • Sem limitação de RPM dentro da capacidade adquirida

Limites de processamento em lote

  • Tamanho do trabalho: até 10.000 registros por lote

  • Tamanho do arquivo: máximo de 200 MB de arquivo de entrada

  • Tempo de processamento: janela de conclusão de 24 horas

  • Trabalhos simultâneos: cotas específicas da região

Inferência entre regiões

  • Herda limites de nível sob demanda por região

  • Sem sobrecarga de cota adicional

  • Roteamento automático (sem gerenciamento manual de limites)

Otimização de custo

Estrutura de decisão

Cenário Opção recomendada Por que
Desenvolvimento/teste Flexionar Menor custo, aceitável para não produção
Produção padrão Standard Melhor equilíbrio entre custo e desempenho
Aplicativos essenciais voltados para o usuário Prioridade Confiabilidade e desempenho acima do custo
Carga estável de alto volume Nível reservado Economia de 30 a 50% com compromisso
Processamento de dados em massa Batch 50% de desconto, cargas de trabalho não urgentes
Tempo de atividade essencial Inferência entre regiões Disponibilidade > custo

Estratégias de otimização

Escolha o nível sob demanda certo

  • Comece com o Standard para a maioria das cargas de trabalho

  • Faça o downgrade para o Flex para ambientes dev/test

  • Atualize para Prioridade somente quando a limitação afetar os usuários

  • Monitore CloudWatch as métricas de aceleração para embasar as decisões

Transição para o nível reservado

  • Quando a carga consistente excede 40% dos custos sob demanda

  • Calcule o ponto de equilíbrio: (custo mensal sob demanda) versus (compromisso reservado)

  • Use o compromisso de 1 mês inicialmente

  • O nível reservado pode funcionar junto com qualquer nível sob demanda

Aproveite o Batch para

  • Geração de dados de treinamento

  • Backlogs de moderação de conteúdo

  • Geração de relatórios

  • Pipelines de enriquecimento de dados

Combine abordagens

  • Nível reservado para tráfego de linha de base

  • Padrão sob demanda para rajadas moderadas

  • Prioridade sob demanda para períodos críticos de pico

  • Batch para processamento off-line

  • Somente entre regiões para failover

Monitoramento de custos

  • Compare os custos dos níveis: Flex < Standard < Priority

  • Rastreie tokens por solicitação (otimize solicitações)

  • Use CloudWatch métricas para utilização e limitação

  • Defina alarmes de cobrança para picos inesperados

  • Analise mensalmente a utilização do nível reservado

  • Avalie as atualizações de nível somente quando ocorrer limitação