As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Capacidade, limites e otimização de custos
O Amazon Bedrock oferece opções flexíveis de capacidade para atender aos requisitos de carga de trabalho e ao orçamento. Compreender as diferenças entre os níveis sob demanda (Flex, Priority, Standard), o nível reservado, o processamento em lote e a inferência entre regiões ajuda a otimizar o desempenho e o custo.
Opções de capacidade
| Tipo de capacidade | Caso de uso | Características principais |
|---|---|---|
| Sob demanda: Flex | Cargas de trabalho esporádicas e de baixo volume |
|
| Sob demanda: Padrão | Cargas de trabalho de produção regulares |
|
| Sob demanda: prioridade | Aplicativos de alta prioridade e sensíveis à latência |
|
| Nível reservado | Cargas de trabalho consistentes e de alto volume |
|
| Batch | Processamento em grande escala non-time-sensitive |
|
| Inferência entre regiões | Alta disponibilidade, tráfego intenso |
|
Limites e cotas
Limites sob demanda (por nível)
| Tier | Faixa de RPM | Intervalo TPM | Risco de limitação |
|---|---|---|---|
| Flexionar | 10-100 | 5K-50K | Alto |
| Standard | 100-500 | 50K-150K | Médio |
| Prioridade | Mais de 500 a 1000 | 150K-300K+ | Baixo |
Capacidade de explosão: disponível em todos os níveis para picos curtos
Limites flexíveis: aumentáveis por meio de solicitações de cota de serviço
Específico do modelo: os limites reais variam de acordo com o modelo de fundação
Limites de nível reservado
Compromisso mínimo: 1 unidade modelo
Número máximo de unidades: específico da conta e da região
Limites de tokens de entrada/saída: com base nas unidades compradas
Sem limitação de RPM dentro da capacidade adquirida
Limites de processamento em lote
Tamanho do trabalho: até 10.000 registros por lote
Tamanho do arquivo: máximo de 200 MB de arquivo de entrada
Tempo de processamento: janela de conclusão de 24 horas
Trabalhos simultâneos: cotas específicas da região
Inferência entre regiões
Herda limites de nível sob demanda por região
Sem sobrecarga de cota adicional
Roteamento automático (sem gerenciamento manual de limites)
Otimização de custo
Estrutura de decisão
| Cenário | Opção recomendada | Por que |
|---|---|---|
| Desenvolvimento/teste | Flexionar | Menor custo, aceitável para não produção |
| Produção padrão | Standard | Melhor equilíbrio entre custo e desempenho |
| Aplicativos essenciais voltados para o usuário | Prioridade | Confiabilidade e desempenho acima do custo |
| Carga estável de alto volume | Nível reservado | Economia de 30 a 50% com compromisso |
| Processamento de dados em massa | Batch | 50% de desconto, cargas de trabalho não urgentes |
| Tempo de atividade essencial | Inferência entre regiões | Disponibilidade > custo |
Estratégias de otimização
Escolha o nível sob demanda certo
Comece com o Standard para a maioria das cargas de trabalho
Faça o downgrade para o Flex para ambientes dev/test
Atualize para Prioridade somente quando a limitação afetar os usuários
Monitore CloudWatch as métricas de aceleração para embasar as decisões
Transição para o nível reservado
Quando a carga consistente excede 40% dos custos sob demanda
Calcule o ponto de equilíbrio: (custo mensal sob demanda) versus (compromisso reservado)
Use o compromisso de 1 mês inicialmente
O nível reservado pode funcionar junto com qualquer nível sob demanda
Aproveite o Batch para
Geração de dados de treinamento
Backlogs de moderação de conteúdo
Geração de relatórios
Pipelines de enriquecimento de dados
Combine abordagens
Nível reservado para tráfego de linha de base
Padrão sob demanda para rajadas moderadas
Prioridade sob demanda para períodos críticos de pico
Batch para processamento off-line
Somente entre regiões para failover
Monitoramento de custos
Compare os custos dos níveis: Flex < Standard < Priority
Rastreie tokens por solicitação (otimize solicitações)
Use CloudWatch métricas para utilização e limitação
Defina alarmes de cobrança para picos inesperados
Analise mensalmente a utilização do nível reservado
Avalie as atualizações de nível somente quando ocorrer limitação