View a markdown version of this page

Inferência sob demanda - Amazon Nova

Inferência sob demanda

A inferência sob demanda fornece acesso sem servidor aos modelos do Amazon Nova sem exigir capacidade provisionada. Esse modo é escalado automaticamente para lidar com sua workload e cobranças com base no uso.

Benefícios

A inferência sob demanda apresenta várias vantagens:

  • Nenhum planejamento de capacidade: escala automaticamente para atender à demanda

  • Pagamento conforme o uso: cobrança somente dos tokens processados

  • Disponibilidade instantânea: sem necessidade de provisionamento ou tempo de aquecimento

  • Econômica: ideal para workloads variáveis ou imprevisíveis

Uso de inferência sob demanda

A inferência sob demanda é o modo padrão para os modelos do Amazon Nova. Basta especificar o ID do modelo ao fazer chamadas de API:

import boto3 bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') response = bedrock.converse( modelId='us.amazon.nova-2-lite-v1:0', messages=[ { 'role': 'user', 'content': [{'text': 'Hello, Nova!'}] } ] ) # Print the response text content_list = response["output"]["message"]["content"] text = next((item["text"] for item in content_list if "text" in item), None) if text is not None: print(text)

Preços

A inferência sob demanda é cobrada com base no número de tokens de entrada e saída processados. Para obter detalhes atuais sobre preços, consulte Preços do Amazon Bedrock.

Cotas e limites

A inferência sob demanda tem cotas padrão que variam de acordo com o modelo e a região. Para solicitar aumentos de cota, use o console do Service Quotas.