Inferência sob demanda
A inferência sob demanda fornece acesso sem servidor aos modelos do Amazon Nova sem exigir capacidade provisionada. Esse modo é escalado automaticamente para lidar com sua workload e cobranças com base no uso.
Benefícios
A inferência sob demanda apresenta várias vantagens:
-
Nenhum planejamento de capacidade: escala automaticamente para atender à demanda
-
Pagamento conforme o uso: cobrança somente dos tokens processados
-
Disponibilidade instantânea: sem necessidade de provisionamento ou tempo de aquecimento
-
Econômica: ideal para workloads variáveis ou imprevisíveis
Uso de inferência sob demanda
A inferência sob demanda é o modo padrão para os modelos do Amazon Nova. Basta especificar o ID do modelo ao fazer chamadas de API:
import boto3 bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') response = bedrock.converse( modelId='us.amazon.nova-2-lite-v1:0', messages=[ { 'role': 'user', 'content': [{'text': 'Hello, Nova!'}] } ] ) # Print the response text content_list = response["output"]["message"]["content"] text = next((item["text"] for item in content_list if "text" in item), None) if text is not None: print(text)
Preços
A inferência sob demanda é cobrada com base no número de tokens de entrada e saída processados. Para obter detalhes atuais sobre preços, consulte Preços do Amazon Bedrock
Cotas e limites
A inferência sob demanda tem cotas padrão que variam de acordo com o modelo e a região. Para solicitar aumentos de cota, use o console do Service Quotas