

# Inferência sob demanda
<a name="on-demand-inference"></a>

A inferência sob demanda fornece acesso sem servidor aos modelos do Amazon Nova sem exigir capacidade provisionada. Esse modo é escalado automaticamente para lidar com sua workload e cobranças com base no uso.

## Benefícios
<a name="on-demand-benefits"></a>

A inferência sob demanda apresenta várias vantagens:
+ **Nenhum planejamento de capacidade:** escala automaticamente para atender à demanda
+ **Pagamento conforme o uso:** cobrança somente dos tokens processados
+ **Disponibilidade instantânea:** sem necessidade de provisionamento ou tempo de aquecimento
+ **Econômica:** ideal para workloads variáveis ou imprevisíveis

## Uso de inferência sob demanda
<a name="on-demand-usage"></a>

A inferência sob demanda é o modo padrão para os modelos do Amazon Nova. Basta especificar o ID do modelo ao fazer chamadas de API:

```
import boto3

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

response = bedrock.converse(
    modelId='us.amazon.nova-2-lite-v1:0',
    messages=[
        {
            'role': 'user',
            'content': [{'text': 'Hello, Nova!'}]
        }
    ]
)

# Print the response text
content_list = response["output"]["message"]["content"]
text = next((item["text"] for item in content_list if "text" in item), None)
if text is not None:
    print(text)
```

## Preços
<a name="on-demand-pricing"></a>

A inferência sob demanda é cobrada com base no número de tokens de entrada e saída processados. Para obter detalhes atuais sobre preços, consulte [Preços do Amazon Bedrock](https://aws.amazon.com/bedrock/pricing/).

## Cotas e limites
<a name="on-demand-limits"></a>

A inferência sob demanda tem cotas padrão que variam de acordo com o modelo e a região. Para solicitar aumentos de cota, use o [console do Service Quotas](https://console.aws.amazon.com/servicequotas/).