

# オンデマンド推論


オンデマンド推論は、プロビジョニングされた容量を必要とせずに、Amazon Nova モデルへのサーバーレスアクセスを提供します。このモードは、ワークロードを処理するために自動的にスケールし、使用量に基づいて課金されます。

## 利点


オンデマンド推論にはいくつかの利点があります。
+ **キャパシティプランニングなし:** 需要に合わせて自動的にスケーリング
+ **従量課金制:** 処理されたトークンに対してのみ課金されます
+ **即時に利用可能:** プロビジョニングやウォームアップ時間は不要
+ **コスト効率:** 可変または予測不可能なワークロードに最適

## オンデマンド推論の使用


オンデマンド推論は、Amazon Nova モデルのデフォルトモードです。API コールを行うときにモデル ID を指定するだけです。

```
import boto3

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

response = bedrock.converse(
    modelId='us.amazon.nova-2-lite-v1:0',
    messages=[
        {
            'role': 'user',
            'content': [{'text': 'Hello, Nova!'}]
        }
    ]
)

# Print the response text
content_list = response["output"]["message"]["content"]
text = next((item["text"] for item in content_list if "text" in item), None)
if text is not None:
    print(text)
```

## 料金


オンデマンド推論は、処理された入出力トークンの数に基づいて請求されます。料金の詳細については、「[Amazon Bedrock の料金](https://aws.amazon.com/bedrock/pricing/)」を参照してください。

## クォータと制限


オンデマンド推論には、モデルとリージョンによって異なるデフォルトのクォータがあります。クォータの引き上げをリクエストするには、[ Service Quotas コンソール](https://console.aws.amazon.com/servicequotas/)を使用してください。