翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
サービスクォータとスロットリング
アシスタントは、アカウントのサービスクォータの対象となるオンデマンド推論を使用します。2 つの主な制約は次のとおりです。
-
1 分あたりのリクエスト数 (RPM) — 1 分あたりに実行できるモデル呼び出しリクエストの数。
-
1 分あたりのトークン (TPM) — 1 分あたりに処理された入出力トークンの合計数。
デフォルトのクォータはリージョンによって異なります。一部のリージョンでは、デフォルトの制限が低く (最低 20 RPM)、アシスタントの使用が多いとスロットリングが発生する可能性があります。
クォータ引き上げのリクエスト
アシスタントの使用時にスロットリングエラーが発生した場合は、サービスクォータの引き上げをリクエストできます。
クォータの増加をリクエストするには
-
Service Quotas コンソール
を開きます。 -
ナビゲーションペインで、AWS サービスを選択し、 を選択します。
-
アシスタントが使用するモデルのクォータを見つけます (関連するモデルの に関連するクォータを探
InvokeModelWithResponseStreamします)。 -
クォータ名を選択し、アカウントレベルで引き上げをリクエストを選択します。
-
目的のクォータ値を入力し、リクエストを送信します。
詳細については、「Service Quotas ユーザーガイド」の「クォータの引き上げのリクエスト」を参照してください。
注記
リージョンがクロスリージョン推論を使用している場合は、送信先リージョンのサービスクォータも適用されます。クロスリージョン推論プロファイルは、最小 200 RPM をサポートしているため、単一リージョンの制限が低いリージョンでのスロットリングを軽減できます。
クォータ使用状況のモニタリング
CloudWatch メトリクスを使用してクォータの使用状況をモニタリングできます。スロットリングメトリクスに CloudWatch アラームを設定して、クォータ制限に近づいているタイミングを事前に特定します。詳細については、「 ユーザーガイド」の「Monitoring 」を参照してください。