サービスクォータとスロットリング

アシスタントは、アカウントのサービスクォータの対象となるオンデマンド推論を使用します。2 つの主な制約は次のとおりです。

デフォルトのクォータはリージョンによって異なります。一部のリージョンでは、デフォルトの制限が低く (最低 20 RPM)、アシスタントの使用が多いとスロットリングが発生する可能性があります。

クォータ引き上げのリクエスト

アシスタントの使用時にスロットリングエラーが発生した場合は、サービスクォータの引き上げをリクエストできます。

Service Quotas コンソールを開きます。
ナビゲーションペインで、AWS サービスを選択し、を選択します。
アシスタントが使用するモデルのクォータを見つけます (関連するモデルのに関連するクォータを探InvokeModelWithResponseStreamします）。
クォータ名を選択し、アカウントレベルで引き上げをリクエストを選択します。
目的のクォータ値を入力し、リクエストを送信します。

詳細については、「Service Quotas ユーザーガイド」の「クォータの引き上げのリクエスト」を参照してください。

リージョンがクロスリージョン推論を使用している場合は、送信先リージョンのサービスクォータも適用されます。クロスリージョン推論プロファイルは、最小 200 RPM をサポートしているため、単一リージョンの制限が低いリージョンでのスロットリングを軽減できます。

CloudWatch メトリクスを使用してクォータの使用状況をモニタリングできます。スロットリングメトリクスに CloudWatch アラームを設定して、クォータ制限に近づいているタイミングを事前に特定します。詳細については、「 ユーザーガイド」の「Monitoring 」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

コスト

トラブルシューティング