View a markdown version of this page

服務配額和限流 - AWS 截止日期雲端

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

服務配額和限流

助理使用隨需推論,這取決於您帳戶的服務配額。兩個主要限制條件為:

  • 每分鐘請求數 (RPM) – 每分鐘允許的模型調用請求數。

  • 每分鐘字符 (TPM) – 每分鐘處理的輸入和輸出字符總數。

預設配額因區域而異。某些區域具有較低的預設限制 (低至 20 RPM),這可能會在重度助理使用期間導致限流。

請求提高配額

如果您在使用 助理時遇到限流錯誤,您可以請求提高服務配額:

請求提高配額
  1. 開啟 Service Quotas 主控台

  2. 在導覽窗格中,選擇 AWS 服務,然後選擇

  3. 尋找助理使用的模型配額 (尋找相關模型InvokeModelWithResponseStream的 相關配額)。

  4. 選擇配額名稱,然後選擇帳戶層級的請求增加

  5. 輸入所需的配額值並提交請求。

如需詳細資訊,請參閱「Service Quotas 使用者指南」中的請求提高配額

注意

如果您的區域使用跨區域推論,則目的地區域中的服務配額也會套用。跨區域推論設定檔支援最低 200 RPM,這有助於緩解單一區域限制較低的區域中的限流。

監控配額用量

您可以透過 CloudWatch 指標監控您的配額用量。在調節指標上設定 CloudWatch 警示,以主動識別您何時接近配額限制。如需詳細資訊,請參閱《 使用者指南》中的監控