本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
服務配額和限流
助理使用隨需推論,這取決於您帳戶的服務配額。兩個主要限制條件為:
-
每分鐘請求數 (RPM) – 每分鐘允許的模型調用請求數。
-
每分鐘字符 (TPM) – 每分鐘處理的輸入和輸出字符總數。
預設配額因區域而異。某些區域具有較低的預設限制 (低至 20 RPM),這可能會在重度助理使用期間導致限流。
請求提高配額
如果您在使用 助理時遇到限流錯誤,您可以請求提高服務配額:
請求提高配額
-
在導覽窗格中,選擇 AWS 服務,然後選擇 。
-
尋找助理使用的模型配額 (尋找相關模型
InvokeModelWithResponseStream的 相關配額)。 -
選擇配額名稱,然後選擇帳戶層級的請求增加。
-
輸入所需的配額值並提交請求。
如需詳細資訊,請參閱「Service Quotas 使用者指南」中的請求提高配額。
注意
如果您的區域使用跨區域推論,則目的地區域中的服務配額也會套用。跨區域推論設定檔支援最低 200 RPM,這有助於緩解單一區域限制較低的區域中的限流。
監控配額用量
您可以透過 CloudWatch 指標監控您的配額用量。在調節指標上設定 CloudWatch 警示,以主動識別您何時接近配額限制。如需詳細資訊,請參閱《 使用者指南》中的監控 。