View a markdown version of this page

服务配额和限制 - AWS 截止日期云

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

服务配额和限制

该助手使用按需推理,这取决于您账户的服务配额。两个主要限制因素是:

  • 每分钟请求数 (RPM)-每分钟允许的模型调用请求数。

  • 每分钟令牌 (TPM)-每分钟处理的输入和输出令牌总数。

默认配额因地区而异。某些地区的默认限制较低(低至 20 RPM),这可能会导致在大量使用助手时出现节流。

请求提高配额

如果您在使用助手时遇到限制错误,则可以申请增加服务配额:

请求增加限额
  1. 打开服务限额控制台

  2. 在导航窗格中,选择AWS 服务,然后选择

  3. 查找助手使用的模型的配额(查找相关型号InvokeModelWithResponseStream的相关配额)。

  4. 选择配额名称,然后选择在账户级别申请提高配额。

  5. 输入所需的配额值并提交申请。

有关更多信息,请参阅《服务配额用户指南》中的 Requesting a quota increase

注意

如果您的区域使用跨区域推理,则目标区域的服务配额也适用。 Cross-region 推理配置文件支持至少 200 RPM,这有助于缓解单区域限制较低的区域的限制。

监控配额使用情况

您可以通过 CloudWatch 指标监控配额使用情况。设置限制指标 CloudWatch 警报,以主动识别何时接近配额限制。有关更多信息,请参阅《 用户指南》中的监控