View a markdown version of this page

容量、限制和成本优化 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

容量、限制和成本优化

Amazon Bedrock 提供灵活的容量选项,以满足您的工作负载要求和预算。了解按需层(弹性、优先级、标准)、预留层、批处理和跨区域推理之间的差异有助于您优化性能和成本。

容量选项

容量类型 使用场景 主要特征
点播:Flex 零星的低容量工作负载
  • 每个代币的最低成本

  • 尽力而为的可用性

  • 可能会遇到节流

  • 没有 SLA

点播:标准 常规生产工作负载
  • 平衡成本和性能

  • 中等吞吐量保证

  • 标准 SLA

  • 最常见的选择

点播:优先级 高优先级、对延迟敏感的应用程序
  • 按需成本最高

  • 高级吞吐量分配

  • 增强的 SLA

  • 降低了节流风险

预留等级 一致的高容量工作负载
  • 预留模型单位

  • 有保障的容量

  • 1 或 6 个月的承诺

  • 可预测的性能

Batch 大规模、 non-time-sensitive加工
  • 与按需相比,成本节省 50%

  • 24 小时处理窗口

  • 非常适合批量推理

跨区域推理 高可用性,流量激增
  • 自动失效转移

  • 前往不太繁忙地区的路线

  • 延长正常运行时间

  • 使用按需定价

限制和配额

按需限制(按等级划分)

Tier 转速范围 TPM 范围 节流风险
屈伸 10-100 5K-50K
标准 100-500 50K-150K
优先级 500-1000+ 150K-300K+
  • 突发容量:适用于短峰期,适用于所有等级

  • 软限制:可通过服务配额申请提高限制

  • 特定型号:实际极限因基础模型而异

预留等级限制

  • 最低承诺:1 个模型单元

  • 最大单位:账户和地区特定

  • 输入/输出代币限制:基于购买的单位

  • 在购买的容量内没有 RPM 限制

批处理限制

  • Job 规模:每批最多 10,000 条记录

  • 文件大小:输入文件最大 200 MB

  • 处理时间:24 小时完成窗口

  • 并发作业:特定区域的配额

跨区域推理

  • 继承每个区域的按需套餐限制

  • 没有额外的配额开销

  • 自动路由(无需手动限制管理)

成本优化

决策框架

场景 推荐选项 为什么
开发/测试 屈伸 成本最低,非生产环境可接受
标准生产 标准 最佳性价比平衡
面向用户的关键应用程序 优先级 可靠性和性能胜过成本
稳定的大容量负载 预留等级 承诺可节省 30-50%
批量数据处理 Batch 50% 折扣,非紧急工作负载
关键任务正常运行时间 跨区域推理 可用性 > 成本

优化策略

选择合适的按需套餐

  • 对于大多数工作负载,从标准版开始

  • 针对 dev/test 环境降级到 Flex

  • 只有在限制影响用户时才升级到优先级

  • 监控 CloudWatch 油门指标以为决策提供依据

过渡到预留等级

  • 当持续负载超过按需成本的 40% 时

  • 计算收支平衡:(每月按需成本)与(预留承诺)

  • 最初使用 1 个月的订阅期

  • 预留套餐可以与任何按需套餐一起使用

利用 Batch 获得

  • 训练数据生成

  • 内容审核待办事项

  • 报告生成

  • 数据充实管道

组合方法

  • 为基准流量预留套餐

  • 中度爆发的标准按需配置

  • 关键高峰时段按需优先处理

  • Batch 用于离线处理

  • 仅用于故障转移的跨区域

成本监控

  • 比较等级费用:Flex < 标准 < 优先级

  • 跟踪每个请求的代币(优化提示)

  • 使用 CloudWatch 指标来衡量利用率和限制

  • 为意外峰值设置账单警报

  • 每月查看预留等级使用率

  • 仅在出现限制时才评估等级升级