View a markdown version of this page

容量和性能 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

容量和性能

Amazon Bedrock 提供灵活的容量选项,以满足您的工作负载要求和预算。了解按需层(弹性、优先级、标准)、预留层、批处理和跨区域推理之间的差异有助于您优化性能和成本。

容量选项

容量类型 使用场景 主要特征
On-Demand: Flex 零星的低容量工作负载
  • 每个代币的最低成本

  • Best-effort 可用性

  • 可能会遇到节流

  • 没有 SLA

On-Demand: 标准 常规生产工作负载
  • 平衡成本和性能

  • 中等吞吐量保证

  • 标准 SLA

  • 最常见的选择

On-Demand: 优先级 High-priority,对延迟敏感的应用程序
  • 按需成本最高

  • 高级吞吐量分配

  • 增强的 SLA

  • 降低了节流风险

预留等级 一致的高容量工作负载
  • 预留模型单位

  • 有保障的容量

  • 1 或 3 个月的承诺

  • 可预测的性能

Batch Large-scale,非时间敏感型处理
  • 与按需相比,成本节省 50%

  • 24 小时处理窗口

  • 非常适合批量推理

Cross-Region 推断 高可用性,流量激增
  • 自动失效转移

  • 前往不太繁忙地区的路线

  • 延长正常运行时间

  • 使用按需定价

限制&配额

On-Demand 限制(按等级划分)

Tier 转速范围 TPM 范围 节流风险
屈伸 10-100 5K-50K
标准 100-500 50 K-150K
优先级 500-1000+ 150 K-300K +
  • 突发容量:适用于短峰期,适用于所有等级

  • 软限制:可通过服务配额申请提高限制

  • Model-specific: 实际限值因基础模型而异

预留等级限制

  • 最低承诺:1 个模型单元

  • 最大单位:账户和地区特定

  • Input/output 代币限制:基于购买的单位

  • 在购买的容量内没有 RPM 限制

批处理限制

  • Job 规模:每批最多 10,000 条记录

  • 文件大小:输入文件最大 200 MB

  • 处理时间:24 小时完成窗口

  • 并发作业: Region-specific 配额

Cross-Region 推断

  • 继承每个区域的按需套餐限制

  • 没有额外的配额开销

  • 自动路由(无需手动限制管理)

选择等级

决策框架

场景 推荐选项 为什么
Development/testing 屈伸 成本最低,非生产环境可接受
标准生产 标准 最佳性价比平衡
面向用户的关键应用程序 优先级 可靠性和性能胜过成本
稳定的大容量负载 预留等级 承诺可节省 30-50%
批量数据处理 Batch 50% 折扣,非紧急工作负载
Mission-critical 正常运行时间 Cross-Region 推断 可用性 > 成本

优化策略

选择正确的 On-Demand 等级

  • 对于大多数工作负载,从标准版开始

  • 针对 dev/test 环境降级到 Flex

  • 只有在限制影响用户时才升级到优先级

  • 监控 CloudWatch 油门指标以为决策提供依据

过渡到预留等级

  • 当持续负载超过按需成本的 40% 时

  • 计算收支平衡:(每月按需成本)与(预留承诺)

  • 最初使用 1 个月的订阅期

  • 预留套餐可以与任何按需套餐一起使用

使用 Batch 进行

  • 训练数据生成

  • 内容审核待办事项

  • 报告生成

  • 数据充实管道

组合方法

  • 为基准流量预留套餐

  • 中度爆发的标准按需配置

  • 关键高峰时段按需优先处理

  • Batch 用于离线处理

  • Cross-region 仅用于故障转移

成本监控

  • 比较等级费用:Flex < 标准 < 优先级

  • 跟踪每个请求的代币(优化提示)

  • 使用 CloudWatch 指标进行使用和限制

  • 为意外峰值设置账单警报

  • 每月查看预留套餐使用情况

  • 仅在出现限制时才评估等级升级