本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
容量、限制和成本优化
Amazon Bedrock 提供灵活的容量选项,以满足您的工作负载要求和预算。了解按需层(弹性、优先级、标准)、预留层、批处理和跨区域推理之间的差异有助于您优化性能和成本。
容量选项
| 容量类型 | 使用场景 | 主要特征 |
|---|---|---|
| 点播:Flex | 零星的低容量工作负载 |
|
| 点播:标准 | 常规生产工作负载 |
|
| 点播:优先级 | 高优先级、对延迟敏感的应用程序 |
|
| 预留等级 | 一致的高容量工作负载 |
|
| Batch | 大规模、 non-time-sensitive加工 |
|
| 跨区域推理 | 高可用性,流量激增 |
|
限制和配额
按需限制(按等级划分)
| Tier | 转速范围 | TPM 范围 | 节流风险 |
|---|---|---|---|
| 屈伸 | 10-100 | 5K-50K | 高 |
| 标准 | 100-500 | 50K-150K | 中 |
| 优先级 | 500-1000+ | 150K-300K+ | 低 |
突发容量:适用于短峰期,适用于所有等级
软限制:可通过服务配额申请提高限制
特定型号:实际极限因基础模型而异
预留等级限制
最低承诺:1 个模型单元
最大单位:账户和地区特定
输入/输出代币限制:基于购买的单位
在购买的容量内没有 RPM 限制
批处理限制
Job 规模:每批最多 10,000 条记录
文件大小:输入文件最大 200 MB
处理时间:24 小时完成窗口
并发作业:特定区域的配额
跨区域推理
继承每个区域的按需套餐限制
没有额外的配额开销
自动路由(无需手动限制管理)
成本优化
决策框架
| 场景 | 推荐选项 | 为什么 |
|---|---|---|
| 开发/测试 | 屈伸 | 成本最低,非生产环境可接受 |
| 标准生产 | 标准 | 最佳性价比平衡 |
| 面向用户的关键应用程序 | 优先级 | 可靠性和性能胜过成本 |
| 稳定的大容量负载 | 预留等级 | 承诺可节省 30-50% |
| 批量数据处理 | Batch | 50% 折扣,非紧急工作负载 |
| 关键任务正常运行时间 | 跨区域推理 | 可用性 > 成本 |
优化策略
选择合适的按需套餐
对于大多数工作负载,从标准版开始
针对 dev/test 环境降级到 Flex
只有在限制影响用户时才升级到优先级
监控 CloudWatch 油门指标以为决策提供依据
过渡到预留等级
当持续负载超过按需成本的 40% 时
计算收支平衡:(每月按需成本)与(预留承诺)
最初使用 1 个月的订阅期
预留套餐可以与任何按需套餐一起使用
利用 Batch 获得
训练数据生成
内容审核待办事项
报告生成
数据充实管道
组合方法
为基准流量预留套餐
中度爆发的标准按需配置
关键高峰时段按需优先处理
Batch 用于离线处理
仅用于故障转移的跨区域
成本监控
比较等级费用:Flex < 标准 < 优先级
跟踪每个请求的代币(优化提示)
使用 CloudWatch 指标来衡量利用率和限制
为意外峰值设置账单警报
每月查看预留等级使用率
仅在出现限制时才评估等级升级