本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
容量和性能
Amazon Bedrock 提供灵活的容量选项,以满足您的工作负载要求和预算。了解按需层(弹性、优先级、标准)、预留层、批处理和跨区域推理之间的差异有助于您优化性能和成本。
容量选项
| 容量类型 | 使用场景 | 主要特征 |
|---|---|---|
| On-Demand: Flex | 零星的低容量工作负载 |
|
| On-Demand: 标准 | 常规生产工作负载 |
|
| On-Demand: 优先级 | High-priority,对延迟敏感的应用程序 |
|
| 预留等级 | 一致的高容量工作负载 |
|
| Batch | Large-scale,非时间敏感型处理 |
|
| Cross-Region 推断 | 高可用性,流量激增 |
|
限制&配额
On-Demand 限制(按等级划分)
| Tier | 转速范围 | TPM 范围 | 节流风险 |
|---|---|---|---|
| 屈伸 | 10-100 | 5K-50K | 高 |
| 标准 | 100-500 | 50 K-150K | 中 |
| 优先级 | 500-1000+ | 150 K-300K + | 低 |
突发容量:适用于短峰期,适用于所有等级
软限制:可通过服务配额申请提高限制
Model-specific: 实际限值因基础模型而异
预留等级限制
最低承诺:1 个模型单元
最大单位:账户和地区特定
Input/output 代币限制:基于购买的单位
在购买的容量内没有 RPM 限制
批处理限制
Job 规模:每批最多 10,000 条记录
文件大小:输入文件最大 200 MB
处理时间:24 小时完成窗口
并发作业: Region-specific 配额
Cross-Region 推断
继承每个区域的按需套餐限制
没有额外的配额开销
自动路由(无需手动限制管理)
选择等级
决策框架
| 场景 | 推荐选项 | 为什么 |
|---|---|---|
| Development/testing | 屈伸 | 成本最低,非生产环境可接受 |
| 标准生产 | 标准 | 最佳性价比平衡 |
| 面向用户的关键应用程序 | 优先级 | 可靠性和性能胜过成本 |
| 稳定的大容量负载 | 预留等级 | 承诺可节省 30-50% |
| 批量数据处理 | Batch | 50% 折扣,非紧急工作负载 |
| Mission-critical 正常运行时间 | Cross-Region 推断 | 可用性 > 成本 |
优化策略
选择正确的 On-Demand 等级
对于大多数工作负载,从标准版开始
针对 dev/test 环境降级到 Flex
只有在限制影响用户时才升级到优先级
监控 CloudWatch 油门指标以为决策提供依据
过渡到预留等级
当持续负载超过按需成本的 40% 时
计算收支平衡:(每月按需成本)与(预留承诺)
最初使用 1 个月的订阅期
预留套餐可以与任何按需套餐一起使用
使用 Batch 进行
训练数据生成
内容审核待办事项
报告生成
数据充实管道
组合方法
为基准流量预留套餐
中度爆发的标准按需配置
关键高峰时段按需优先处理
Batch 用于离线处理
Cross-region 仅用于故障转移
成本监控
比较等级费用:Flex < 标准 < 优先级
跟踪每个请求的代币(优化提示)
使用 CloudWatch 指标进行使用和限制
为意外峰值设置账单警报
每月查看预留套餐使用情况
仅在出现限制时才评估等级升级