View a markdown version of this page

容量和性能 - Amazon Bedrock

容量选项限制&配额选择等级

容量和性能

Amazon Bedrock 提供灵活的容量选项，以满足您的工作负载要求和预算。了解按需层（弹性、优先级、标准）、预留层、批处理和跨区域推理之间的差异有助于您优化性能和成本。

容量选项

容量类型	使用场景	主要特征
On-Demand: Flex	零星的低容量工作负载	每个代币的最低成本 Best-effort 可用性可能会遇到节流没有 SLA
On-Demand: 标准	常规生产工作负载	平衡成本和性能中等吞吐量保证标准 SLA 最常见的选择
On-Demand: 优先级	High-priority，对延迟敏感的应用程序	按需成本最高高级吞吐量分配增强的 SLA 降低了节流风险
预留等级	一致的高容量工作负载	预留模型单位有保障的容量 1 或 3 个月的承诺可预测的性能
Batch	Large-scale，非时间敏感型处理	与按需相比，成本节省 50% 24 小时处理窗口非常适合批量推理
Cross-Region 推断	高可用性，流量激增	自动失效转移前往不太繁忙地区的路线延长正常运行时间使用按需定价

限制&配额

On-Demand 限制（按等级划分）

Tier	转速范围	TPM 范围	节流风险
屈伸	10-100	5K-50K	高
标准	100-500	50 K-150K	中
优先级	500-1000+	150 K-300K +	低

突发容量：适用于短峰期，适用于所有等级
软限制：可通过服务配额申请提高限制
Model-specific: 实际限值因基础模型而异

预留等级限制

最低承诺：1 个模型单元
最大单位：账户和地区特定
Input/output 代币限制：基于购买的单位
在购买的容量内没有 RPM 限制

批处理限制

Job 规模：每批最多 10,000 条记录
文件大小：输入文件最大 200 MB
处理时间：24 小时完成窗口
并发作业： Region-specific 配额

Cross-Region 推断

继承每个区域的按需套餐限制
没有额外的配额开销
自动路由（无需手动限制管理）

选择等级

决策框架

场景	推荐选项	为什么
Development/testing	屈伸	成本最低，非生产环境可接受
标准生产	标准	最佳性价比平衡
面向用户的关键应用程序	优先级	可靠性和性能胜过成本
稳定的大容量负载	预留等级	承诺可节省 30-50%
批量数据处理	Batch	50% 折扣，非紧急工作负载
Mission-critical 正常运行时间	Cross-Region 推断	可用性 > 成本

优化策略

选择正确的 On-Demand 等级

对于大多数工作负载，从标准版开始
针对 dev/test 环境降级到 Flex
只有在限制影响用户时才升级到优先级
监控 CloudWatch 油门指标以为决策提供依据

过渡到预留等级

当持续负载超过按需成本的 40% 时
计算收支平衡：（每月按需成本）与（预留承诺）
最初使用 1 个月的订阅期
预留套餐可以与任何按需套餐一起使用

使用 Batch 进行

训练数据生成
内容审核待办事项
报告生成
数据充实管道

组合方法

为基准流量预留套餐
中度爆发的标准按需配置
关键高峰时段按需优先处理
Batch 用于离线处理
Cross-region 仅用于故障转移

成本监控

比较等级费用：Flex < 标准 < 优先级
跟踪每个请求的代币（优化提示）
使用 CloudWatch 指标进行使用和限制
为意外峰值设置账单警报
每月查看预留套餐使用情况
仅在出现限制时才评估等级升级

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

使用 AWS 管理项目 CloudFormation

预留、标准、优先和弹性等级