本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
容量、限制和成本最佳化
Amazon Bedrock 提供彈性的容量選項,以符合您的工作負載需求和預算。了解隨需層 (Flex、Priority、Standard)、預留層、批次處理和跨區域推論之間的差異,可協助您最佳化效能和成本。
容量選項
| 容量類型 | 使用案例 | 重要特性 |
|---|---|---|
| 隨需:彈性 | 偶爾、低容量工作負載 |
|
| 隨需:標準 | 定期生產工作負載 |
|
| 隨需:優先順序 | 高優先順序、延遲敏感的應用程式 |
|
| 預留層 | 一致的大量工作負載 |
|
| 批次 | 大規模、non-time-sensitive處理 |
|
| 跨區域推論 | 高可用性、流量暴增 |
|
限制與配額
隨需限制 (依層)
| Tier | RPM 範圍 | TPM 範圍 | 調節風險 |
|---|---|---|---|
| Flex | 10-100 | 5K-50K | 高 |
| 標準 | 100-500 | 50K-150K | 中 |
| Priority | 500-1000+ | 150K-300K+ | 低 |
爆量容量:可用於所有層級的短峰值
軟性限制:透過服務配額請求增加
特定模型:實際限制因基礎模型而異
預留層限制
最低承諾:1 個模型單位
單位上限:帳戶和區域特定
輸入/輸出字符限制:根據購買的單位
購買容量內沒有 RPM 限流
批次處理限制
任務大小:每個批次最多 10,000 筆記錄
檔案大小:最大 200 MB 輸入檔案
處理時間:24 小時完成時段
並行任務:區域特定的配額
跨區域推論
繼承每個區域的隨需層限制
沒有額外的配額額外負荷
自動路由 (無手動限制管理)
成本最佳化
決策架構
| 案例 | 建議選項 | 為什麼 |
|---|---|---|
| 開發/測試 | Flex | 最低成本,適用於非生產 |
| 標準生產 | 標準 | 最佳成本效能平衡 |
| 面向使用者的關鍵應用程式 | Priority | 與成本相比的可靠性和效能 |
| 穩定的大量負載 | 預留層 | 承諾節省 30-50% |
| 大量資料處理 | 批次 | 50% 折扣、非緊急工作負載 |
| 關鍵任務運作時間 | 跨區域推論 | 可用性 > 成本 |
最佳化策略
選擇正確的隨需方案
從適用於大多數工作負載的標準開始
針對開發/測試環境降級為 Flex
只有在限流影響使用者時,才升級至優先順序
監控 CloudWatch 限流指標,為決策提供資訊
轉換為預留層
當一致性負載超過隨需成本的 40% 時
計算損益平衡: (每月隨需成本) 與 (預留承諾)
最初使用 1 個月的承諾
預留層可與任何隨需層搭配使用
將 Batch 用於
訓練資料產生
內容管制待處理項目
產生報告
資料擴充管道
合併方法
基準流量的預留層
中度爆量的標準隨需
關鍵尖峰時段的隨需優先順序
用於離線處理的批次
僅限容錯移轉的跨區域
成本監控
比較方案成本:Flex < Standard < Priority
追蹤每個請求的權杖 (最佳化提示)
使用 CloudWatch 指標進行使用率和限流
設定意外尖峰的帳單警示
每月檢閱預留方案使用率
僅在限流發生時評估層升級