容量、限制和成本最佳化 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

容量、限制和成本最佳化

Amazon Bedrock 提供彈性的容量選項,以符合您的工作負載需求和預算。了解隨需層 (Flex、Priority、Standard)、預留層、批次處理和跨區域推論之間的差異,可協助您最佳化效能和成本。

容量選項

容量類型 使用案例 重要特性
隨需:彈性 偶爾、低容量工作負載
  • 每個字符的最低成本

  • 最佳可用性

  • 可能會遇到限流

  • 無 SLA

隨需:標準 定期生產工作負載
  • 平衡成本和效能

  • 中等輸送量保證

  • 標準 SLA

  • 最常見的選擇

隨需:優先順序 高優先順序、延遲敏感的應用程式
  • 最高隨需成本

  • Premium 輸送量分配

  • 增強型 SLA

  • 降低調節風險

預留層 一致的大量工作負載
  • 預留模型單位

  • 保證容量

  • 1 或 6 個月的承諾

  • 可預測的效能

批次 大規模、non-time-sensitive處理
  • 相較於隨需節省 50% 的成本

  • 24 小時處理時段

  • 非常適合大量推論

跨區域推論 高可用性、流量暴增
  • 自動容錯移轉

  • 路由到較不忙碌的區域

  • 改善運作時間

  • 使用隨需定價

限制與配額

隨需限制 (依層)

Tier RPM 範圍 TPM 範圍 調節風險
Flex 10-100 5K-50K
標準 100-500 50K-150K
Priority 500-1000+ 150K-300K+
  • 爆量容量:可用於所有層級的短峰值

  • 軟性限制:透過服務配額請求增加

  • 特定模型:實際限制因基礎模型而異

預留層限制

  • 最低承諾:1 個模型單位

  • 單位上限:帳戶和區域特定

  • 輸入/輸出字符限制:根據購買的單位

  • 購買容量內沒有 RPM 限流

批次處理限制

  • 任務大小:每個批次最多 10,000 筆記錄

  • 檔案大小:最大 200 MB 輸入檔案

  • 處理時間:24 小時完成時段

  • 並行任務:區域特定的配額

跨區域推論

  • 繼承每個區域的隨需層限制

  • 沒有額外的配額額外負荷

  • 自動路由 (無手動限制管理)

成本最佳化

決策架構

案例 建議選項 為什麼
開發/測試 Flex 最低成本,適用於非生產
標準生產 標準 最佳成本效能平衡
面向使用者的關鍵應用程式 Priority 與成本相比的可靠性和效能
穩定的大量負載 預留層 承諾節省 30-50%
大量資料處理 批次 50% 折扣、非緊急工作負載
關鍵任務運作時間 跨區域推論 可用性 > 成本

最佳化策略

選擇正確的隨需方案

  • 從適用於大多數工作負載的標準開始

  • 針對開發/測試環境降級為 Flex

  • 只有在限流影響使用者時,才升級至優先順序

  • 監控 CloudWatch 限流指標,為決策提供資訊

轉換為預留層

  • 當一致性負載超過隨需成本的 40% 時

  • 計算損益平衡: (每月隨需成本) 與 (預留承諾)

  • 最初使用 1 個月的承諾

  • 預留層可與任何隨需層搭配使用

將 Batch 用於

  • 訓練資料產生

  • 內容管制待處理項目

  • 產生報告

  • 資料擴充管道

合併方法

  • 基準流量的預留層

  • 中度爆量的標準隨需

  • 關鍵尖峰時段的隨需優先順序

  • 用於離線處理的批次

  • 僅限容錯移轉的跨區域

成本監控

  • 比較方案成本:Flex < Standard < Priority

  • 追蹤每個請求的權杖 (最佳化提示)

  • 使用 CloudWatch 指標進行使用率和限流

  • 設定意外尖峰的帳單警示

  • 每月檢閱預留方案使用率

  • 僅在限流發生時評估層升級