

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 容量和效能
<a name="capacity-limits-cost-optimization"></a>

Amazon Bedrock 提供彈性的容量選項，以符合您的工作負載需求和預算。了解隨需層 (Flex、Priority、Standard)、預留層、批次處理和跨區域推論之間的差異，可協助您最佳化效能和成本。

## 容量選項
<a name="capacity-options"></a>


| 容量類型 | 使用案例 | 重要特性 | 
| --- | --- | --- | 
| 隨需：彈性 | 偶爾、低容量工作負載 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| 隨需：標準 | 定期生產工作負載 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| 隨需：優先順序 | 高優先順序、延遲敏感的應用程式 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| 預留層 | 一致的大量工作負載 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| 批次 | 大規模、non-time-sensitive處理 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| 跨區域推論 | 高可用性、流量暴增 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 

## 限制與配額
<a name="limits-quotas"></a>

### 隨需限制 （依層）
<a name="on-demand-limits"></a>


| Tier | RPM 範圍 | TPM 範圍 | 調節風險 | 
| --- | --- | --- | --- | 
| Flex | 10-100 | 5K-50K | 高 | 
| 標準 | 100-500 | 50K-150K | 中 | 
| Priority | 500-1000\+ | 150K-300K\+ | 低 | 
+ 爆量容量：可用於所有層級的短峰值
+ 軟性限制：透過服務配額請求增加
+ 特定模型：實際限制因基礎模型而異

### 預留層限制
<a name="reserved-tier-limits"></a>
+ 最低承諾：1 個模型單位
+ 單位上限：帳戶和區域特定
+ 輸入/輸出字符限制：根據購買的單位
+ 購買容量內沒有 RPM 限流

### 批次處理限制
<a name="batch-processing-limits"></a>
+ 任務大小：每個批次最多 10，000 筆記錄
+ 檔案大小：最大 200 MB 輸入檔案
+ 處理時間：24 小時完成時段
+ 並行任務：區域特定的配額

### 跨區域推論
<a name="cross-region-inference-limits"></a>
+ 繼承每個區域的隨需層限制
+ 沒有額外的配額額外負荷
+ 自動路由 （無手動限制管理）

## 選擇方案
<a name="cost-optimization"></a>

### 決策架構
<a name="decision-framework"></a>


| 案例 | 建議選項 | 為什麼 | 
| --- | --- | --- | 
| 開發/測試 | Flex | 最低成本，適用於非生產 | 
| 標準生產 | 標準 | 最佳成本效能平衡 | 
| 面向使用者的關鍵應用程式 | Priority | 與成本相比的可靠性和效能 | 
| 穩定的大量負載 | 預留層 | 承諾節省 30-50% | 
| 大量資料處理 | 批次 | 50% 折扣，非緊急工作負載 | 
| 關鍵任務運作時間 | 跨區域推論 | 可用性 > 成本 | 

### 最佳化策略
<a name="optimization-strategies"></a>

**選擇正確的隨需方案**
+ 從適用於大多數工作負載的標準開始
+ 針對開發/測試環境降級為 Flex
+ 只有在限流影響使用者時，才升級至優先順序
+ 監控 CloudWatch 限流指標，為決策提供資訊

**轉換為預留層**
+ 當一致性負載超過隨需成本的 40% 時
+ 計算損益平衡： （每月隨需成本） 與 （預留承諾）
+ 最初使用 1 個月的承諾
+ 預留層可與任何隨需層搭配使用

**使用 Batch 進行**
+ 訓練資料產生
+ 內容管制待處理項目
+ 產生報告
+ 資料擴充管道

**合併方法**
+ 基準流量的預留層
+ 中度爆量的標準隨需
+ 關鍵尖峰時段的隨需優先順序
+ 用於離線處理的批次
+ 僅限容錯移轉的跨區域

**成本監控**
+ 比較方案成本：Flex < Standard < Priority
+ 追蹤每個請求的權杖 （最佳化提示）
+ 使用 CloudWatch 指標來使用和調節
+ 設定意外尖峰的帳單警示
+ 每月檢閱預留方案用量
+ 僅在限流發生時評估層升級