翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
容量、制限、コストの最適化
Amazon Bedrock には、ワークロードの要件と予算に合わせて柔軟な容量オプションが用意されています。オンデマンド階層 (Flex、Priority、Standard)、リザーブド階層、バッチ処理、クロスリージョン推論の違いを理解することで、パフォーマンスとコストの両方を最適化できます。
キャパシティオプション
| キャパシティタイプ | ユースケース | 主な特徴 |
|---|---|---|
| オンデマンド: Flex | ボリュームの少ない散発的なワークロード |
|
| オンデマンド: 標準 | 通常の本稼働ワークロード |
|
| オンデマンド: Priority | 優先度が高く、レイテンシーの影響を受けやすいアプリケーション |
|
| 予約済み階層 | 一貫性のある大量のワークロード |
|
| バッチ | 時間non-time-sensitive大規模な処理 |
|
| クロスリージョン推論 | 高可用性、トラフィックバースト |
|
制限とクォータ
オンデマンド制限 (階層別)
| Tier | RPM 範囲 | TPM 範囲 | スロットリングリスク |
|---|---|---|---|
| Flex | 10-100 | 5K-50K | 高 |
| 標準 | 100-500 | 50K-150K | 中 |
| 優先度 | 500-1000 以降 | 150K-300K 以上 | 低 |
バースト容量: ショートスパイクですべての階層で使用可能
ソフト制限: サービスクォータリクエストを介して増加可能
モデル固有: 実際の制限は基盤モデルによって異なります
リザーブド階層の制限
最小コミットメント: 1 モデルユニット
最大単位: アカウントとリージョン固有
入出力トークンの制限: 購入単位に基づく
購入した容量内で RPM スロットリングがない
バッチ処理の制限
ジョブサイズ: バッチあたり最大 10,000 レコード
ファイルサイズ: 最大 200 MB の入力ファイル
処理時間: 24 時間完了ウィンドウ
同時ジョブ: リージョン固有のクォータ
クロスリージョン推論
リージョンごとにオンデマンド階層制限を継承します
追加のクォータオーバーヘッドなし
自動ルーティング (手動制限管理なし)
コスト最適化
決定フレームワーク
| シナリオ | 推奨されるオプション | なぜ |
|---|---|---|
| 開発/テスト | Flex | 最低コスト、非本番環境でも許容可能 |
| 標準本番稼働 | 標準 | 最高のコストパフォーマンスバランス |
| 重要なユーザー向けアプリケーション | 優先度 | コストに対する信頼性とパフォーマンス |
| 大量の負荷が安定している | 予約済み階層 | コミットメントによる 30~50% の節約 |
| 一括データ処理 | バッチ | 50% 割引、緊急ではないワークロード |
| ミッションクリティカルな稼働時間 | クロスリージョン推論 | 可用性 > コスト |
最適化戦略
適切なオンデマンド階層を選択する
ほとんどのワークロードで Standard から開始する
開発/テスト環境の Flex にダウングレードする
スロットリングがユーザーに影響する場合にのみ Priority にアップグレードする
CloudWatch スロットルメトリクスをモニタリングして決定事項を通知する
リザーブド階層への移行
一貫した負荷がオンデマンドコストの 40% を超える場合
損益分岐点の計算: (毎月のオンデマンドコスト) と (予約済みコミットメント)
最初に 1 か月のコミットメントを使用する
予約済み階層は、任意のオンデマンド階層と連携できます。
のバッチを活用する
トレーニングデータ生成
コンテンツモデレーションバックログ
レポートの生成
データエンリッチメントパイプライン
アプローチを組み合わせる
ベースライントラフィックの予約済み階層
中程度のバーストの標準オンデマンド
重要なピーク期間のオンデマンドの優先度
オフライン処理用のバッチ
フェイルオーバー専用のクロスリージョン
コストモニタリング
階層コストの比較: Flex < Standard < Priority
リクエストごとにトークンを追跡する (プロンプトを最適化)
使用率とスロットリングに CloudWatch メトリクスを使用する
予期しないスパイクに対する請求アラームを設定する
リザーブド階層の使用率を毎月確認する
スロットリングが発生した場合にのみ階層のアップグレードを評価する