容量、制限、コストの最適化 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

容量、制限、コストの最適化

Amazon Bedrock には、ワークロードの要件と予算に合わせて柔軟な容量オプションが用意されています。オンデマンド階層 (Flex、Priority、Standard)、リザーブド階層、バッチ処理、クロスリージョン推論の違いを理解することで、パフォーマンスとコストの両方を最適化できます。

キャパシティオプション

キャパシティタイプ ユースケース 主な特徴
オンデマンド: Flex ボリュームの少ない散発的なワークロード
  • トークンあたりの最低コスト

  • ベストエフォートの可用性

  • スロットリングが発生する可能性があります

  • SLA なし

オンデマンド: 標準 通常の本稼働ワークロード
  • コストとパフォーマンスのバランス

  • 中程度のスループットの保証

  • 標準 SLA

  • 最も一般的な選択肢

オンデマンド: Priority 優先度が高く、レイテンシーの影響を受けやすいアプリケーション
  • オンデマンドコストの最大値

  • プレミアムスループットの割り当て

  • 拡張 SLA

  • スロットリングリスクの低減

予約済み階層 一貫性のある大量のワークロード
  • 予約済みモデルユニット

  • 保証された容量

  • 1 か月または 6 か月のコミットメント

  • 予測可能なパフォーマンス

バッチ 時間non-time-sensitive大規模な処理
  • オンデマンドと比較して 50% のコスト削減

  • 24 時間処理ウィンドウ

  • 一括推論に最適

クロスリージョン推論 高可用性、トラフィックバースト
  • 自動フェイルオーバー

  • 混雑の少ないリージョンへのルーティング

  • 稼働時間の向上

  • オンデマンド料金を使用

制限とクォータ

オンデマンド制限 (階層別)

Tier RPM 範囲 TPM 範囲 スロットリングリスク
Flex 10-100 5K-50K
標準 100-500 50K-150K
優先度 500-1000 以降 150K-300K 以上
  • バースト容量: ショートスパイクですべての階層で使用可能

  • ソフト制限: サービスクォータリクエストを介して増加可能

  • モデル固有: 実際の制限は基盤モデルによって異なります

リザーブド階層の制限

  • 最小コミットメント: 1 モデルユニット

  • 最大単位: アカウントとリージョン固有

  • 入出力トークンの制限: 購入単位に基づく

  • 購入した容量内で RPM スロットリングがない

バッチ処理の制限

  • ジョブサイズ: バッチあたり最大 10,000 レコード

  • ファイルサイズ: 最大 200 MB の入力ファイル

  • 処理時間: 24 時間完了ウィンドウ

  • 同時ジョブ: リージョン固有のクォータ

クロスリージョン推論

  • リージョンごとにオンデマンド階層制限を継承します

  • 追加のクォータオーバーヘッドなし

  • 自動ルーティング (手動制限管理なし)

コスト最適化

決定フレームワーク

シナリオ 推奨されるオプション なぜ
開発/テスト Flex 最低コスト、非本番環境でも許容可能
標準本番稼働 標準 最高のコストパフォーマンスバランス
重要なユーザー向けアプリケーション 優先度 コストに対する信頼性とパフォーマンス
大量の負荷が安定している 予約済み階層 コミットメントによる 30~50% の節約
一括データ処理 バッチ 50% 割引、緊急ではないワークロード
ミッションクリティカルな稼働時間 クロスリージョン推論 可用性 > コスト

最適化戦略

適切なオンデマンド階層を選択する

  • ほとんどのワークロードで Standard から開始する

  • 開発/テスト環境の Flex にダウングレードする

  • スロットリングがユーザーに影響する場合にのみ Priority にアップグレードする

  • CloudWatch スロットルメトリクスをモニタリングして決定事項を通知する

リザーブド階層への移行

  • 一貫した負荷がオンデマンドコストの 40% を超える場合

  • 損益分岐点の計算: (毎月のオンデマンドコスト) と (予約済みコミットメント)

  • 最初に 1 か月のコミットメントを使用する

  • 予約済み階層は、任意のオンデマンド階層と連携できます。

のバッチを活用する

  • トレーニングデータ生成

  • コンテンツモデレーションバックログ

  • レポートの生成

  • データエンリッチメントパイプライン

アプローチを組み合わせる

  • ベースライントラフィックの予約済み階層

  • 中程度のバーストの標準オンデマンド

  • 重要なピーク期間のオンデマンドの優先度

  • オフライン処理用のバッチ

  • フェイルオーバー専用のクロスリージョン

コストモニタリング

  • 階層コストの比較: Flex < Standard < Priority

  • リクエストごとにトークンを追跡する (プロンプトを最適化)

  • 使用率とスロットリングに CloudWatch メトリクスを使用する

  • 予期しないスパイクに対する請求アラームを設定する

  • リザーブド階層の使用率を毎月確認する

  • スロットリングが発生した場合にのみ階層のアップグレードを評価する