翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
高度なプロンプト最適化の仕組み
概要
Advanced Prompt Optimization (AdvPO) を使用すると、Bedrock 上の任意のモデルのプロンプトを最適化しながら、元のプロンプトと最大 5 つのモデルにわたって最適化されたプロンプトを同時に比較できます。これは、新しいモデルに移行する場合や、現在のモデルのパフォーマンスを向上させたい場合に使用できます。モデルを変更する場合は、現在のモデルをベースラインとして選択し、他のモデルを最大 4 つまで選択します。モデルを変更しない場合は、現在のモデルを選択して、最適化の前後を確認します。オプティマイザは、プロンプトテンプレート (ジョブあたり最大 10 個)、変数値のユーザー入力例 (評価サンプル、プロンプトテンプレートあたり最大 100 個)、グラウンドトゥルース回答、および最適化の指針となる評価メトリクスを取得します。jpeg、png、PDF などのマルチモーダル入力とも互換性があります。LLM-as-a-judge rubric、Lambda 関数、または短い自然言語ステアリング基準を指定できます。評価はプロンプトの最適化を誘導します。オプティマイザは、評価ベースのフィードバックループで動作してプロンプトと結果のモデルレスポンスを最適化し、評価スコア、コスト見積もり、レイテンシーを含む元のプロンプトテンプレートと最終的なプロンプトテンプレートを出力します。
非 Bedrock モデルからプロンプトを移行し、引き続きside-by-side比較する場合は、非 Bedrock モデルで個別に推論を実行する方法の 1 つとして、 を適用カスタム Lambda 評価者してそれらの結果をスコアリングします。次に、Bedrock ターゲットモデルに対して同じ Lambda 関数評価者を使用して高度なプロンプト最適化ジョブを作成します。これにより、プロンプトの最適化の前後に、古いモデルと新しいモデルを直接比較できます。
最適化ループの仕組み
評価サンプルはプロンプトテンプレートのプレースホルダー変数に挿入され、ターゲットモデル (複数可) で推論のために送信されます。マルチモーダル入力 (イメージと PDFs) は、プロンプトとともにペイロードでモデルに送信されますが、二重括{{placeholder}}弧変数で参照しないでください。レスポンスは、評価方法に従って評価されます。サービスは評価結果を分析してプロンプトを自動的に書き換え、モデルに送り返します。このフィードバックループは、独自の内部最適化パラメータに従って繰り返し、完了します。
評価はプロンプトの最適化を誘導するため、評価方法と基準をできるだけ正確に定義することが重要です。
データセットとメトリクス/ラムダコードの両方が最適化品質を形成します。システムはデータセットを使用してプロンプト候補をテストし、メトリクスコード (ソーステキストとドキュメント文字列) を読み取り、「良い」の意味を理解し、プロンプトが失敗する場所を診断します。
受け取るもの
最適化ジョブの終了時に、以下を受け取ります。
最適化前後のプロンプトテンプレート
各評価サンプルの評価スコア
各モデルのレイテンシー (最初のトークンまでの時間、または TTFT)
各モデルのコスト見積もり
Cost
すべての推論と Lambda 関数の呼び出しは AWS 、アカウントで実行されます。Lambda オペレーションは、Lambda のパブリック料金で課金されます。推論料金 (LLM-as-a-judge 評価を含む) は、Bedrock のオンデマンド推論のパブリック料金に従って課金されます。高度なプロンプト最適化サービスには、推論コスト以外に料金はかかりません。現在のデフォルトの LLM-as-a-judge モデルは、カスタム LLMJ プロンプトに別のモデルを選択しない限り、Anthropic Claude Sonnet 4.6 です。
最適化を実行するコストを見積もる計算方法については、プロンプト最適化の「Bedrock public pricing」ページを参照してください。
予想される期間
評価サンプルが少ない単一のプロンプトの場合、ジョブは 15~20 分間実行できます。多くのプロンプトでは、それぞれに多数の評価サンプルがあり、ジョブは 1 時間以上、場合によっては数時間実行される可能性があります。これは、各プロンプトテンプレートが、指定したすべての評価サンプルレコードに基づいて、複数の推論、評価、および書き換えループを通過するためです。