翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Bedrock で強化ファインチューニングを使用してモデルをカスタマイズする
強化ファインチューニングは、報酬と呼ばれるフィードバックシグナルを通じて「良い」レスポンスを構成するものをモデルに教えることで、基盤モデルのパフォーマンスを向上させる Amazon Bedrock のモデルカスタマイズ手法です。ラベル付きデータセットに依存する従来のファインチューニング方法とは異なり、強化ファインチューニングはフィードバック駆動型のアプローチを使用してモデルを繰り返し最適化し、これらの報酬を最大化します。
ファインチューニングアプリケーションとシナリオの強化
応答品質を評価するための明確で測定可能な成功基準を定義できる場合は、強化ファインチューニングを使用します。強化ファインチューニングは、出力品質を客観的に測定できるドメイン、特に複数の有効なレスポンスが存在する場合、または最適なレスポンスを事前に定義することが困難な場合に適しています。これは、以下に最適です。
数学的問題解決とコード生成 (目標評価にルールベースのグレーダーを使用)
科学的推論と構造化データ分析
指示、コンテンツのモデレーション、クリエイティブライティングなどの主観的なタスク (AI ベースの審査員を使用)
step-by-stepの推論または複数ターンの問題解決を必要とするタスク
複数の有効なソリューションがあり、一部のソリューションが他のソリューションよりも明らかに優れているシナリオ
複数の目標 (精度、効率、スタイル) のバランスを取るアプリケーション
反復的な改善、パーソナライゼーション、または複雑なビジネスルールの遵守を必要とするアプリケーション
実行結果またはパフォーマンスメトリクスを通じてプログラムで成功を検証できるシナリオ
高品質のラベル付き例の収集が高価または実用的でないケース
強化ファインチューニングの利点
-
モデルのパフォーマンスの向上 – 強化ファインチューニングにより、ベースモデルと比較してモデルの精度が平均で最大 66% 向上します。これにより、より小さく、高速で、より効率的なモデルバリアントを微調整することで、価格とパフォーマンスを最適化できます。
-
使いやすさ – Amazon Bedrock は、強化ファインチューニングの複雑さを自動化し、AI アプリケーションを構築する開発者がアクセスできるようにします。アップロードしたデータセットまたは既存の API 呼び出しログを使用してモデルを微調整できます。クイックセットアップに役立つ組み込みテンプレートを使用して、Lambda または model-as-a-judge グレーダーを使用してカスタムコードでモデル出力をグレーディングする報酬関数を定義できます。
-
セキュリティとコンプライアンス — カスタマイズプロセス中に、お客様の専有データが AWS安全で管理された環境を離れることはありません。
強化ファインチューニングでサポートされているモデル
次の表は、強化ファインチューニングでカスタマイズできる基盤モデルを示しています。
| プロバイダー | モデル | モデル ID | リージョン名 | リージョン |
|---|---|---|---|---|
| Amazon | ノバ 2 ライト | amazon.nova-2-lite-v1:0:256k |
米国東部 (バージニア北部) |
us–east–1 |
| OpenAI | gpt-oss-20B | openai.gpt-oss-20b | 米国西部 (オレゴン) | us-west-2 |
| Qwen | Qwen3 32B | qwen.qwen3-32b | 米国西部 (オレゴン) | us-west-2 |
強化ファインチューニングの仕組み
Amazon Bedrock は、強化ファインチューニングワークフローを完全に自動化します。モデルはトレーニングデータセットからプロンプトを受け取り、プロンプトごとに複数のレスポンスを生成します。これらのレスポンスは報酬関数によってスコアリングされます。Amazon Bedrock は、プロンプトとレスポンスのペアとスコアを使用して、グループ相対ポリシー最適化 (GRPO) を使用したポリシーベースの学習を通じてモデルをトレーニングします。トレーニングループは、トレーニングデータが終了するか、選択したチェックポイントでジョブを停止するまで続き、重要なメトリクスに最適化されたモデルを生成します。
ファインチューニングのベストプラクティスの強化
小規模から始める – 100~200 個の例から始めて、報酬関数の正確性を検証し、結果に基づいて徐々にスケールする
微調整前評価 – 強化ファインチューニングの前にベースラインモデルのパフォーマンスをテストします。報酬が一貫して 0% の場合は、まず教師ありファインチューニングを使用して基本的な機能を確立します。報酬が 95% を超える場合、強化ファインチューニングは不要である可能性があります
トレーニングのモニタリング – 平均報酬スコアと分布を追跡します。オーバーフィットに注意します (トレーニング報酬は増加し、検証報酬は減少します)。報酬のプラトーイングが 0.15 を下回る、報酬の変動が時間の経過とともに増加する、検証パフォーマンスが低下するなどのパターンを探します。
報酬関数の最適化 – 数秒 (数分ではなく) で実行し、外部 API コールを最小限に抑え、効率的なアルゴリズムを使用し、適切なエラー処理を実装し、Lambda の並列スケーリングを活用します。
反復戦略 – 報酬が改善されない場合は、報酬関数の設計を調整し、データセットの多様性を高め、より代表的な例を追加し、報酬シグナルが明確で一貫していることを確認します。