SageMaker HyperPod の強化ファインチューニング (RFT)
強化ファインチューニング (RFT) は、正確な回答で直接監視するのではなく、フィードバックシグナル、つまり測定可能なスコアや応答品質を示す報酬を通じてモデルのパフォーマンスを向上させる機械学習手法です。入出力ペアから学習する従来の教師ありファインチューニングとは異なり、RFT は報酬関数を使用してモデルレスポンスを評価し、モデルを繰り返し最適化してこれらの報酬を最大化します。
このアプローチは、正確な出力を定義するのが困難なタスクに特に効果的ですが、レスポンス品質を確実に測定できます。RFT を使用すると、モデルはトライアルとフィードバックを通じて複雑な動作や好みを学習できるため、微妙な意思決定、創造的な問題解決、またはプログラムで評価できる特定の品質基準への準拠を必要とするアプリケーションに最適です。
RFT はどのような場合に使用するか
明確で測定可能な成功基準を定義できるが、トレーニング用に正確な出力を提供することに苦労している場合は、RFT を使用します。クリエイティブな記述、コードの最適化、複雑な推論など、品質が主観的または多面的であり、複数の有効なソリューションが存在するが、中には他のソリューションよりも明らかに優れているものがあるタスクに最適です。
RFT は、以下がある場合に最適に動作します。
-
プログラムでモデル出力を評価できる信頼性の高い報酬関数
-
モデルの動作を特定の好みや制約に合わせる必要がある
-
高品質のラベル付きサンプルの収集が高価または実用的ではないため、従来の教師ありファインチューニングでは足りない状況
反復的な改善、パーソナライゼーション、または報酬シグナルとしてエンコードできる複雑なビジネスルールの遵守を必要とするアプリケーションには、RFT を検討してください。
RFT が適している分野
RFT は、出力品質を客観的に測定できるが、最適なレスポンスを事前に定義することが難しいドメインに優れています。
-
数学的問題解決: 複数のソリューションパスで検証可能な正確性
-
コードの生成と最適化: テスト可能な実行結果とパフォーマンスメトリクス
-
科学的推論タスク: 論理的な整合性と事実の精度
-
構造化データ分析: プログラムで検証可能な出力
-
マルチステップ推論: 順を追った論理的進行を必要とするタスク
-
ツールの使用状況と API コール: 実行結果によって測定可能な成功
-
複雑なワークフロー: 特定の制約とビジネスルールの遵守
RFT は、精度、効率、スタイルなど、複数の競合する目標のバランスを取る必要がある場合に非常にうまく機能します。
RFT トレーニングに推論モードを使用するタイミング
Amazon Nova 2.0 は、RFT トレーニング中の推論モードをサポートしています。次の方法を使用できます。
-
none: 推論なし (reasoning_effort フィールドを省略)
-
low: 最小限の推論オーバーヘッド
-
high: 最大限の推論機能 (reasoning_effort が指定されている場合のデフォルト)
注記
RFT には中程度のオプションはありません。reasoning_effort フィールドが設定にない場合、推論は無効になります。
以下には高い推論を使用します。
-
複雑な分析タスク
-
数学的な問題解決
-
複数ステップの論理的演繹
-
ステップバイステップの思考が価値を追加するタスク
以下には、推論なし (reasoning_effort を省略) または低い推論を使用します。
-
単純な事実のクエリ
-
直接的な分類
-
速度とコストの最適化
-
簡単な質問への回答
重要
推論レベルが高いモードほど、トレーニング時間とコスト、推論のレイテンシーとコストが増加しますが、複雑な推論タスクに対するモデルの性能も向上します。
サポートされているモデル
RFT onSageMaker HyperPod は Amazon Nova Lite 2.0 (amazon.nova-2-lite-v1:0:256k) をサポートしています。
主なステップ
RFT プロセスには 4 つの主要なフェーズがあります。
-
評価者の実装: 報酬関数を作成して、品質基準に基づいてモデルレスポンスをプログラムでスコアリングします。
-
プロンプトのアップロード: 評価用のリファレンスデータを使用して、指定された会話形式でトレーニングデータを準備してアップロードします。
-
ジョブの開始: 設定したパラメータを使用して強化ファインチューニングプロセスを起動します。
-
モニタリング: メトリクスダッシュボードを使用してトレーニングの進行状況を追跡し、モデルが効果的に学習できるようにします。
各ステップは前のステップに基づいて構築され、評価者は一貫したフィードバックシグナルを提供することでトレーニングプロセス全体をガイドする基盤として機能します。