各イテレーションにおける進行状況のモニタリング
MLflow を使用してメトリクスを追跡できます。
Nova Customization - SageMaker HyperPod の MLFlow セットアップ
SageMaker HyperPod 環境がメトリクスを MLFlow に出力できるようにするには、追加のセットアップを行う必要があります。
-
Amazon SageMaker AI を開きます
-
SageMaker Studio を選択します
-
既に作成されたプロファイルがある場合は、[Studio を開く] を選択します。
-
プロファイルが作成されていない場合は、[SageMaker ドメインを作成] を選択して設定します
-
-
MLFlow を選択します。作成された MLFlow アプリがない場合は、[MLFlow アプリを作成] を選択します
-
ARN を取得するには、ML フローアプリのコピー/貼り付けボタンまたは [詳細を表示] メニュー項目をクリックします。これは、トレーニングジョブを送信するときに必要になります。
-
HyperPod クラスター実行ロールで、以下のポリシーを追加します。これにより、HyperPod クラスターは MLFlow API を呼び出してメトリクスを発行できます。
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker-mlflow:*", "Resource": [ "arn:aws:sagemaker:us-east-1:372836560492:mlflow-app/*" ] }, { "Effect": "Allow", "Action": [ "sagemaker:ListMlflowTrackingServers", "sagemaker:CallMlflowAppApi" ], "Resource": "*" } ] }
CLI を介してジョブを送信する
コマンドラインまたはレシピ yaml で 4 つの新しいオーバーライドパラメータを指定します。
-
mlflow_tracking_uri: MLFlow アプリの ARN -
mlflow_experiment_name: この実験実行の名前 -
mlflow_experiment_name: メトリクスが MLFlow に保存される実験名 -
mlflow_run_name: この実験の名前
コマンドライン
--override-parameters '{"recipes.run.mlflow_tracking_uri": "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W", "recipes.run.mlflow_experiment_name": "myuser-sft-lora-exp1", "recipes.run.mlflow_run_name": "myuser-sft-lora-exp1-202512181940"}'
yaml:
## Run config run: mlflow_tracking_uri: "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W" mlflow_experiment_name: "myuser-sft-lora-exp1" mlflow_run_name: "myuser-sft-lora-exp1-202512181940"
SageMaker Studio UI を介してジョブを送信する
MLFlow 統合は既に SageMaker Studio UI エクスペリエンスに組み込まれています。トレーニングジョブを送信するときは、使用する MLFlow アプリインスタンスを指定するだけです。
-
SageMaker Studio で、[モデル] > [Nova 2.0 Lite] > [カスタマイズ] > [UI でカスタマイズ] に移動します。
-
[高度な設定] セクションを展開します
-
トレーニングメトリクスを送信する MLFlow アプリを選択します。ここで実験名と実験実行を設定することもできます。
AWS AWS CLI を介してジョブを送信する
AWS AWS CLI を使用する場合は、MLflow アプリを作成し、トレーニングジョブ API リクエストへの入力として渡す必要があります。
mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)
MLflow アプリを作成する
Studio UI の使用: Studio UI を使用してトレーニングジョブを作成すると、デフォルトの MLflow アプリが自動的に作成され、[詳細オプション] でデフォルトで選択されます。
CLI の使用: CLI を使用する場合は、MLflow アプリを作成し、トレーニングジョブ API リクエストへの入力として渡す必要があります。
mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)
MLflow アプリにアクセスする
CLI の使用: MLflow アプリ UI にアクセスするための署名付き URL を作成します。
aws sagemaker create-presigned-mlflow-app-url \ --arn $mlflow_app_arn \ --region $region \ --output text
Studio UI の使用: Studio UI は、MLflow に保存されている主要なメトリクスを表示し、MLflow アプリ UI へのリンクを提供します。
追跡する主要なメトリクス
これらのメトリクスをイテレーションごとにモニタリングして改善を評価し、ジョブの進行状況を追跡します。
SFT の場合
-
トレーニング損失の曲線
-
消費されたサンプルの数とサンプルを処理するまでの時間
-
ホールドアウトテストセットのパフォーマンス精度
-
形式コンプライアンス (有効な JSON 出力レートなど)
-
ドメイン固有の評価データの Perplexity
RFT の場合
-
トレーニング中の平均報酬スコア
-
報酬分布 (高報酬レスポンスの割合)
-
検証データにおける報酬の傾向 (オーバーフィットに注意)
-
タスク固有の成功率 (コード実行の合格率、数学の問題の精度など)
全般
-
イテレーション間のベンチマークパフォーマンス差分
-
代表的なサンプルに対する人間の評価スコア
-
本番メトリクス (反復的にデプロイする場合)
停止するタイミングの判断
以下の場合に反復処理を停止します。
-
パフォーマンスが頭打ちになった場合: 追加のトレーニングを行っても、ターゲットメトリクスに有意な改善が見られない
-
手法の切り替えが有効な場合: ある手法でパフォーマンスが停滞した場合は、パフォーマンスの上限を突破するために別の手法に切り替えてみてください (例: SFT → RFT → SFT)
-
ターゲットメトリクスに達成した場合: 成功基準が満たされた
-
リグレッションが検出された場合: 新しいイテレーションによってパフォーマンスが低下した (以下のロールバック手順を参照)
詳細な評価手順については、「評価」セクションを参照してください。