Accès aux résultats d’évaluation et analyse

Une fois votre tâche d’évaluation terminée avec succès, vous pouvez accéder aux résultats et les analyser à l’aide des informations de cette section. Sur la base de ce qui est défini dans la formule output_s3_path (par exemple, s3://output_path/), la structure de sortie est la suivante :


job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]

Les résultats des métriques sont stockés dans l’emplacement de sortie S3 s3://output_path/job_name/eval-result/result-timestamp.json spécifié.

Les résultats Tensorboard sont stockés dans le chemin S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.

Toutes les sorties d’inférence, à l’exception de llm_judge et de strong_reject, sont stockées dans le chemin S3 s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Pour gen_qa, le fichier inference_output.jsonl contient les champs suivants pour chaque objet JSON :

invite : le message final soumis au modèle
inférence : la sortie d’inférence brute du modèle
gold - La réponse cible de l'ensemble de données en entrée
metadata - La chaîne de métadonnées de l'ensemble de données en entrée, si elle est fournie

Pour visualiser vos métriques d’évaluation dans Tensorboard, suivez les étapes ci-après :

Accédez à SageMaker AI Tensorboard.
Sélectionnez les dossiers S3.
Ajoutez le chemin de votre dossier S3, par exemple s3://output_path/job-name/eval-tensorboard-result/eval.
Patientez jusqu’à ce que la synchronisation soit terminée.

Les séries temporelles, les scalaires et les visualisations de texte sont disponibles.

Nous recommandons les bonnes pratiques suivantes :

Organisez vos chemins de sortie par modèle et par type de référence.
Maintenez des conventions de dénomination cohérentes pour faciliter le suivi.
Enregistrez les résultats extraits dans un emplacement sécurisé.
Surveillez l'état de TensorBoard synchronisation pour vérifier que le chargement des données est réussi.

Vous pouvez trouver les journaux des erreurs de HyperPod travail dans le groupe de CloudWatch journaux/aws/sagemaker/Clusters/cluster-id.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Démarrage d’une tâche d’évaluation

Évaluation RFT