Accès aux résultats d’évaluation et analyse - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Accès aux résultats d’évaluation et analyse

Une fois votre tâche d’évaluation terminée avec succès, vous pouvez accéder aux résultats et les analyser à l’aide des informations de cette section. Sur la base de ce qui est défini dans la formule output_s3_path (par exemple, s3://output_path/), la structure de sortie est la suivante :

job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]

Les résultats des métriques sont stockés dans l’emplacement de sortie S3 s3://output_path/job_name/eval-result/result-timestamp.json spécifié.

Les résultats Tensorboard sont stockés dans le chemin S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.

Toutes les sorties d’inférence, à l’exception de llm_judge et de strong_reject, sont stockées dans le chemin S3 s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Pour gen_qa, le fichier inference_output.jsonl contient les champs suivants pour chaque objet JSON :

  • invite : le message final soumis au modèle

  • inférence : la sortie d’inférence brute du modèle

  • gold - La réponse cible de l'ensemble de données en entrée

  • metadata - La chaîne de métadonnées de l'ensemble de données en entrée, si elle est fournie

Pour visualiser vos métriques d’évaluation dans Tensorboard, suivez les étapes ci-après :

  1. Accédez à SageMaker AI Tensorboard.

  2. Sélectionnez les dossiers S3.

  3. Ajoutez le chemin de votre dossier S3, par exemple s3://output_path/job-name/eval-tensorboard-result/eval.

  4. Patientez jusqu’à ce que la synchronisation soit terminée.

Les séries temporelles, les scalaires et les visualisations de texte sont disponibles.

Nous recommandons les bonnes pratiques suivantes :

  • Organisez vos chemins de sortie par modèle et par type de référence.

  • Maintenez des conventions de dénomination cohérentes pour faciliter le suivi.

  • Enregistrez les résultats extraits dans un emplacement sécurisé.

  • Surveillez l'état de TensorBoard synchronisation pour vérifier que le chargement des données est réussi.

Vous pouvez trouver les journaux des erreurs de HyperPod travail dans le groupe de CloudWatch journaux/aws/sagemaker/Clusters/cluster-id.