View a markdown version of this page

Accès aux résultats d’évaluation et analyse - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Accès aux résultats d’évaluation et analyse

Une fois votre tâche d’évaluation terminée avec succès, vous pouvez accéder aux résultats et les analyser à l’aide des informations de cette section. Sur la base de ce qui est défini dans la formule output_s3_path (par exemple, s3://output_path/), la structure de sortie est la suivante :

job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]

Les résultats des métriques sont stockés dans l’emplacement de sortie S3 s3://output_path/job_name/eval-result/result-timestamp.json spécifié.

Les résultats Tensorboard sont stockés dans le chemin S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.

Toutes les sorties d’inférence, à l’exception de llm_judge et de strong_reject, sont stockées dans le chemin S3 s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Pour gen_qa, le fichier inference_output.jsonl contient les champs suivants pour chaque objet JSON :

  • invite : le message final soumis au modèle

  • inférence : la sortie d’inférence brute du modèle

  • gold - La réponse cible de l'ensemble de données en entrée

  • metadata - La chaîne de métadonnées de l'ensemble de données en entrée, si elle est fournie

Pour visualiser vos métriques d’évaluation dans Tensorboard, suivez les étapes ci-après :

  1. Accédez à SageMaker AI Tensorboard.

  2. Sélectionnez les dossiers S3.

  3. Ajoutez le chemin de votre dossier S3, par exemple s3://output_path/job-name/eval-tensorboard-result/eval.

  4. Patientez jusqu’à ce que la synchronisation soit terminée.

Les séries temporelles, les scalaires et les visualisations de texte sont disponibles.

Nous recommandons les bonnes pratiques suivantes :

  • Organisez vos chemins de sortie par modèle et par type de référence.

  • Maintenez des conventions de dénomination cohérentes pour faciliter le suivi.

  • Enregistrez les résultats extraits dans un emplacement sécurisé.

  • Surveillez l'état de TensorBoard synchronisation pour un chargement de données réussi.

Vous pouvez trouver les journaux des erreurs de SageMaker HyperPod travail dans le groupe de CloudWatch journaux/aws/sagemaker/Clusters/cluster-id.

Format de sortie de probabilité logarithmique

Lorsque cela top_logprobs est configuré dans vos paramètres d'inférence, le résultat de l'évaluation inclut les probabilités logarithmiques au niveau des jetons dans les fichiers parquet. Chaque position de jeton contient un dictionnaire des meilleurs jetons candidats avec leurs probabilités logarithmiques dans la structure suivante :

{ "Ġint": {"logprob_value": -17.8125, "decoded_value": " int"}, "Ġthe": {"logprob_value": -2.345, "decoded_value": " the"} }

Chaque entrée de jeton contient :

  • logprob_value: valeur de probabilité logarithmique pour le jeton

  • decoded_value: la représentation sous forme de chaîne décodée lisible par l'homme du jeton

Le jeton tokenizer brut est utilisé comme clé de dictionnaire pour garantir l'unicité, tout en decoded_value fournissant une interprétation lisible.