As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Acessar e analisar os resultados da avaliação
Depois que seu trabalho de avaliação for concluído com êxito, você poderá acessar e analisar os resultados usando as informações nesta seção. Com base no output_s3_path (como s3://output_path/) definido na fórmula, a estrutura de saída é a seguinte:
job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]
Os resultados das métricas são armazenados no local de saída s3://output_path/job_name/eval-result/result-timestamp.json especificado do S3.
Os resultados do TensorBoard são armazenados no caminho do S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.
Todas as saídas de inferência, exceto llm_judge e strong_reject, são armazenadas no caminho do S3: s3://output_path/job_name/eval-result/details/model/taskname.parquet.
Para gen_qa, o arquivo inference_output.jsonl contém os seguintes campos para cada objeto JSON:
-
prompt: o prompt final enviado ao modelo.
-
inferência: a saída bruta de inferência do modelo.
-
gold: a resposta esperada do conjunto de dados de entrada
-
metadata: a string de metadados do conjunto de dados de entrada, se fornecida
Para visualizar suas métricas de avaliação no TensorBoard, conclua as seguintes etapas:
-
Navegue até o SageMaker AI Tensorboard.
-
Selecione Pastas do S3.
-
Adicione o caminho da pasta do S3; por exemplo,
s3://output_path/job-name/eval-tensorboard-result/eval. -
Aguarde a conclusão da sincronização.
As visualizações de séries temporais, escalares e de texto estão disponíveis.
Recomendamos seguir estas práticas recomendadas:
-
Mantenha seus caminhos de saída organizados por modelo e tipo de referência.
-
Mantenha convenções de nomenclatura consistentes para facilitar o rastreamento.
-
Salve os resultados extraídos em um local seguro.
-
Monitore o status da TensorBoard sincronização para verificar se o carregamento de dados foi bem-sucedido.
Você pode encontrar registros de erros de HyperPod trabalho no grupo de CloudWatch registros/aws/sagemaker/Clusters/cluster-id.