Acessar e analisar os resultados da avaliação

Depois que seu trabalho de avaliação for concluído com êxito, você poderá acessar e analisar os resultados usando as informações nesta seção. Com base no output_s3_path (como s3://output_path/) definido na fórmula, a estrutura de saída é a seguinte:


job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]

Os resultados das métricas são armazenados no local de saída s3://output_path/job_name/eval-result/result-timestamp.json especificado do S3.

Os resultados do TensorBoard são armazenados no caminho do S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.

Todas as saídas de inferência, exceto llm_judge e strong_reject, são armazenadas no caminho do S3: s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Para gen_qa, o arquivo inference_output.jsonl contém os seguintes campos para cada objeto JSON:

prompt: o prompt final enviado ao modelo.
inferência: a saída bruta de inferência do modelo.
gold: a resposta esperada do conjunto de dados de entrada
metadata: a string de metadados do conjunto de dados de entrada, se fornecida

Para visualizar suas métricas de avaliação no TensorBoard, conclua as seguintes etapas:

Navegue até o SageMaker AI Tensorboard.
Selecione Pastas do S3.
Adicione o caminho da pasta do S3; por exemplo, s3://output_path/job-name/eval-tensorboard-result/eval.
Aguarde a conclusão da sincronização.

As visualizações de séries temporais, escalares e de texto estão disponíveis.

Recomendamos seguir estas práticas recomendadas:

Mantenha seus caminhos de saída organizados por modelo e tipo de referência.
Mantenha convenções de nomenclatura consistentes para facilitar o rastreamento.
Salve os resultados extraídos em um local seguro.
Monitore o status da TensorBoard sincronização para verificar se o carregamento de dados foi bem-sucedido.

Você pode encontrar registros de erros de HyperPod trabalho no grupo de CloudWatch registros/aws/sagemaker/Clusters/cluster-id.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Iniciar um trabalho de avaliação

Avaliação do RFT