Preparar um conjunto de dados para um trabalho de avaliação em que o Amazon Bedrock invoca modelos para você Preparar um conjunto de dados para um trabalho de avaliação usando seus próprios dados de resposta de inferência

Criar um conjunto de dados de prompts para um trabalho de avaliação de modelo que utilizam um modelo como avaliador

Para criar um trabalho de avaliação de modelo que utiliza um modelo como avaliador, você deve especificar um conjunto de dados de prompts. Esse conjunto de dados de prompts usa o mesmo formato dos trabalhos de avaliação de modelo automática e é usado durante a inferência com os modelos que você seleciona para avaliação.

Se quiser avaliar modelos que não são do Amazon Bedrock usando respostas que você já gerou, inclua-os no conjunto de dados de prompts, conforme descrito em Preparar um conjunto de dados para um trabalho de avaliação usando seus próprios dados de resposta de inferência. Quando você fornece seus próprios dados de resposta de inferência, o Amazon Bedrock ignora a etapa de invocação do modelo e executa o trabalho de avaliação com os dados que você fornece.

Os conjuntos de dados de prompts personalizados devem ser armazenados no Amazon S3 e usar o formato de linha JSON e a extensão de arquivo .jsonl. Cada linha também deve ser um objeto JSON válido. Um conjunto de dados pode ter até mil prompts por trabalho de avaliação.

A configuração do CORS não é necessária para trabalhos LLM-as-a-judge de avaliação. Para trabalhos de avaliação baseados em humanos, o CORS é necessário no bucket de saída do S3. Para saber mais, consulte Permissões de compartilhamento de recursos de origem cruzada (CORS) necessárias em buckets do S3.

Preparar um conjunto de dados para um trabalho de avaliação em que o Amazon Bedrock invoca modelos para você

Para executar um trabalho de avaliação em que o Amazon Bedrock invoque os modelos para você, crie um conjunto de dados de prompts que contenha os seguintes pares de chave-valor:

prompt: o prompt ao qual você deseja que os modelos respondam.
referenceResponse: (opcional) a resposta baseada em verdades de referência.
category: (opcional) gera pontuações de avaliação relatadas para cada categoria.

nota

Se você optar por fornecer uma resposta baseada em verdades de referência (referenceResponse), o Amazon Bedrock usará esse parâmetro ao calcular as métricas de completude (Builtin.Completeness) e exatidão (Builtin.Correctness). Também é possível usar essas métricas sem fornecer uma resposta baseada em verdades de referência. Para ver os prompts do avaliador para esses dois cenários, consulte a seção em Built-in o avaliador métrico solicita trabalhos de avaliação modelo como juiz referente ao modelo avaliador que você escolheu.

Veja a seguir um exemplo de conjunto de dados personalizado que contém seis entradas e usa o formato de linha JSON.


{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

O exemplo a seguir é uma única entrada única expandida para aumentar a clareza. Em seu conjunto de dados de prompts real, cada linha deve ser um objeto JSON válido.


{
  "prompt": "What is high intensity interval training?",
  "category": "Fitness",
  "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods."
}

Preparar um conjunto de dados para um trabalho de avaliação usando seus próprios dados de resposta de inferência

Para executar um trabalho de avaliação usando respostas que você já gerou, crie um conjunto de dados de prompts que contenha os seguintes pares de chave-valor:

prompt: o prompt que seus modelos usaram para gerar as respostas.
referenceResponse: (opcional) a resposta baseada em verdades de referência.
category: (opcional) gera pontuações de avaliação relatadas para cada categoria.
modelResponses: a resposta de sua própria inferência que você deseja que o Amazon Bedrock avalie. Os trabalhos de avaliação que usam um modelo como avaliador permitem apenas uma resposta de modelo para cada prompt, definida usando as seguintes chaves:
- response: uma string contendo a resposta da inferência do modelo.
- modelIdentifier: uma string identificando o modelo que gerou a resposta. Você pode usar somente um modelIdentifier em um trabalho de avaliação, e cada prompt no conjunto de dados deve usar esse identificador.

nota

Veja a seguir um exemplo de conjunto de dados personalizado com seis entradas no formato de linha JSON.


{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}

O exemplo a seguir mostra um única entrada expandida em conjunto de dados de prompts para aumentar a clareza.


{
    "prompt": "What is high intensity interval training?",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.",
    "category": "Fitness",
     "modelResponses": [
        {
            "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.",
            "modelIdentifier": "my_model"
        }
    ]
}

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

LLM como avaliador: trabalhos de avaliação de modelo

Métricas de avaliação