

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Criar um conjunto de dados de prompts para um trabalho de avaliação de modelo que utilizam um modelo como avaliador
<a name="model-evaluation-prompt-datasets-judge"></a>

Para criar um trabalho de avaliação de modelo que utiliza um modelo como avaliador, você deve especificar um conjunto de dados de prompts. Esse conjunto de dados de prompts usa o mesmo formato dos trabalhos de avaliação de modelo automática e é usado durante a inferência com os modelos que você seleciona para avaliação.

Se quiser avaliar modelos que não são do Amazon Bedrock usando respostas que você já gerou, inclua-os no conjunto de dados de prompts, conforme descrito em [Preparar um conjunto de dados para um trabalho de avaliação usando seus próprios dados de resposta de inferência](#model-evaluation-prompt-datasets-judge-byoir). Quando você fornece seus próprios dados de resposta de inferência, o Amazon Bedrock ignora a etapa de invocação do modelo e executa o trabalho de avaliação com os dados que você fornece.

Os conjuntos de dados de prompts personalizados devem ser armazenados no Amazon S3 e usar o formato de linha JSON e a extensão de arquivo `.jsonl`. Cada linha também deve ser um objeto JSON válido. Um conjunto de dados pode ter até mil prompts por trabalho de avaliação.

Para trabalhos criados usando o console, atualize a configuração de compartilhamento de recursos de origem cruzada (CORS) no bucket do S3. Para saber mais sobre as permissões de CORS necessárias, consulte [Permissões de compartilhamento de recursos de origem cruzada (CORS) necessárias em buckets do S3](model-evaluation-security-cors.md). 

## Preparar um conjunto de dados para um trabalho de avaliação em que o Amazon Bedrock invoca modelos para você
<a name="model-evaluation-prompt-datasets-judge-invoke"></a>

Para executar um trabalho de avaliação em que o Amazon Bedrock invoque os modelos para você, crie um conjunto de dados de prompts que contenha os seguintes pares de chave-valor:
+ `prompt`: o prompt ao qual você deseja que os modelos respondam.
+ `referenceResponse`: (opcional) a resposta baseada em verdades de referência.
+ `category`: (opcional) gera pontuações de avaliação relatadas para cada categoria. 

**nota**  
Se você optar por fornecer uma resposta baseada em verdades de referência (`referenceResponse)`, o Amazon Bedrock usará esse parâmetro ao calcular as métricas de **completude** (`Builtin.Completeness`) e **exatidão** (`Builtin.Correctness`). Também é possível usar essas métricas sem fornecer uma resposta baseada em verdades de referência. Para ver os prompts do avaliador para esses dois cenários, consulte a seção em [Prompts do avaliador de métricas integradas para trabalhos de avaliação do tipo modelo como avaliador](model-evaluation-type-judge-prompt.md) referente ao modelo avaliador que você escolheu.

Veja a seguir um exemplo de conjunto de dados personalizado que contém seis entradas e usa o formato de linha JSON.

```
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
```

O exemplo a seguir é uma única entrada única expandida para aumentar a clareza. Em seu conjunto de dados de prompts real, cada linha deve ser um objeto JSON válido.

```
{
  "prompt": "What is high intensity interval training?",
  "category": "Fitness",
  "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods."
}
```

## Preparar um conjunto de dados para um trabalho de avaliação usando seus próprios dados de resposta de inferência
<a name="model-evaluation-prompt-datasets-judge-byoir"></a>

Para executar um trabalho de avaliação usando respostas que você já gerou, crie um conjunto de dados de prompts que contenha os seguintes pares de chave-valor:
+ `prompt`: o prompt que seus modelos usaram para gerar as respostas.
+ `referenceResponse`: (opcional) a resposta baseada em verdades de referência.
+ `category`: (opcional) gera pontuações de avaliação relatadas para cada categoria. 
+ `modelResponses`: a resposta de sua própria inferência que você deseja que o Amazon Bedrock avalie. Os trabalhos de avaliação que usam um modelo como avaliador permitem apenas uma resposta de modelo para cada prompt, definida usando as seguintes chaves:
  + `response`: uma string contendo a resposta da inferência do modelo.
  + `modelIdentifier`: uma string identificando o modelo que gerou a resposta. Você pode usar somente um `modelIdentifier` em um trabalho de avaliação, e cada prompt no conjunto de dados deve usar esse identificador.

**nota**  
Se você optar por fornecer uma resposta baseada em verdades de referência (`referenceResponse)`, o Amazon Bedrock usará esse parâmetro ao calcular as métricas de **completude** (`Builtin.Completeness`) e **exatidão** (`Builtin.Correctness`). Também é possível usar essas métricas sem fornecer uma resposta baseada em verdades de referência. Para ver os prompts do avaliador para esses dois cenários, consulte a seção em [Prompts do avaliador de métricas integradas para trabalhos de avaliação do tipo modelo como avaliador](model-evaluation-type-judge-prompt.md) referente ao modelo avaliador que você escolheu.

Veja a seguir um exemplo de conjunto de dados personalizado com seis entradas no formato de linha JSON.

```
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
```

O exemplo a seguir mostra um única entrada expandida em conjunto de dados de prompts para aumentar a clareza.

```
{
    "prompt": "What is high intensity interval training?",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.",
    "category": "Fitness",
     "modelResponses": [
        {
            "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.",
            "modelIdentifier": "my_model"
        }
    ]
}
```