As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Criar um prompt para uma métrica personalizada
Com trabalhos de avaliação de modelo como avaliador, você pode criar métricas próprias para melhor caracterizar o desempenho do modelo para seu caso de negócios específico. É possível definir até dez métricas personalizadas para um trabalho de avaliação.
Para criar sua própria métrica de avaliação personalizada, você precisa fornecer o seguinte:
-
Um prompt contendo instruções detalhadas para o modelo avaliador usar.
-
O modelo avaliador que você deseja usar para suas métricas personalizadas.
Você também pode especificar uma escala de classificação (esquema de saída) que o modelo avaliador possa usar para avaliar as respostas do modelo gerador.
As seções a seguir descrevem como criar um prompt para o modelo avaliador ao usar métricas personalizadas, bem como as práticas recomendadas. Elas também definem o esquema a ser usado se você criar sua métrica usando um arquivo JSON.
Para saber como criar um trabalho de avaliação com uma métrica personalizada usando seu próprio prompt, consulte Criar um trabalho de avaliação de modelo usando métricas personalizadas.
Criação de prompts e práticas recomendadas
Ao criar um prompt para uma métrica personalizada, você deve estruturá-lo com os seguintes elementos:
-
Definição do perfil (opcional): instrui o modelo avaliador a adotar uma identidade ou perfil específico.
-
Descrição da tarefa: fornece instruções detalhadas sobre a tarefa de avaliação.
-
Critério e rubrica (opcional): fornece diretrizes detalhadas de pontuação e rubricas para a avaliação.
-
Variáveis de entrada: define as variáveis a serem avaliadas, como prompt e resposta
Inclua esses elementos em seus prompts na ordem indicada na lista. As seções a seguir descrevem esses elementos em detalhes.
Definição do perfil
Fornecer uma definição de perfil é opcional, mas isso pode ajudar a estruturar a avaliação. Por exemplo, se você estiver criando uma métrica para avaliar o estilo de prosa das respostas de um LLM, considere a possibilidade de usar o perfil “tutor de redação”. Perfis como “verificador de precisão factual” ou “especialista do domínio” também podem ser apropriados, dependendo dos objetivos da avaliação.
Se você optar por incluir uma definição de perfil, ela deverá ser a primeira seção do prompt. A seguir é apresentado um exemplo de definição de perfil.
exemplo definição do perfil
You are a professional editor who is familiar with the requirements of commonly-used style manuals.
definição da tarefa
A definição da tarefa é a seção mais importante do prompt e define a tarefa que você deseja que seu modelo avaliador execute. Sua definição de tarefa deve fornecer instruções detalhadas sobre a tarefa de avaliação (recomendamos no mínimo 15 palavras) e ser específica com relação a quais aspectos enfatizar e como estruturar a avaliação.
A definição da tarefa deve vir logo após a definição do perfil, se você optar por incluir um.
Para obter mais orientações gerais sobre como estruturar prompts para LLMs, consulte Criar um prompt.
O exemplo a seguir mostra uma definição de tarefa para uma métrica que se concentra na aderência das respostas do LLM a um guia de estilo específico.
exemplo definição da tarefa
You are provided a prompt and a response from an LLM. The prompt asks the LLM to follow the Chicago Manual of Style when generating its responses. Your task is to assess how closely the text in the response adheres to the style guide. Focus in particular on grammar, prose style, and citation requirements.
Critérios e rubricas
Essa seção é opcional e pode ser usada para definir várias rubricas de avaliação ou fornecer diretrizes detalhadas de pontuação para a métrica. Ela deve ser adicionada entre a definição da tarefa e as variáveis de entrada. Os exemplos a seguir mostram uma rubrica de avaliação e diretrizes de pontuação para a tarefa apresentada no exemplo de definição de tarefa fornecido. Você pode incluir um ou ambos os tipos de informação nessa seção do prompt.
exemplo rubrica de avaliação
When evaluating the response quality, consider the following: - Grammar: Does the grammar in the response follow the requirements of the style guide - Style consistency: Does the response maintain consistent capitalization, punctuation, and paragraph formatting - Citations: Does the response use the correct citation style for in-text citations and endnotes
exemplo diretrizes de pontuação
Please rate the quality of the response on the following scale: - Poor: Response includes errors in citation, grammar, or usage - Acceptable: Response includes only minor formatting errors - Good: Response meets all requirements of the style guide
Ao criar um trabalho de avaliação que usa um LLM como avaliador, seja no Console de gerenciamento da AWS ou usando a AWS CLI ou um dos SDKs da AWS, é possível especificar um esquema de saída para o Amazon Bedrock avaliar as respostas do modelo gerador. Todas as definições especificadas para o esquema de saída devem ser consistentes com as diretrizes de pontuação definidas no prompt. Por exemplo, no exemplo anterior, você especificaria as definições para seu esquema de saída como “ruim”, “aceitável” e “bom”. Para ver mais orientações sobre como definir esquemas de saída, consulte Especificar um esquema de saída (escala de classificação).
Variáveis de entrada
A seção final do prompt especifica as variáveis que o modelo avaliador precisa para realizar a avaliação. Observe que é necessário especificar as variáveis de entrada por último; se você fornecer mais instruções no prompt após as variáveis de entrada, o modelo avaliador pode não avaliar as métricas corretamente.
No mínimo, você deve especificar a resposta do modelo gerador que deseja avaliar, mas recomendamos também incluir o prompt fornecido ao modelo gerador. A tabela a seguir define as variáveis que você pode usar no prompt e como elas correspondem às propriedades no conjunto de dados de prompts.
| Variáveis de entrada | Definição | Propriedade do conjunto de dados de prompts |
|---|---|---|
{{prompt}} |
O prompt fornecido ao modelo gerador. | "prompt" |
{{prediction}} |
A resposta fornecida pelo modelo gerador. | "response" (aplicável apenas a trabalhos em que você fornece seus próprios dados de inferência). |
{{ground_truth}} |
Uma resposta de referência para o prompt. | "referenceResponse" |
O exemplo a seguir ilustra como especificar variáveis de entrada em um prompt.
exemplo definição de variável de entrada
Here is the actual task: Prompt: {{prompt}} Response: {{prediction}}
Por motivo de completude, o prompt completo para esse caso de uso é fornecido no exemplo a seguir. Um prompt completo pode ter no máximo de 5 mil caracteres.
exemplo prompt de métricas personalizadas
You are a professional editor who is familiar with the requirements of commonly-used style manuals. You are provided a prompt and a response from an LLM. The prompt asks the LLM to follow the Chicago manual of style when generating its responses. Your task is to assess how closely the text in the response adheres to the style guide. Focus in particular on grammar, prose style, and citation requirements. When evaluating the response quality, consider the following: - Grammar: Does the grammar in the response follow the requirements of the style guide - Style consistency: Does the response maintain consistent capitalization, punctuation, and paragraph formatting - Citations: Does the response use the correct citation style for in-text citations and endnotes Please rate the quality of the response on the following scale: - Poor: Response includes errors in citation, grammar, or usage - Acceptable: Response includes only minor formatting errors - Good: Response meets all requirements of the style guide Here is the actual task: Prompt: {{prompt}} Response: {{prediction}}
Especificar um esquema de saída (escala de classificação)
Além das diretrizes de avaliação em seu prompt, ao criar um trabalho de avaliação com uma métrica personalizada, você pode definir uma escala de classificação para a métrica especificando um esquema de saída. Esse esquema consiste em valores de escala e nas definições correspondentes. Os valores de escala podem ser valores numéricos ou strings, mas não uma combinação de ambos.
É altamente recomendável definir uma escala de classificação. Do contrário, o Amazon Bedrock pode não conseguir analisar adequadamente os resultados do modelo avaliador para exibir os resultados graficamente no console ou calcular a pontuação média. É possível definir uma escala de avaliação ao criar uma métrica usando o console ou a propriedade ratingScale se você criar a métrica usando um SDK da AWS ou a AWS CLI.
Quando você define uma escala de classificação, o Amazon Bedrock adiciona instruções de saída estruturada ao prompt do modelo avaliador. Como o formato da saída estruturada é diferente entre os modelos avaliadores, é importante que definir a escala de avaliação separadamente e não a incluir como parte do prompt principal. Se você criar a métrica e definir uma escala de avaliação no console, poderá ver o prompt final, inclusive as instruções de saída estruturada, na área de texto de visualização.
Ao fornecer a definição para cada valor de escala, as definições usadas na definição do esquema de saída devem corresponder exatamente à forma como você definiu as diretrizes de pontuação no prompt. Essas definições devem ter no máximo cinco palavras e estão limitadas a cem caracteres. Evite usar artigos (“indefinidos” e “definidos”) na definição. É possível usar o texto explicativo no prompt para fornecer ao modelo avaliador uma definição mais detalhada de como avaliar as respostas.
A tabela a seguir ilustra como você pode descrever as diretrizes de pontuação no prompt e como deve especificar a definição de escala correspondente no esquema de saída.
| Diretrizes de pontuação de prompt | Valor de escala do esquema | Definição de escala do esquema |
|---|---|---|
- Poor: The response fails to meet the basic requirements of the prompt and contains significant errors and omissions |
0 |
Poor |
- Good: The response adequately meets the basic requirements of the prompt but may contain minor errors or omissions |
1 |
Good |
- Excellent: The response fully meets the prompt with comprehensive, accurate, and valuable information |
2 |
Excellent |
Este exemplo usa valores inteiros para a escala, mas também é possível usar strings.
Para saber como especificar o esquema ao criar um trabalho de avaliação, consulte Criar um trabalho de avaliação de modelo usando métricas personalizadas.
Criar um arquivo JSON para criar uma métrica personalizada
Ao criar uma tarefa de avaliação que usa métricas personalizadas no console, você tem a opção de fazer upload na sua máquina local de um arquivo JSON que define sua métrica. Se você optar por usar um arquivo JSON para criar uma métrica personalizada usando o console, não poderá definir uma escala de avaliação usando as áreas de texto na interface de usuário do console; portanto, você deverá incluí-la na sua definição JSON. Recomendamos que você sempre defina uma escala de avaliação ao criar métricas personalizadas.
Os exemplos a seguir mostram formatos de arquivo JSON para criar uma métrica personalizada com uma escala de classificação numérica ou de string ou sem escala de classificação. Em cada caso, adicione o prompt completo como uma string na propriedade "instructions".
Quando você cria um trabalho de avaliação com uma ou mais métricas personalizadas, o Amazon Bedrock armazena as definições de suas métricas como arquivos JSON no bucket de saída do S3 que você especificar. Você pode acessar esses arquivos navegando até s3://.S3-output-bucket-name/job-name/job-uuid/custom_metrics