View a markdown version of this page

Creare un prompt per una metrica personalizzata - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creare un prompt per una metrica personalizzata

Con i processi di valutazione model-as-a-judge puoi creare metriche personalizzate per caratterizzare meglio le prestazioni dei modelli per il tuo caso aziendale specifico. È possibile definire fino a 10 metriche personalizzate per ogni processo di valutazione.

Per creare una metrica di valutazione personalizzata, devi fornire quanto segue:

  • Un prompt contenente istruzioni dettagliate per l’utilizzo da parte del modello giudice

  • Il modello di valutazione da utilizzare per le tue metriche personalizzate

Puoi anche specificare una scala di valutazione (schema di output) che il modello giudice può utilizzare per valutare le risposte del modello di generatore.

Le sezioni seguenti descrivono come creare un prompt per il modello di valutatore quando si utilizzano metriche personalizzate, incluse le best practice. Definiscono inoltre lo schema da utilizzare se si crea una metrica utilizzando un file JSON.

Per informazioni su come creare un processo di valutazione con una metrica personalizzata utilizzando il tuo prompt, consulta Creare un processo di valutazione dei modelli utilizzando metriche personalizzate.

Creazione di prompt e best practice

Quando si crea un prompt per una metrica personalizzata, è necessario strutturare il prompt con i seguenti elementi:

  1. Definizione del ruolo (opzionale): indica al modello di valutatore di adottare un’identità o un ruolo specifico

  2. Descrizione dell’attività: fornisce istruzioni dettagliate sull’attività di valutazione

  3. Criterio e rubrica (opzionale): fornisce linee guida dettagliate per il punteggio e rubriche per la valutazione

  4. Variabili di input: definisce le variabili da valutare, come il prompt e la risposta

Includi questi elementi nel tuo prompt nell’ordine indicato nell’elenco. Le seguenti sezioni descrivono ognuno di questi elementi in maggiore dettaglio.

Definizione di ruolo

Fornire una definizione di ruolo è facoltativo, ma può aiutare a inquadrare la valutazione. Ad esempio, se stai creando una metrica per valutare lo stile in prosa delle risposte di un LLM, potresti prendere in considerazione l’utilizzo di un ruolo come “tutor di scrittura”. A seconda degli obiettivi della valutazione, potrebbero essere appropriati anche ruoli come “verificatore dell’accuratezza dei fatti” o “esperto in materia”.

Se scegli di includere una definizione di ruolo, dovrebbe essere la prima sezione del prompt. L’esempio seguente mostra una definizione di ruolo di esempio.

Esempio definizione di ruolo
You are a professional editor who is familiar with the requirements of commonly-used style manuals.

Definizione di attività

La definizione di attività è la sezione più importante del prompt e definisce l’attività che si deve essere eseguita dal modello di valutatore. La definizione di attività deve fornire istruzioni dettagliate sull’attività di valutazione (consigliamo un minimo di 15 parole) ed essere specifica sugli aspetti su cui concentrarsi e su come strutturare la valutazione.

La definizione di attività deve essere immediatamente successiva alla definizione di ruolo, se scegli di includerne una.

Per indicazioni più generali su come strutturare i prompt per i LLM, consulta Progettare un prompt.

L’esempio seguente mostra una definizione di attività per una metrica incentrata sull’aderenza delle risposte LLM a una particolare guida di stile.

Esempio definizione di task
You are provided a prompt and a response from an LLM. The prompt asks the LLM to follow the Chicago Manual of Style when generating its responses. Your task is to assess how closely the text in the response adheres to the style guide. Focus in particular on grammar, prose style, and citation requirements.

Criterio e rubrica

Questa sezione è facoltativa e può essere utilizzata per definire più rubriche di valutazione o fornire linee guida dettagliate per il punteggio della metrica. Questa sezione deve essere aggiunta tra la definizione di attività e le variabili di input. Gli esempi seguenti mostrano una rubrica di valutazione e linee guida per il punteggio per l’attività specificata nella definizione di attività di esempio fornita. È possibile includere uno o entrambi questi tipi di informazioni in questa sezione del prompt.

Esempio rubrica di valutazione
When evaluating the response quality, consider the following: - Grammar: Does the grammar in the response follow the requirements of the style guide - Style consistency: Does the response maintain consistent capitalization, punctuation, and paragraph formatting - Citations: Does the response use the correct citation style for in-text citations and endnotes
Esempio Linee guida per il punteggio
Please rate the quality of the response on the following scale: - Poor: Response includes errors in citation, grammar, or usage - Acceptable: Response includes only minor formatting errors - Good: Response meets all requirements of the style guide

Quando crei un processo di valutazione che utilizza LLM-as-a-judge, nella Console di gestione AWS o utilizzando l’AWS CLI o uno degli AWS SDK, puoi specificare uno schema di output per Amazon Bedrock per valutare le risposte dal tuo modello di generatore. Assicurati che le definizioni specificate per lo schema di output siano coerenti con le linee guida per il punteggio definite nel prompt. Ad esempio, nell’esempio precedente specificheresti le definizioni per lo schema di output come “Poor”, “Acceptable” e “Good”. Per ulteriori indicazioni sulla definizione degli schemi di output, consulta Definizione di uno schema di output (scala di valutazione).

Variabili input

La sezione finale del prompt specifica le variabili necessarie al modello di valutazione per eseguire la valutazione. È necessario specificare le variabili di input per ultime; se fornisci ulteriori istruzioni nel prompt dopo le variabili di input, il modello di valutazione potrebbe non valutare correttamente le tue metriche.

È almeno necessario specificare la risposta del modello di generatore che desideri valutare, ma è consigliabile includere anche il prompt fornito al modello di generatore. La tabella seguente definisce le variabili che è possibile utilizzare nel prompt e il modo in cui corrispondono alle proprietà del set di dati di prompt.

Variabile di input Definizione Proprietà del set di dati di prompt
{{prompt}} Prompt fornito al modello di generatore "prompt"
{{prediction}} Risposta fornita dal modello di generatore "response" (applicabile solo ai processi in cui l’utente fornisce i propri dati di inferenza)
{{ground_truth}} Risposta di riferimento per il prompt "referenceResponse"

L’esempio seguente illustra come specificare le variabili di input in un prompt.

Esempio definizione delle variabili di input
Here is the actual task: Prompt: {{prompt}} Response: {{prediction}}

Per completezza, l’intero prompt per questo caso d’uso è fornito nell’esempio seguente. Un prompt completo può avere una lunghezza massima di 5.000 caratteri.

Esempio prompt di metriche personalizzate
You are a professional editor who is familiar with the requirements of commonly-used style manuals. You are provided a prompt and a response from an LLM. The prompt asks the LLM to follow the Chicago manual of style when generating its responses. Your task is to assess how closely the text in the response adheres to the style guide. Focus in particular on grammar, prose style, and citation requirements. When evaluating the response quality, consider the following: - Grammar: Does the grammar in the response follow the requirements of the style guide - Style consistency: Does the response maintain consistent capitalization, punctuation, and paragraph formatting - Citations: Does the response use the correct citation style for in-text citations and endnotes Please rate the quality of the response on the following scale: - Poor: Response includes errors in citation, grammar, or usage - Acceptable: Response includes only minor formatting errors - Good: Response meets all requirements of the style guide Here is the actual task: Prompt: {{prompt}} Response: {{prediction}}

Definizione di uno schema di output (scala di valutazione)

Oltre alle linee guida di valutazione contenute nel prompt, quando crei un processo di valutazione con una metrica personalizzata, puoi definire una scala di valutazione per la metrica specificando uno schema di output. Questo schema è composto da valori di scala e dalle definizioni corrispondenti. I valori di scala possono essere valori numerici o stringhe, ma non una combinazione di entrambi.

Si consiglia vivamente di definire una scala di valutazione. In caso contrario, Amazon Bedrock potrebbe non essere in grado di analizzare correttamente gli output del modello di valutatore per visualizzare i risultati graficamente nella console o per calcolare i punteggi medi. Puoi definire una scala di valutazione quando crei una metrica utilizzando la console o la proprietà ratingScale se crei la metrica utilizzando un AWS SDK o l’AWS CLI.

Quando definisci una scala di valutazione, Amazon Bedrock aggiunge istruzioni di output strutturate al prompt del modello di valutatore. Poiché il formato per l’output strutturato è diverso tra i modelli valutatori, è importante definire la scala di valutazione separatamente e non includerla come parte del prompt principale. Se crei la metrica e definisci una scala di valutazione nella console, puoi visualizzare il prompt finale che include le istruzioni di output strutturato nell’area di testo di anteprima.

Quando fornisci la definizione per ogni valore di scala, assicurati che le definizioni utilizzate nella definizione dello schema di output corrispondano esattamente al modo in cui hai definito le linee guida per il punteggio nel prompt. Queste definizioni devono contenere un massimo di 5 parole e sono limitate a 100 caratteri. Evita di utilizzare articoli (determinativi e indeterminativi) nella definizione. È possibile utilizzare il testo esplicativo nel prompt per fornire al modello di valutazione una definizione più dettagliata di come valutare le risposte.

La tabella seguente illustra come descrivere le linee guida per il punteggio nel prompt e come definire la definizione di scala corrispondente nello schema di output.

Linee guida per il punteggio di prompt Valore della scala dello schema Definizione della scala dello schema
- Poor: The response fails to meet the basic requirements of the prompt and contains significant errors and omissions 0 Poor
- Good: The response adequately meets the basic requirements of the prompt but may contain minor errors or omissions 1 Good
- Excellent: The response fully meets the prompt with comprehensive, accurate, and valuable information 2 Excellent

Questo esempio utilizza valori interi per la scala, ma è possibile utilizzare anche stringhe.

Per informazioni su come specificare lo schema quando si crea un processo di valutazione, consulta Creare un processo di valutazione dei modelli utilizzando metriche personalizzate.

Creazione di un file JSON per creare una metrica personalizzata

Quando crei un processo di valutazione che utilizza metriche personalizzate nella console, hai la possibilità di caricare un file JSON dal tuo computer locale che definisce la metrica. Se scegli di utilizzare un file JSON per creare una metrica personalizzata utilizzando la console, non puoi definire una scala di valutazione utilizzando le aree di testo nell’interfaccia utente della console, quindi devi includerla nella definizione JSON. Ti consigliamo di definire sempre una scala di valutazione quando crei metriche personalizzate.

Gli esempi seguenti mostrano i formati di file JSON per la creazione di una metrica personalizzata con una scala di valutazione numerica o di stringa oppure senza scala di valutazione. In ogni caso, aggiungi il prompt completo come stringa nella proprietà "instructions".

Quando crei un processo di valutazione con una o più metriche personalizzate, Amazon Bedrock archivia le definizioni delle metriche come file JSON nel bucket S3 di output specificato. Puoi accedere a questi file dal percorso s3://S3-output-bucket-name/job-name/job-uuid/custom_metrics.

Definition with numerical scale
{ "customMetricDefinition": { "metricName": "my_custom_metric", "instructions": "Your complete custom metric prompt including at least one {{input variable}}", "ratingScale": [ { "definition": "first rating definition", "value": { "floatValue": 3 } }, { "definition": "second rating definition", "value": { "floatValue": 2 } }, { "definition": "third rating definition", "value": { "floatValue": 1 } } ] } }
Definition with string scale
{ "customMetricDefinition": { "metricName": "my_custom_metric", "instructions": "Your complete custom metric prompt including at least one {{input variable}}", "ratingScale": [ { "definition": "first rating definition", "value": { "stringValue": "first value" } }, { "definition": "second rating definition", "value": { "stringValue": "second value" } }, { "definition": "third rating definition", "value": { "stringValue": "third value" } } ] } }
Definition with no scale
{ "customMetricDefinition": { "metricName": "my_custom_metric", "instructions": "Your complete custom metric prompt including at least one {{input variable}}" } }