Preparación de un conjunto de datos para un trabajo de evaluación en el que Amazon Bedrock invoque modelos por usted Preparación de un conjunto de datos para un trabajo de evaluación que utilice sus propios datos de respuesta de inferencia

Creación de un conjunto de datos de peticiones para un trabajo de evaluación de modelos que utilice un modelo como juez

Para crear un trabajo de evaluación del modelos que utilice un modelo como juez, debe especificar un conjunto de datos de peticiones. Este conjunto de datos de peticiones utiliza el mismo formato que los trabajos de evaluación automática de modelos y se utiliza durante la inferencia con los modelos que vaya a evaluar.

Si desea evaluar modelos que no son de Amazon Bedrock mediante respuestas que ya ha generado, inclúyalos en el conjunto de datos de peticiones tal y como se describe en Preparación de un conjunto de datos para un trabajo de evaluación que utilice sus propios datos de respuesta de inferencia. Cuando proporciona sus propios datos de respuesta de inferencia, Amazon Bedrock omite el paso de invocación del modelo y realiza el trabajo de evaluación con los datos que proporciona.

Los conjuntos de datos de peticiones personalizados deben almacenarse en Amazon S3 y utilizar el formato de línea JSON y la extensión de archivo .jsonl. Cada línea debe ser un objeto JSON válido. Puede haber hasta 1000 peticiones en el conjunto de datos por trabajo de evaluación.

La configuración CORS no es necesaria para los trabajos LLM-as-a-judge de evaluación. Para los trabajos de evaluación realizados por personas, se requiere el uso de CORS en el segmento de salida de S3. Para obtener más información, consulte Permisos de uso compartido de recursos entre orígenes (CORS) requeridos en buckets de S3.

Preparación de un conjunto de datos para un trabajo de evaluación en el que Amazon Bedrock invoque modelos por usted

Para ejecutar un trabajo de evaluación en el que Amazon Bedrock invoque los modelos por usted, cree un conjunto de datos de peticiones que contenga los siguientes pares de clave-valor:

prompt: la petición a la que desea que respondan los modelos.
referenceResponse (opcional): la respuesta de referencia (verdad fundamental).
category: (opcional) genera la puntuación de evaluación determinada para cada categoría.

nota

Si decide proporcionar una respuesta de referencia (referenceResponse)), Amazon Bedrock utilizará este parámetro al calcular las métricas de integridad (Builtin.Completeness) y corrección (Builtin.Correctness). También puede utilizar estas métricas sin proporcionar una respuesta de referencia. Para ver las peticiones del modelo de juez en estos dos escenarios, consulte la sección correspondiente al modelo de juez que haya elegido en Built-in el evaluador de métricas solicita trabajos de evaluación del modelo como juez.

A continuación presentamos un ejemplo de conjunto de datos personalizado que contiene 6 entradas y utiliza el formato de línea JSON.


{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

El siguiente ejemplo es una entrada única expandida para mayor claridad. En el conjunto de datos de peticiones real, cada línea debe ser un objeto JSON válido.


{
  "prompt": "What is high intensity interval training?",
  "category": "Fitness",
  "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods."
}

Preparación de un conjunto de datos para un trabajo de evaluación que utilice sus propios datos de respuesta de inferencia

Para ejecutar un trabajo de evaluación con las respuestas que ya ha generado, cree un conjunto de datos de peticiones que contenga los siguientes pares de clave-valor:

prompt: la petición que utilizaron sus modelos para generar las respuestas.
referenceResponse (opcional): la respuesta de referencia (verdad fundamental).
category: (opcional) genera la puntuación de evaluación determinada para cada categoría.
modelResponses: la respuesta de su propia inferencia que desee que Amazon Bedrock evalúe. Los trabajos de evaluación que utilizan un modelo como juez admiten solo una respuesta del modelo para cada petición, definida mediante las siguientes claves:
- response: una cadena que contiene la respuesta de la inferencia del modelo.
- modelIdentifier: una cadena que identifica el modelo que generó la respuesta. Solo puede usar un modelIdentifier único en un trabajo de evaluación, y cada petición de su conjunto de datos debe usar este identificador.

nota

A continuación, presentamos un ejemplo de conjunto de datos personalizado que contiene seis entradas y utiliza el formato de línea JSON.


{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}

El siguiente ejemplo es una entrada única de un conjunto de datos de peticiones expandida para mayor claridad.


{
    "prompt": "What is high intensity interval training?",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.",
    "category": "Fitness",
     "modelResponses": [
        {
            "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.",
            "modelIdentifier": "my_model"
        }
    ]
}

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

LLM como juez, trabajos de evaluación de modelos

Métricas de evaluación