

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Creación de un trabajo de evaluación del modelo automática en Studio
<a name="clarify-foundation-model-evaluate-auto-ui"></a>

 El asistente disponible en Studio le guía para elegir un modelo para evaluar, seleccionar un tipo de tarea, elegir métricas y conjuntos de datos y configurar los recursos necesarios. En los siguientes temas, se muestra cómo formatear un conjunto de datos de entrada personalizado opcional, configurar el entorno y crear el trabajo de evaluación del modelo en Studio.

## Formateo del conjunto de datos de entrada
<a name="clarify-foundation-model-evaluate-auto-ui-format-input"></a>

Para utilizar su propio conjunto de datos de peticiones personalizado, este debe ser un archivo `jsonlines` en el que cada línea sea un objeto JSON válido. Cada objeto JSON *debe* contener una única petición. 

Para garantizar que el JumpStart modelo que seleccione funcione bien, SageMaker Clarify formatea automáticamente todos los conjuntos de datos de solicitudes para que estén en el formato que mejor se adapte a las **dimensiones de evaluación** del **modelo** que seleccione. En el caso de los conjuntos de datos de solicitudes integrados SageMaker , Clarify también ampliará su solicitud con texto instructivo adicional. Para ver cómo SageMaker Clarify modificará las solicitudes, elija una **plantilla** de solicitudes en una de **las dimensiones de evaluación** que haya agregado al trabajo de evaluación del modelo. Para ver un ejemplo de cómo se puede modificar una plantilla de petición, consulte el [ejemplo de plantilla de petición](clarify-foundation-model-evaluate-whatis.md#clarify-prompt-template).

Esta opción le permite activar o desactivar el soporte de creación automática de plantillas de solicitudes que SageMaker Clarify proporciona para los conjuntos de datos integrados. Al desactivar las plantillas de peticiones automáticas, puede especificar sus propias plantillas de peticiones personalizadas que se aplicarán a todas las peticiones del conjunto de datos. 

Para saber qué claves están disponibles para un conjunto de datos personalizado en la interfaz de usuario, consulte las siguientes listas de tareas.
+ `model_input`: obligatorio para indicar la entrada para las siguientes tareas.
  + La **petición** a la que debe responder su modelo en tareas de **generación abierta**, **toxicidad** y **exactitud**.
  + La **pregunta** a la que debe responder su modelo en las tareas de **respuesta a preguntas** y de **conocimiento fáctico**.
  + El **texto** que su modelo debe resumir en tareas de **resumen de texto**.
  + El **texto** que el modelo debe clasificar en las tareas de **clasificación**.
  + El **texto** que desea que su modelo altere en las tareas de **solidez semántica**.
+ `target_output`: obligatorio para indicar la respuesta con la que se evalúa su modelo para las siguientes tareas.
  + La **respuesta** para tareas de **respuesta** a **preguntas**, **exactitud**, **solidez** **semántica** y **evaluación** **fáctica**. 
  + Para las tareas de **exactitud** y **solidez** **semántica**, separe las respuestas aceptables con `<OR>`. La evaluación acepta como correcta cualquiera de las respuestas separadas por una coma. Como ejemplo, utilice `target_output="UK<OR>England<OR>United Kingdom"` si quiere aceptar `UK`, `England` o `United Kingdom` como respuestas posibles.
+ (Opcional) `category`: genera puntuaciones de evaluación para cada categoría.
+ `sent_less_input`: obligatorio para indicar la petición que contiene **menos** sesgo para las tareas de estereotipado de peticiones.
+ `sent_more_input`: obligatorio para indicar la petición que contiene **más** sesgo para las tareas de estereotipado de peticiones.

Una evaluación fáctica requiere tanto la pregunta que se debe formular como la respuesta para comparar la respuesta del modelo. Utilice la clave `model_input` con el valor contenido en la pregunta y la clave `target_output` con el valor contenido en la respuesta de la siguiente manera:

```
{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}
```

El ejemplo anterior es un objeto JSON único válido que constituye un solo registro en un archivo `jsonlines` de entrada. Cada objeto JSON se envía a su modelo como una solicitud. Para realizar varias solicitudes, incluya varias líneas. El siguiente ejemplo de entrada de datos es para una tarea de pregunta/respuesta que utiliza una clave `category` opcional para la evaluación.

```
{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"}
{"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"}
{"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}
```

Si evalúa el algoritmo en la interfaz de usuario, se establecen los siguientes valores predeterminados para el conjunto de datos de entrada:
+ El número de registros que utiliza la evaluación es fijo. El algoritmo toma muestras de este número de solicitudes de forma aleatoria a partir del conjunto de datos de entrada.
  + **Para cambiar este número:** use la biblioteca `fmeval` tal y como se describe en **Personalización del flujo de trabajo con la biblioteca `fmeval`** y establezca el parámetro `num_records` en el número de muestras que desee o `-1` para especificar todo el conjunto de datos. El número predeterminado de registros que se evalúan es `100` para tareas de exactitud, estereotipado de peticiones, toxicidad, clasificación y solidez semántica. El número predeterminado de registros para una tarea de conocimiento fáctico es `300`.
+ El delimitador de salida objetivo, tal como se describió anteriormente en el parámetro `target_output`, se establece en `<OR>` en la interfaz de usuario.
  + **Para separar las respuestas aceptables mediante otro delimitador:** utilice la biblioteca `fmeval`, tal y como se describe en **Personalización de su flujo de trabajo con la biblioteca `fmeval`** y defina el parámetro `target_output_delimiter` con el delimitador que desee.
+ Debe usar un modelo de JumpStart lenguaje basado en texto que esté disponible para la evaluación del modelo. Estos modelos tienen varios parámetros de configuración de entrada de datos que se transfieren automáticamente al FMeval proceso.
  + **Para usar otro tipo de modelo:** use la biblioteca `fmeval` para definir la configuración de datos del conjunto de datos de entrada.

## Configure su entorno
<a name="clarify-foundation-model-evaluate-auto-ui-setup"></a>

Para ejecutar una evaluación automática de su modelo de lenguaje grande (LLM), debe configurar su entorno para que tenga los permisos correctos para realizar una evaluación. A continuación, puede usar la interfaz de usuario para que le guíe por los pasos del flujo de trabajo y realizar una evaluación. En las secciones siguientes, se muestra cómo utilizar la interfaz de usuario para realizar una evaluación automática.

**Requisitos previos**
+ Para realizar una evaluación del modelo en una interfaz de usuario de Studio, su rol AWS Identity and Access Management (de IAM) y cualquier conjunto de datos de entrada deben tener los permisos correctos. Si no tiene un dominio de SageMaker IA o un rol de IAM, siga los pasos que se indican. [Guía para empezar a usar Amazon SageMaker AI](gs.md)

**Establecimiento de permisos para el bucket de S3**

Una vez creados el dominio y el rol, siga estos pasos para añadir los permisos necesarios para evaluar el modelo.

1. Abre la consola Amazon SageMaker AI en [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. En el panel de navegación, introduzca **S3** en la barra de búsqueda de la parte superior de la página.

1. Elija **S3** en **Servicios**.

1. En el panel de navegación, elija **Buckets**.

1. En la sección **Buckets de uso general**, en **Nombre**, elija el nombre del bucket de Amazon S3 que quiere usar para almacenar su conjunto de datos de peticiones personalizado y dónde quiere que se guarden los resultados del trabajo de evaluación del modelo. El bucket de Amazon S3 debe estar en el mismo lugar Región de AWS que la instancia de Studio. Si no dispone de un bucket de Amazon S3, haga lo siguiente.

   1. Seleccione **Crear bucket** para abrir una nueva página **Crear bucket**.

   1. En la sección **Configuración general**, en **Región de AWS **, seleccione la región de AWS en la que se encuentra el modelo fundacional.

   1. Asigne un nombre a su bucket de S3 en el cuadro de entrada situado debajo de **Nombre del bucket**.

   1. Acepte todas las opciones predeterminadas.

   1. Seleccione **Crear bucket**.

   1. En la sección **Buckets de uso general**, en **Nombre**, seleccione el nombre del bucket de S3 que ha creado.

1. Elija la pestaña **Permisos**.

1. Vaya a la sección **Uso compartido de recursos entre orígenes (CORS)** en la parte inferior de la ventana. Elija **Edit (Edición de)**.

1. Para añadir los permisos de CORS a su bucket, copie el siguiente código en el cuadro de entrada. 

   ```
   [
   {
       "AllowedHeaders": [
           "*"
       ],
       "AllowedMethods": [
           "GET",
           "PUT",
           "POST",
           "DELETE"
       ],
       "AllowedOrigins": [
           "*"
       ],
       "ExposeHeaders": [
           "Access-Control-Allow-Origin"
       ]
   }
   ]
   ```

1. Seleccione **Save changes (Guardar cambios)**.

**Adición de permisos a su política de IAM**

1. En la barra de búsqueda situada en la parte superior de la página, introduzca **IAM**.

1. En **Servicios**, seleccione **Identity and Access Management (IAM)**.

1. En el panel de navegación, elija **Políticas**.

1. Elija **Crear política**. Cuando se abra **Editor de políticas**, elija **JSON**.

1. Elija **Siguiente**.

1. Asegúrese de que aparecen los siguientes permisos en **Editor de políticas**. Copie y pegue la siguiente política y péguela en **Editor de políticas**.

------
#### [ JSON ]

****  

   ```
   {
   "Version":"2012-10-17",		 	 	 
   "Statement": [
       {
           "Effect": "Allow",
           "Action": [
               "cloudwatch:PutMetricData",
               "logs:CreateLogStream",
               "logs:PutLogEvents",
               "logs:CreateLogGroup",
               "logs:DescribeLogStreams",
               "s3:GetObject",
               "s3:PutObject",
               "s3:ListBucket",
               "ecr:GetAuthorizationToken",
               "ecr:BatchCheckLayerAvailability",
               "ecr:GetDownloadUrlForLayer",
               "ecr:BatchGetImage"
            ],
               "Resource": "*"
       },
       {
               "Effect": "Allow",
               "Action": [
                   "sagemaker:Search",
                   "sagemaker:CreateProcessingJob",
                   "sagemaker:DescribeProcessingJob"
                ],
                "Resource": "*"
       }
   ]
   }
   ```

------

1. Elija **Siguiente**.

1. Introduzca un nombre de política en la sección **Detalles de la política**, en **Nombre de la política**. También puede introducir una descripción opcional. Buscará el nombre de esta política cuando la asigne a un rol.

1. Elija **Crear política**.

**Adición de permisos a su rol de IAM**

1. Seleccione **Roles** en el panel de navegación. Introduzca el nombre del rol que desea utilizar.

1. Seleccione el nombre del rol en **Nombre del rol**. La ventana principal cambia para mostrar información sobre su rol.

1. En la sección **Políticas de permisos**, elija la flecha hacia abajo junto a **Agregar permisos**.

1. De las opciones que aparecen, seleccione **Asociar políticas**.

1. En la lista de políticas que aparece, busque la política que creó en el paso 5. Marque la casilla de verificación que hay junto al nombre de la política.

1. Seleccione la flecha hacia abajo situada junto a **Acciones**.

1. En las opciones que aparecen, seleccione **Asociar**.

1. Busque el nombre del rol que ha creado. Seleccione la casilla de verificación situada junto al nombre.

1. Elija **Añadir permisos**. Un banner en la parte superior de la página debe indicar **La política se ha adjuntado correctamente al rol**.
+ .

## Creación de un trabajo de evaluación del modelo automática en Studio
<a name="clarify-foundation-model-evaluate-auto-ui-run"></a>

 Al crear un trabajo de evaluación automática de modelos, puede elegir entre los JumpStart modelos basados en texto disponibles o puede usar un JumpStart modelo basado en texto que haya implementado anteriormente en un punto final.

Para crear un trabajo de evaluación del modelo automática, utilice el siguiente procedimiento.

**Inicialización de un trabajo de evaluación del modelo automática en Studio**

1. Abre la consola Amazon SageMaker AI en [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. En la barra de búsqueda situada en la parte superior de la página, introduzca **SageMaker AI**.

1. En **Servicios**, selecciona **Amazon SageMaker AI**.

1. En el panel de navegación, seleccione **Studio**.

1. Elija su dominio en la sección **Introducción**, después de expandir la flecha hacia abajo situada debajo de **Seleccionar dominio**.

1. Elija su perfil de usuario en la sección **Introducción** después de expandir la flecha hacia abajo situada debajo de **Seleccionar perfil de usuario**.

1. Seleccione **Abrir Studio** para abrir la página de inicio de Studio.

1. En el panel de navegación principal, seleccione **Trabajos**.

1. A continuación, elija **Evaluación del modelo**.

**Configuración de un trabajo de evaluación**

1. A continuación, elija **Evaluar un modelo**.

1. En **Paso 1: especifique los detalles del trabajo**, haga lo siguiente:

   1.  Introduzca el **Nombre** de su evaluación del modelo. Este nombre le ayuda a identificar el trabajo de evaluación del modelo una vez enviado.

   1. Introduzca una **Descripción** para añadir más contexto al nombre.

   1. Elija **Siguiente**.

1. En **Paso 2: configure la evaluación**, haga lo siguiente:

   1. En **Tipo de evaluación**, seleccione **Automática**.

   1. A continuación, elija **Agregar modelo a evaluación**.

   1. En el modo **Añadir modelo**, puede optar por utilizar un modelo básico de **Jumpstart previamente entrenado o un punto final** de **SageMaker IA**. Si ya has implementado un JumpStart modelo, elige un **punto de conexión de SageMaker IA**; de lo contrario, elige un modelo básico de **Jumpstart previamente entrenado**.

   1. A continuación, elija **Guardar**.

   1.  (*Opcional*) Tras añadir el modelo, elija **Plantilla de petición** para ver el formato de entrada esperado para las peticiones en función del modelo que haya seleccionado. Para obtener más información acerca de cómo configurar una plantilla de petición para un conjunto de datos, consulte [Plantillas de peticiones](clarify-foundation-model-evaluate-whatis.md#clarify-automatic-jobs-summary-prompt-templates).
      + Realice los siguientes pasos para utilizar la plantilla de petición predeterminada:

        1. Active la opción **Usar las plantillas de petición predeterminadas proporcionadas por los conjuntos de datos**.

        1. (Opcional) Para cada conjunto de datos, revise la petición proporcionada por Clarify.

        1. Seleccione **Save**.
      + Siga estos pasos para usar una plantilla de petición personalizada:

        1. Desactive la opción **Usar las plantillas de petición predeterminadas proporcionadas por los conjuntos de datos**.

        1. Si Clarify muestra una petición predeterminada, puede personalizarla o eliminarla e introducir la suya propia. Debe incluir la variable `$model_input` en la plantilla de petición.

        1. Seleccione **Save**.

   1. A continuación, en **Tipo de tarea**, elija un tipo de tarea.

      Para obtener más información sobre los tipos de tareas y las dimensiones de evaluación asociadas, consulte **Evaluación automática** en **[Uso de conjuntos de datos de peticiones y dimensiones de evaluación disponibles en trabajos de evaluación del modelo](clarify-foundation-model-evaluate-overview.md)**.

   1. En la sección **Métricas de evaluación**, elija una **Dimensión de evaluación**. El cuadro de texto situado debajo de **Descripción** contiene contexto adicional sobre la dimensión.

      Tras seleccionar una tarea, las métricas asociadas a la tarea aparecen en **Métricas**. En esta sección, haga lo siguiente.

   1. Seleccione una dimensión de evaluación seleccionando la flecha hacia abajo situada bajo **Dimensión de evaluación**.

   1. Elija un conjunto de datos de evaluación. Puede optar por usar su propio conjunto de datos o usar un conjunto de datos integrado. Si desea utilizar su propio conjunto de datos para evaluar el modelo, debe tener un formato que FMEval lo pueda utilizar. También debe estar ubicado en un bucket de S3 que tenga los permisos de CORS a los que se hizo referencia en la sección [Configure su entorno](#clarify-foundation-model-evaluate-auto-ui-setup) anterior. Para obtener más información acerca de cómo dar formato a un conjunto de datos personalizado, consulte [Uso de un conjunto de datos de entrada personalizado](clarify-foundation-model-evaluate-auto-lib-custom.md#clarify-foundation-model-evaluate-auto-lib-custom-input). 

   1. Introduzca la ubicación del bucket de S3 en la que desee guardar los resultados de la evaluación de salida. Este archivo está en formato jsonlines (.jsonl).

   1. Configure el procesador en la sección **Configuración del procesador** con los siguientes parámetros:
      + Utilice **Recuento de instancias** para especificar el número de instancias de computación que desea utilizar para ejecutar el modelo. Si usa más de una instancia de `1`, su modelo se ejecuta en instancias paralelas.
      + Use **Tipo de instancia** para elegir el tipo de instancia de computación que quiere usar para ejecutar el modelo. Para obtener más información sobre los tipos de instancias, consulte [Tipos de instancias disponibles para su uso con las libretas clásicas de Amazon SageMaker Studio](notebooks-available-instance-types.md).
      + Use la clave **Volume KMS** para especificar su clave de cifrado AWS Key Management Service (AWS KMS). SageMaker La IA utiliza su AWS KMS clave para cifrar el tráfico entrante del modelo y de su bucket de Amazon S3. Para obtener más información acerca de las claves, consulte [AWS Key Management Service](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html).
      + Utilice la **clave KMS de salida** para especificar la clave de AWS KMS cifrado para el tráfico saliente.
      + Utilice **Rol de IAM** para especificar el acceso y los permisos del procesador predeterminado. Introduzca el rol de IAM que configuró en [Configure su entorno](#clarify-foundation-model-evaluate-auto-ui-setup)

   1. Tras especificar el modelo y los criterios, elija **Siguiente**. La ventana principal cambia a **Paso 5: revisar y guardar**.

**Revisión y ejecución de su trabajo de evaluación**

1. Revise todos los parámetros, el modelo y los datos que seleccionó para la evaluación.

1. Elija **Crear recurso** para ejecutar la evaluación.

1. Para comprobar el estado del trabajo, vaya a la parte superior de la sección **Evaluaciones de modelos** de la página.