

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Evaluación de un modelo fundacional de generación de texto en Studio
<a name="jumpstart-foundation-models-evaluate"></a>

**nota**  
Foundation Model Evaluations (FMEval) se encuentra en una versión preliminar de Amazon SageMaker Clarify y está sujeta a cambios.

**importante**  
Para poder utilizar SageMaker Clarify Foundation Model Evaluations, debe actualizarse a la nueva experiencia de Studio. A partir del 30 de noviembre de 2023, la experiencia anterior de Amazon SageMaker Studio pasa a denominarse Amazon SageMaker Studio Classic. La característica de evaluación fundacional solo se puede utilizar en la experiencia actualizada. Para obtener más información sobre cómo actualizar Studio, consulte [Migración desde Amazon SageMaker Studio Classic](studio-updated-migrate.md). Para obtener más información sobre el uso de la aplicación de Studio Classic, consulte [Amazon SageMaker Studio Clásico](studio.md).

Amazon SageMaker JumpStart tiene integraciones con SageMaker Clarify Foundation Model Evaluations (FMEval) en Studio. Si un JumpStart modelo tiene funciones de evaluación integradas, puede elegir **Evaluar** en la esquina superior derecha de la página de detalles del modelo en la JumpStart interfaz de usuario de Studio. Para obtener más información sobre cómo navegar por la interfaz de usuario de JumpStart Studio, consulte[Abrir en Studio JumpStart](studio-jumpstart.md#jumpstart-open-studio):

Usa Amazon SageMaker JumpStart para evaluar modelos de bases basados en texto con FMEval. Puede utilizar estas evaluaciones de modelos para comparar métricas de calidad y responsabilidad de un modelo, entre dos modelos o entre diferentes versiones del mismo modelo, para ayudarle a cuantificar los riesgos del modelo. FMEval puede evaluar modelos basados en texto que realicen las siguientes tareas:
+  **Open-ended generación**: producción de respuestas humanas naturales a un texto que no tiene una estructura predefinida.
+  **Resumen de texto**: generación de un resumen conciso y condensado, conservando el significado y la información clave que contiene un texto más grande.
+  **Respuesta a preguntas**: generación de la respuesta a una pregunta en lenguaje natural.
+  **Clasificación**: asignación de una clase, como `positive` lugar de `negative` a un pasaje de texto, en función de su contenido.

Puede usar FMEval para evaluar automáticamente las respuestas del modelo en función de puntos de referencia específicos. También puede evaluar las respuestas del modelo conforme a sus propios criterios incorporando sus propios conjuntos de datos de peticiones. FMEval proporciona una interfaz de usuario que lo guía a través de la instalación y configuración de un trabajo de evaluación. También puede utilizar la biblioteca de FMEval en su propio código.

Cada evaluación requiere una cuota para dos instancias:
+ Instancia de alojamiento: instancia que aloja e implementa un LLM.
+ Instancia de evaluación: instancia que se utiliza para solicitar y realizar una evaluación de un LLM en la instancia de alojamiento.

Si su LLM ya está desplegado, proporcione el punto de conexión y la SageMaker IA utilizará su **instancia de alojamiento** para alojar e implementar el LLM.

Si está evaluando un JumpStart modelo que aún no está implementado en su cuenta, FMEval crea una **instancia de alojamiento** temporal para usted en su cuenta y la mantiene desplegada solo durante la evaluación. FMeval usa la instancia predeterminada que se JumpStart recomienda para el LLM elegido como instancia de alojamiento. Debe tener una cuota suficiente para esta instancia recomendada.

Cada evaluación también utiliza una instancia de evaluación para proporcionar peticiones y puntuar las respuestas del LLM. También debe tener una cuota y memoria suficientes para ejecutar los algoritmos de evaluación. Los requisitos de cuota y memoria de la instancia de evaluación suelen ser menores que los de una instancia de alojamiento. Le recomendamos que seleccione la instancia `ml.m5.2xlarge`. Para obtener más información sobre cuotas y memoria, consulte [Resolver errores al crear un trabajo de evaluación de modelos en Amazon SageMaker AI](clarify-foundation-model-evaluate-troubleshooting.md).

Las evaluaciones automáticas se pueden utilizar para puntuar los LLM en las siguientes dimensiones:
+ Exactitud: para síntesis de textos, respuesta a preguntas y clasificación de textos
+ Solidez semántica: para tareas de generación abiertas, síntesis de textos y clasificación de textos
+ Conocimiento fáctico: para una generación abierta
+ Estereotipos de peticiones: para una generación abierta 
+  Toxicidad: para una generación abierta, síntesis de texto o respuesta a preguntas

También puede utilizar evaluaciones humanas para evaluar manualmente las respuestas de los modelos. La interfaz de usuario de FMEval lo guía a través de un flujo de trabajo que consiste en seleccionar uno o más modelos, aprovisionar recursos y redactar instrucciones para el personal y de contacto. Una vez finalizada la evaluación humana, los resultados se muestran en FMEval.

**Para acceder a la evaluación del modelo a través de la página de JumpStart inicio de Studio, seleccione el modelo que desee evaluar y, a continuación, elija Evaluar.** Tenga en cuenta que no todos los JumpStart modelos tienen capacidades de evaluación disponibles. Para obtener más información sobre cómo configurar, aprovisionar y ejecutar FMEval, consulte [What are Foundation Model Evaluations?](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-foundation-model-evaluate.html)