Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Tipos de tareas de evaluación del modelo en Amazon Bedrock
<a name="model-evaluation-tasks"></a>

En un trabajo de evaluación del modelo, la evaluación es una tarea que quiere que realice el modelo en función de la información de sus peticiones. Puede elegir un tipo de tarea por cada trabajo de evaluación de modelos.

En la siguiente tabla se resumen los tipos de tareas disponibles para las evaluaciones automáticas del modelo, los conjuntos de datos integrados y las métricas pertinentes para cada tipo de tarea.


**Conjuntos de datos integrados disponibles para trabajos de evaluación automática de modelos en Amazon Bedrock**  


- **Generación de texto general **
  - **Métrica:** Precisión  / **Built-in conjuntos de datos:** [TREX](https://hadyelsahar.github.io/t-rex/) / **Métrica computada:** Puntuación de conocimiento del mundo real (RWK)
  - **Métrica:** Robustez / **Built-in conjuntos de datos:** [BOLD](https://github.com/amazon-science/bold) / **Métrica computada:** Tasa de errores de palabras
  - **Built-in conjuntos de datos:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **Built-in conjuntos de datos:** [WikiText2](https://huggingface.co/datasets/Salesforce/wikitext)
  - **Métrica:** Toxicidad / **Built-in conjuntos de datos:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **Métrica computada:** Toxicidad 
  - **Built-in conjuntos de datos:** [BOLD](https://github.com/amazon-science/bold)

- **Resumen de texto**
  - **Métrica:** Exactitud  / **Built-in conjuntos de datos:** Gigaword / **Métrica computada:** BERTScore
  - **Métrica:** Toxicidad / **Built-in conjuntos de datos:** Gigaword / **Métrica computada:** Toxicidad 
  - **Métrica:**  Robustez  / **Built-in conjuntos de datos:** Gigaword / **Métrica computada:** BERTScore y deltaBERTScore

- **Pregunta y respuesta**
  - **Métrica:** Exactitud / **Built-in conjuntos de datos:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Métrica computada:** NLP-F1
  - **Built-in conjuntos de datos:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in conjuntos de datos:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Métrica:** Robustez / **Built-in conjuntos de datos:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Métrica computada:** F1 y deltaF1 
  - **Built-in conjuntos de datos:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in conjuntos de datos:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Métrica:** Toxicidad / **Built-in conjuntos de datos:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Métrica computada:** Toxicidad 
  - **Built-in conjuntos de datos:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in conjuntos de datos:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **Clasificación de textos**
  - **Métrica:** Exactitud  / **Built-in conjuntos de datos:** [Women's Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Métrica computada:** Precisión (precisión binaria de classification\_accuracy\_score)
  - **Métrica:** Robustez  / **Built-in conjuntos de datos:** [Women's Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Métrica computada:** classification\_accuracy\_score y delta\_classification\_accuracy\_score


**Topics**
+ [Generación de texto general para la evaluación del modelo en Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Resumen de texto para la evaluación del modelo en Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Pregunta y respuesta para la evaluación del modelo en Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Clasificación de textos para la evaluación del modelo en Amazon Bedrock](model-evaluation-text-classification.md)