

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Types de tâches d’évaluation de modèles dans Amazon Bedrock
<a name="model-evaluation-tasks"></a>

Dans une tâche d’évaluation de modèle, un type de tâche d’évaluation correspond à une tâche que doit effectuer le modèle en fonction des informations contenues dans vos invites. Vous pouvez choisir un type de tâche par tâche d’évaluation de modèle.

Le tableau suivant récapitule les types de tâches disponibles pour les évaluations automatiques des modèles, les jeux de données intégrés et les métriques pertinentes pour chaque type de tâche.


**Jeux de données intégrés disponibles pour les tâches d’évaluation de modèle automatique dans Amazon Bedrock**  


- **Génération de texte général **
  - **Métrique:** Précision  / **Built-in ensembles de données:** [TREX](https://hadyelsahar.github.io/t-rex/) / **Métrique calculée:** Score de connaissance du monde réel (RWK)
  - **Métrique:** Robustesse / **Built-in ensembles de données:** [BOLD](https://github.com/amazon-science/bold) / **Métrique calculée:** Taux d’erreur de mots
  - **Built-in ensembles de données:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **Built-in ensembles de données:** [WikiText2](https://huggingface.co/datasets/Salesforce/wikitext)
  - **Métrique:** Toxicité / **Built-in ensembles de données:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **Métrique calculée:** Toxicité 
  - **Built-in ensembles de données:** [BOLD](https://github.com/amazon-science/bold)

- **Synthèse de texte**
  - **Métrique:** Précision  / **Built-in ensembles de données:** Gigaword / **Métrique calculée:** BERTScore
  - **Métrique:** Toxicité / **Built-in ensembles de données:** Gigaword / **Métrique calculée:** Toxicité 
  - **Métrique:**  Robustesse  / **Built-in ensembles de données:** Gigaword / **Métrique calculée:** BERTScore et deltaBERTScore

- **Question/réponse**
  - **Métrique:** Précision / **Built-in ensembles de données:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Métrique calculée:** NLP-F1
  - **Built-in ensembles de données:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in ensembles de données:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Métrique:** Robustesse / **Built-in ensembles de données:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Métrique calculée:** F1 et deltaF1 
  - **Built-in ensembles de données:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in ensembles de données:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Métrique:** Toxicité / **Built-in ensembles de données:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Métrique calculée:** Toxicité 
  - **Built-in ensembles de données:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in ensembles de données:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **Classification de texte**
  - **Métrique:** Précision  / **Built-in ensembles de données:** [Women’s Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Métrique calculée:** Précision (précision binaire résultant de classification\_accuracy\_score)
  - **Métrique:** Robustesse  / **Built-in ensembles de données:** [Women’s Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Métrique calculée:** classification\_accuracy\_score et delta\_classification\_accuracy\_score



**Topics**
+ [Génération de texte général pour l’évaluation de modèles dans Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Synthétisation de texte pour l’évaluation des modèles dans Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Questions et réponses pour l’évaluation de modèles dans Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Classification de texte pour l’évaluation des modèles dans Amazon Bedrock](model-evaluation-text-classification.md)