

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Métriques de reconnaissance d'entités personnalisées
<a name="cer-metrics"></a>

Amazon Comprehend vous fournit des indicateurs pour vous aider à estimer dans quelle mesure un outil de reconnaissance d'entités devrait fonctionner pour votre travail. Ils sont basés sur l'entraînement du modèle de reconnaissance. Ainsi, bien qu'ils représentent avec précision les performances du modèle pendant l'entraînement, ils ne constituent qu'une approximation des performances de l'API lors de la découverte des entités. 

Les métriques sont renvoyées chaque fois que des métadonnées provenant d'un outil de reconnaissance d'entités entraîné sont renvoyées. 

Amazon Comprehend prend en charge la formation d'un modèle sur un maximum de 25 entités à la fois. Lorsque des métriques sont renvoyées par un outil de reconnaissance d'entités entraîné, les scores sont calculés à la fois par rapport au dispositif de reconnaissance dans son ensemble (métriques globales) et pour chaque entité individuelle (métriques d'entité).

Trois mesures sont disponibles, à la fois sous forme de mesures globales et d'entités : 
+ **Précision**

  Cela indique la fraction d'entités produites par le système qui sont correctement identifiées et correctement étiquetées. Cela montre combien de fois l'identification de l'entité du modèle est vraiment une bonne identification. Il s'agit d'un pourcentage du nombre total d'identifications. 

  En d'autres termes, la précision est basée sur les *vrais positifs (tp)* et les *faux positifs (fp)* et elle est calculée comme *suit : precision = tp/(tp \$1 fp)*.

  Par exemple, si un modèle prédit que deux exemples d'une entité sont présents dans un document, alors qu'il n'y en a qu'un, le résultat est un vrai positif et un faux positif. Dans ce cas, *précision = 1/(1 \$1 1)*. La précision est de 50 %, car une entité est correcte sur les deux identifiées par le modèle. 

  
+  **Rappel**

  Cela indique le pourcentage d'entités présentes dans les documents qui sont correctement identifiées et étiquetées par le système. Mathématiquement, cela est défini en termes de nombre total d'identifications correctes, de *vrais positifs (tp)* et d'identifications manquées de *faux négatifs* (fn). 

   Il est calculé comme *recall = tp/(tp \$1 fn)*. Par exemple, si un modèle identifie correctement une entité, mais omet deux autres instances où cette entité est présente, le résultat est un vrai positif et deux faux négatifs. Dans ce cas, *rappelez = 1/(1 \$1 2)*. Le rappel est de 33,33 %, car une entité est correcte sur trois exemples possibles.

  
+ **Score de F1** 

  Il s'agit d'une combinaison des métriques Precision et Recall, qui mesure la précision globale du modèle pour la reconnaissance personnalisée des entités. Le score F1 est la moyenne harmonique des métriques Precision et Recall : *F1 = 2 \$1 Precision \$1 Recall/(Precision \$1 Recall)*.
**Note**  
Intuitivement, la moyenne harmonique pénalise les extrêmes plus que la simple moyenne ou d'autres moyens (exemple : `precision` = 0, `recall` = 1 pourrait être obtenu de manière triviale en prédisant tous les écarts possibles). Ici, la moyenne simple serait de 0,5, mais la `F1` pénaliserait comme 0). 

  Dans les exemples ci-dessus, `precision` = 50 % et `recall` = 33,33 %, donc `F1` = 2 \$1 0,5 \$1 0,3333/(0,5 \$1 0,3333). Le score F1 est de 0,3975, soit 39,75 %.

  

**Métriques globales et individuelles des entités**

La relation entre les métriques globales et individuelles des entités peut être observée lors de l'analyse de la phrase suivante pour les entités qui sont soit un *lieu*, soit une *personne*.

```
John Washington and his friend Smith live in San Francisco, work in San Diego, and own 
    a house in Seattle.
```

Dans notre exemple, le modèle fait les prédictions suivantes.

```
John Washington = Person
Smith = Place
San Francisco = Place
San Diego = Place
Seattle = Person
```

Cependant, les prévisions auraient dû être les suivantes.

```
John Washington = Person
Smith = Person  
San Francisco = Place
San Diego = Place
Seattle = Place
```

Les mesures de chaque entité à cet effet seraient les suivantes :

```
entity:  Person
  True positive (TP) = 1 (because John Washington is correctly predicted to be a 
    Person).
  False positive (FP) = 1 (because Seattle is incorrectly predicted to be a Person, 
    but is actually a Place).
  False negative (FN) = 1 (because Smith is incorrectly predicted to be a Place, but 
    is actually a Person).
  Precision = 1 / (1 + 1) = 0.5 or 50%
  Recall = 1 / (1+1) = 0.5 or 50%
  F1 Score = 2 * 0.5 * 0.5 / (0.5 + 0.5) = 0.5 or 50%
  
entity:  Place
  TP = 2 (because San Francisco and San Diego are each correctly predicted to be a 
    Place).
  FP = 1 (because Smith is incorrectly predicted to be a Place, but is actually a 
    Person).
  FN = 1 (because Seattle is incorrectly predicted to be a Person, but is actually a 
    Place).
  Precision = 2 / (2+1) = 0.6667 or 66.67%
  Recall = 2 / (2+1) = 0.6667 or 66.67%
  F1 Score = 2 * 0.6667 * 0.6667 / (0.6667 + 0.6667) = 0.6667 or  66.67%
```

Les indicateurs globaux à cet égard seraient les suivants :

À l'échelle mondiale :

```
Global:
  TP = 3 (because John Washington, San Francisco and San Diego are predicted correctly. 
    This is also the sum of all individual entity TP).
  FP = 2 (because Seattle is predicted as Person and Smith is predicted as Place. This 
    is the sum of all individual entity FP).
  FN = 2 (because Seattle is predicted as Person and Smith is predicted as Place. This 
    is the sum of all individual FN).
  Global Precision = 3 / (3+2) = 0.6 or 60%  
    (Global Precision = Global TP / (Global TP + Global FP))
  Global Recall = 3 / (3+2) = 0.6 or 60% 
    (Global Recall = Global TP / (Global TP + Global FN))
  Global F1Score = 2 * 0.6 * 0.6 / (0.6 + 0.6) = 0.6 or 60% 
    (Global F1Score = 2 * Global Precision *  Global Recall / (Global Precision + 
    Global Recall))
```



## Améliorer les performances du système de reconnaissance d'entités personnalisé
<a name="cer-performance"></a>

Ces indicateurs donnent un aperçu de la précision avec laquelle le modèle formé fonctionnera lorsque vous l'utiliserez pour identifier des entités. Voici quelques options que vous pouvez utiliser pour améliorer vos indicateurs s'ils sont inférieurs à vos attentes :

1. Selon que vous utilisez [Annotations](cer-annotation.md) ou[Listes d'entités (texte brut uniquement)](cer-entity-list.md), assurez-vous de suivre les directives de la documentation correspondante pour améliorer la qualité des données. Si vous observez de meilleurs indicateurs après avoir amélioré vos données et réentraîné le modèle, vous pouvez continuer à itérer et à améliorer la qualité des données afin d'améliorer les performances du modèle.

1. Si vous utilisez une liste d'entités, pensez plutôt à utiliser des annotations. Les annotations manuelles peuvent souvent améliorer vos résultats.

1. Si vous êtes certain qu'il n'y a aucun problème de qualité des données, mais que les indicateurs restent déraisonnablement bas, veuillez envoyer une demande d'assistance.