

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Analyse des résultats d’une tâche d’évaluation humaine
<a name="clarify-foundation-model-evaluate-results-human"></a>

Lorsque vous avez créé une tâche d’évaluation de modèles faisant appel à des employés humains, vous avez sélectionné un ou plusieurs *types de métriques*. Lorsque les membres de l’équipe de travail évaluent une réponse dans le portail des employés, leurs réponses sont enregistrées dans l’objet JSON `humanAnswers`. La façon dont ces réponses sont stockées change en fonction du type de métrique sélectionné lors de la création de la tâche.

Les sections suivantes expliquent ces différences et fournissent des exemples.

## Référence de la sortie JSON
<a name="clarify-foundation-model-evaluate-results-human-ref"></a>

Lorsqu’une tâche d’évaluation de modèles est terminée, les résultats sont enregistrés dans Amazon S3 sous la forme d’un fichier JSON. L’objet JSON contient trois nœuds de haut niveau `humanEvaluationResult`, `inputRecord` et `modelResponses`. La clé `humanEvaluationResult` est un nœud de haut niveau qui contient les réponses de l’équipe de travail affectée à la tâche d’évaluation de modèles. La clé `inputRecord` est un nœud de haut niveau qui contient les invites fournies au(x) modèle(s) lors de la création de la tâche d’évaluation de modèles. La clé `modelResponses` est un nœud de haut niveau qui contient les réponses aux invites du ou des modèles.

Le tableau suivant récapitule les paires clé-valeur trouvées dans la sortie JSON de la tâche d’évaluation de modèles.

Les sections suivantes fournissent des détails plus précis sur chaque paire clé-valeur.


****  

| Paramètre | Exemple | Description | 
| --- | --- | --- | 
|  `flowDefinitionArn`  |  arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name  |  L’ARN du flux de travail de vérification humaine (définition du flux) qu a créé la boucle humaine.  | 
| humanAnswers |  Une liste d’objets JSON spécifiques aux métriques d’évaluation sélectionnées. Pour en savoir plus, consultez [Paires clé-valeur trouvées sous `humanAnswers`](#clarify-foundation-model-evaluate-humanAnswers).  |  Une Liste d’objets JSON qui contiennent les réponses des employés.  | 
|  `humanLoopName`  | system-generated-hash | Chaîne hexadécimale de 40 caractères générée par le système. | 
| inputRecord |  <pre>"inputRecord": {<br />    "prompt": {<br />        "text": "Who invented the airplane?"<br />    },<br />    "category": "Airplanes",<br />    "referenceResponse": {<br />        "text": "Orville and Wilbur Wright"<br />    },<br />    "responses":<br /><br />        [{<br />            "modelIdentifier": "meta-textgeneration-llama-codellama-7b",<br />            "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane."<br />        }]<br />}</pre>  | Objet JSON contenant une requête en entrée issue du jeu de données d’entrée.  | 
| modelResponses |  <pre>"modelResponses": [{<br />    "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/model-id",<br />    "text": "the-models-response-to-the-prompt"<br />}]</pre>  | Réponses individuelles des modèles. | 
| inputContent | <pre>{<br />    "additionalDataS3Uri":"s3://user-specified-S3-URI-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json",<br />    "evaluationMetrics":[<br />        {<br />		  "description":"brief-name",<br />		  "metricName":"metric-name",<br />		  "metricType":"IndividualLikertScale"<br />	  }<br />    ],<br />    "instructions":"example instructions"<br />}</pre> |  Le contenu d’entrée de boucle humaine requis pour démarrer la boucle humaine dans votre compartiment Amazon S3.  | 
| modelResponseIdMap | <pre>{<br />   "0": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612",<br />   "1": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352"<br />}</pre> |  Décrit comment chaque modèle est représenté dans `answerContent`.  | 

### Paires clé-valeur trouvées sous `humanEvaluationResult`
<a name="clarify-foundation-model-evaluate-humanEvaluationResult"></a>

 Les paires clé-valeur suivantes se trouvent sous `humanEvaluationResult` dans la sortie de votre tâche d’évaluation de modèles.

Pour les paires clé-valeur associées à `humanAnswers`, consultez [Paires clé-valeur trouvées sous `humanAnswers`](#clarify-foundation-model-evaluate-humanAnswers).

**`flowDefinitionArn`**
+ L’ARN de la définition de flux utilisée pour terminer la tâche d’évaluation de modèles.
+ *Exemple :*`arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name`

**`humanLoopName`**
+ Chaîne hexadécimale de 40 caractères générée par le système.

**`inputContent`**
+ Cette valeur clé décrit les *types de métriques* et les instructions que vous avez fournies aux employés dans le portail des employés.
  + `additionalDataS3Uri` : emplacement dans Amazon S3 où les instructions destinées aux employés sont enregistrées.
  + `instructions` : instructions que vous avez fournies aux employés dans le portail des employés.
  + `evaluationMetrics` : nom de la métrique et sa description. La valeur clé `metricType` est l’outil fourni aux employés pour évaluer les réponses des modèles.

**`modelResponseIdMap`**
+ Cette paire clé-valeur identifie les noms complets des modèles sélectionnés et indique comment les choix des employés sont mappés aux modèles dans les paires clé-valeur `humanAnswers`.

### Paires clé-valeur trouvées sous `inputRecord`
<a name="clarify-foundation-model-evaluate-inputRecord"></a>

Les entrées suivantes décrivent les paires clé-valeur `inputRecord`.

**`prompt`**
+ Texte de l’invite envoyée au modèle.

**`category`**
+ Catégorie facultative qui classe l’invite. Visible pour les employés dans le portail des employés au cours de l’évaluation de modèles.
+ *Exemple :*`"American cities"`

**`referenceResponse`**
+ Champ facultatif du code JSON d’entrée utilisé pour spécifier la vérité factuelle à laquelle vous souhaitez que les employés fassent référence au cours de l’évaluation.

**`responses`**
+ Champ facultatif du code JSON d’entrée qui contient les réponses d’autres modèles.

Exemple d’enregistrement d’entrée JSON.

```
{
  "prompt": {
     "text": "Who invented the airplane?"
  },
  "category": "Airplanes",
  "referenceResponse": {
    "text": "Orville and Wilbur Wright"
  },
  "responses":
    // The same modelIdentifier must be specified for all responses
    [{
      "modelIdentifier": "meta-textgeneration-llama-codellama-7b" ,
      "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane."
    }]
}
```

### Paires clé-valeur trouvées sous `modelResponses`
<a name="clarify-foundation-model-evaluate-modelResponses"></a>

Tableau de paires clé-valeur qui contient les réponses des modèles et quel modèle a fourni les différentes réponses.

**`text`**
+ Réponse du modèle à l’invite.

**`modelIdentifier`**
+ Nom du modèle.

### Paires clé-valeur trouvées sous `humanAnswers`
<a name="clarify-foundation-model-evaluate-humanAnswers"></a>

Tableau de paires clé-valeur qui contient les réponses des modèles, et manière dont les employés ont évalué les modèles.

**`acceptanceTime`**
+ Lorsque l’employé a accepté la tâche dans le portail des employés.

**`submissionTime`**
+ Quand l’employé a soumis sa réponse.

**`timeSpentInSeconds`**
+ Temps que l’employé a passé à exécuter la tâche.

**`workerId`**
+ ID de l’employé qui a effectué la tâche.

**`workerMetadata`**
+ Métadonnées indiquant quelle équipe de travail a été affectée à cette tâche d’évaluation de modèles.

#### Format du tableau JSON `answerContent`
<a name="clarify-foundation-model-evaluate-humanAnswers-answerconent"></a>

La structure de la réponse dépend des métriques d’évaluation sélectionnées lors de la création de la tâche d’évaluation de modèles. Chaque réponse ou réponse d’employé est enregistrée dans un nouvel objet JSON.

**`answerContent`**
+ `evaluationResults` contient les réponses de l’employé.
  + Quand l’option **Boutons de sélection** est sélectionnée, les résultats de chaque employé se présentent sous la forme `"evaluationResults": "comparisonChoice"`. 

    `metricName` : nom de la métrique

    `result` : l’objet JSON indique quel modèle l’employé a sélectionné avec un `0` ou un `1`. Pour voir à quelle valeur un modèle est mappé, consultez `modelResponseIdMap`.
  + Lorsque l’option **Échelle de Likert, comparaison** est sélectionnée, les résultats de chaque employé se présentent sous la forme `"evaluationResults": "comparisonLikertScale"`. 

    `metricName` : nom de la métrique.

    `leftModelResponseId` : indique quel élément `modelResponseIdMap` était affiché sur le côté gauche du portail des employés.

    `rightModelResponseId` : indique quel élément `modelResponseIdMap` était affiché sur le côté gauche du portail des employés.

    `result` : l’objet JSON indique quel modèle l’employé a sélectionné avec un `0` ou un `1`. Pour voir à quelle valeur un modèle est mappé, consultez `modelResponseIdMap`.
  + Quand l’option **Rang ordinal** est sélectionnée, les résultats de chaque employé se présentent sous la forme `"evaluationResults": "comparisonRank"`.

    `metricName` : nom de la métrique

    `result` : tableau d’objets JSON. Pour chaque modèle (`modelResponseIdMap`), les employés fournissent un `rank`.

    ```
    "result": [{
    	"modelResponseId": "0",
    	"rank": 1
    }, {
    	"modelResponseId": "1",
    	"rank": 1
    }]
    ```
  + Lorsque l’option **Échelle de Likert, évaluation d’une seule réponse de modèle** est sélectionnée, les résultats d’un employé sont enregistrés dans `"evaluationResults": "individualLikertScale"`. Il s’agit d’un tableau JSON contenant les scores pour `metricName`, spécifié lors de la création de la tâche.

    `metricName` : nom de la métrique.

    `modelResponseId` : modèle auquel est affecté un score. Pour voir à quelle valeur un modèle est mappé, consultez `modelResponseIdMap`.

    `result` : paire clé-valeur indiquant la valeur de l’échelle de Likert sélectionnée par l’employé.
  + Quand l’option **Pouce vers le haut/vers le bas** est sélectionnée, les résultats d’un employé sont enregistrés sous la forme d’un tableau JSON `"evaluationResults": "thumbsUpDown"`.

    `metricName` : nom de la métrique.

    `result` : `true` ou `false`, en ce qui concerne `metricName`. Lorsqu’un employé choisit le pouce vers le haut, `"result" : true`.

## Exemple de sortie d’une tâche d’évaluation de modèles
<a name="clarify-foundation-model-evaluate-results-human-example"></a>

L’objet JSON suivant est un exemple de sortie de tâche d’évaluation de modèles, enregistré dans Amazon S3. Pour en savoir plus sur chaque paire clé-valeur, consultez la [Référence de la sortie JSON](#clarify-foundation-model-evaluate-results-human-ref).

Pour plus de clarté, cette tâche ne contient que les réponses de deux employés. Certaines paires clé-valeur peuvent également avoir été tronquées pour des raisons de lisibilité.

```
{
	"humanEvaluationResult": {
		"flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name",
        "humanAnswers": [
            {
                "acceptanceTime": "2024-06-07T22:31:57.066Z",
                "answerContent": {
                    "evaluationResults": {
                        "comparisonChoice": [
                            {
                                "metricName": "Fluency",
                                "result": {
                                    "modelResponseId": "0"
                                }
                            }
                        ],
                        "comparisonLikertScale": [
                            {
                                "leftModelResponseId": "0",
                                "metricName": "Coherence",
                                "result": 1,
                                "rightModelResponseId": "1"
                            }
                        ],
                        "comparisonRank": [
                            {
                                "metricName": "Toxicity",
                                "result": [
                                    {
                                        "modelResponseId": "0",
                                        "rank": 1
                                    },
                                    {
                                        "modelResponseId": "1",
                                        "rank": 1
                                    }
                                ]
                            }
                        ],
                        "individualLikertScale": [
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "0",
                                "result": 2
                            },
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "1",
                                "result": 3
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "0",
                                "result": 1
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "1",
                                "result": 4
                            }
                        ],
                        "thumbsUpDown": [
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "0",
                                "result": true
                            },
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "1",
                                "result": true
                            }
                        ]
                    }
                },
                "submissionTime": "2024-06-07T22:32:19.640Z",
                "timeSpentInSeconds": 22.574,
                "workerId": "ead1ba56c1278175",
                "workerMetadata": {
                    "identityData": {
                        "identityProviderType": "Cognito",
                        "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4",
                        "sub": "cd2848f5-6105-4f72-b44e-68f9cb79ba07"
                    }
                }
            },
            {
                "acceptanceTime": "2024-06-07T22:32:19.721Z",
                "answerContent": {
                    "evaluationResults": {
                        "comparisonChoice": [
                            {
                                "metricName": "Fluency",
                                "result": {
                                    "modelResponseId": "1"
                                }
                            }
                        ],
                        "comparisonLikertScale": [
                            {
                                "leftModelResponseId": "0",
                                "metricName": "Coherence",
                                "result": 1,
                                "rightModelResponseId": "1"
                            }
                        ],
                        "comparisonRank": [
                            {
                                "metricName": "Toxicity",
                                "result": [
                                    {
                                        "modelResponseId": "0",
                                        "rank": 2
                                    },
                                    {
                                        "modelResponseId": "1",
                                        "rank": 1
                                    }
                                ]
                            }
                        ],
                        "individualLikertScale": [
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "0",
                                "result": 3
                            },
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "1",
                                "result": 4
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "0",
                                "result": 1
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "1",
                                "result": 5
                            }
                        ],
                        "thumbsUpDown": [
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "0",
                                "result": true
                            },
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "1",
                                "result": false
                            }
                        ]
                    }
                },
                "submissionTime": "2024-06-07T22:32:57.918Z",
                "timeSpentInSeconds": 38.197,
                "workerId": "bad258db224c3db6",
                "workerMetadata": {
                    "identityData": {
                        "identityProviderType": "Cognito",
                        "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4",
                        "sub": "84d5194a-3eed-4ecc-926d-4b9e1b724094"
                    }
                }
            }
        ],
        "humanLoopName": "a757 11d3e75a 8d41f35b9873d 253f5b7bce0256e",
        "inputContent": {
            "additionalDataS3Uri": "s3://mgrt-test-us-west-2/test-2-workers-2-model/datasets/custom_dataset/0/task-input-additional-data.json",
            "instructions": "worker instructions provided by the model evaluation job administrator",
            "evaluationMetrics": [
                {
                    "metricName": "Fluency",
                    "metricType": "ComparisonChoice",
                    "description": "Measures the linguistic quality of a generated text."
                },
                {
                    "metricName": "Coherence",
                    "metricType": "ComparisonLikertScale",
                    "description": "Measures the organization and structure of a generated text."
                },
                {
                    "metricName": "Toxicity",
                    "metricType": "ComparisonRank",
                    "description": "Measures the harmfulness of a generated text."
                },
                {
                    "metricName": "Accuracy",
                    "metricType": "ThumbsUpDown",
                    "description": "Indicates the accuracy of a generated text."
                },
                {
                    "metricName": "Correctness",
                    "metricType": "IndividualLikertScale",
                    "description": "Measures a generated answer's satisfaction in the context of the question."
                },
                {
                    "metricName": "Completeness",
                    "metricType": "IndividualLikertScale",
                    "description": "Measures a generated answer's inclusion of all relevant information."
                }
            ],
            "disableRandomization": "true"
        },
        "modelResponseIdMap": {
            "0": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612",
            "1": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352"
        }
    },
    "inputRecord": {
        "prompt": {
            "text": "What is high intensity interval training?"
        },
        "category": "Fitness",
        "referenceResponse": {
            "text": "High-Intensity Interval Training (HIIT)"
        }
    },
    "modelResponses": [
        {
            "text": "High Intensity Interval Training (HIIT) is a form of exercise that alternates between periods of high intensity work and low intensity recovery.HIIT is an excellent way to increase your fitness and improve your health, but it can be difficult to get started.In this article, we will",
            "modelIdentifier": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612"
        },
        {
            "text": "High intensity interval training is a form of exercise consisting of short bursts of maximum effort followed by periods of rest. The theory behind HIIT is that it can often be more effective at improving cardiovascular and metabolic health than longer, lower intensity workouts.The work intervals can range in length depending on the specific type of exercise, but are typically between 20 and 90 seconds. The recovery periods are generally longer, lasting between 1 and 5 minutes. This pattern is then repeated for multiple sets.\n\nSince the work intervals are high intensity, they require more effort from your body and therefore result in a greater calorie burn. The body also continues to burn calories at an increased rate after the workout due to an effect called excess post exercise oxygen consumption (EPOC), also know as the afterburn effect.\n\nHIIT is a versatile form of training that can be adapted to different fitness levels and can be performed using a variety of exercises including cycling, running, bodyweight movements, and even swimming. It can be done in as little as 20 minutes once or twice a week, making it an efficient option for busy individuals.\n\nWhat are the benefits of high intensity interval training",
            "modelIdentifier": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352"
        }
    ]
}
```