

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memahami hasil pekerjaan evaluasi model Anda
<a name="clarify-foundation-model-evaluate-results"></a>

Gunakan bagian berikut untuk mempelajari cara menafsirkan hasil pekerjaan evaluasi model Anda. Data JSON keluaran yang disimpan di Amazon S3 untuk pekerjaan evaluasi model otomatis dan berbasis manusia berbeda. Anda dapat menemukan di mana hasil pekerjaan disimpan di Amazon S3 menggunakan Studio. Untuk melakukannya, buka halaman beranda **evaluasi Model** di Studio, dan pilih pekerjaan Anda dari tabel.

## Melihat hasil evaluasi model di Studio
<a name="model-evaluation-console-results"></a>

Ketika pekerjaan evaluasi model Anda selesai, Anda dapat melihat bagaimana kinerja model Anda terhadap kumpulan data yang Anda berikan menggunakan langkah-langkah berikut:

1. Dari panel navigasi Studio, pilih **Pekerjaan**, lalu pilih **Evaluasi Model**.

1. Di halaman **Evaluasi Model**, pekerjaan yang berhasil dikirimkan muncul dalam daftar. Daftar ini mencakup nama pekerjaan, status, nama model, jenis evaluasi, dan tanggal pembuatannya.

1. Jika evaluasi model Anda berhasil diselesaikan, Anda dapat mengklik nama pekerjaan untuk melihat ringkasan hasil evaluasi. 

1. Untuk melihat laporan analisis manusia Anda, pilih nama pekerjaan yang ingin Anda periksa.

Untuk informasi tentang menafsirkan hasil evaluasi model, lihat topik yang sesuai dengan jenis pekerjaan evaluasi model yang hasilnya ingin Anda interpretasikan:
+ [Memahami hasil pekerjaan evaluasi manusia](clarify-foundation-model-evaluate-results-human.md)
+ [Memahami hasil pekerjaan evaluasi otomatis](clarify-foundation-model-evaluate-auto-ui-results.md)

# Memahami hasil pekerjaan evaluasi manusia
<a name="clarify-foundation-model-evaluate-results-human"></a>

Saat Anda membuat pekerjaan evaluasi model yang menggunakan pekerja manusia, Anda memilih satu atau lebih *jenis metrik*. Ketika anggota tim kerja mengevaluasi respons di portal pekerja, respons mereka disimpan di objek `humanAnswers` json. Bagaimana tanggapan tersebut disimpan berubah berdasarkan jenis metrik yang dipilih saat pekerjaan dibuat.

Bagian berikut menjelaskan perbedaan-perbedaan ini, dan memberikan contoh.

## Referensi keluaran JSON
<a name="clarify-foundation-model-evaluate-results-human-ref"></a>

Ketika pekerjaan evaluasi model selesai, hasilnya disimpan di Amazon S3 sebagai file JSON. Objek JSON berisi tiga node tingkat tinggi`humanEvaluationResult`,`inputRecord`, dan `modelResponses` `humanEvaluationResult` Kuncinya adalah simpul tingkat tinggi yang berisi respons dari tim kerja yang ditugaskan ke pekerjaan evaluasi model. `inputRecord`Kuncinya adalah simpul tingkat tinggi yang berisi petunjuk yang diberikan kepada model saat pekerjaan evaluasi model dibuat. `modelResponses`Kuncinya adalah simpul tingkat tinggi yang berisi respons terhadap petunjuk dari model.

Tabel berikut merangkum pasangan nilai kunci yang ditemukan dalam output JSON dari pekerjaan evaluasi model.

Bagian prosiding memberikan rincian yang lebih terperinci tentang setiap pasangan nilai kunci.


****  

| Parameter | Contoh | Deskripsi | 
| --- | --- | --- | 
|  `flowDefinitionArn`  |  arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name  |  ARN dari alur kerja tinjauan manusia (definisi aliran) yang menciptakan loop manusia.  | 
| humanAnswers |  Daftar objek JSON khusus untuk metrik evaluasi yang dipilih. Untuk mempelajari lebih lanjut lihat,[Pasangan nilai kunci ditemukan di bawah `humanAnswers`](#clarify-foundation-model-evaluate-humanAnswers).  |  Daftar objek JSON yang berisi tanggapan pekerja.  | 
|  `humanLoopName`  | system-generated-hash | Sebuah sistem menghasilkan string hex 40 karakter. | 
| inputRecord |  <pre>"inputRecord": {<br />    "prompt": {<br />        "text": "Who invented the airplane?"<br />    },<br />    "category": "Airplanes",<br />    "referenceResponse": {<br />        "text": "Orville and Wilbur Wright"<br />    },<br />    "responses":<br /><br />        [{<br />            "modelIdentifier": "meta-textgeneration-llama-codellama-7b",<br />            "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane."<br />        }]<br />}</pre>  | Sebuah objek JSON yang berisi prompt entri dari dataset input.  | 
| modelResponses |  <pre>"modelResponses": [{<br />    "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/model-id",<br />    "text": "the-models-response-to-the-prompt"<br />}]</pre>  | Tanggapan individu dari model. | 
| inputContent | <pre>{<br />    "additionalDataS3Uri":"s3://user-specified-S3-URI-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json",<br />    "evaluationMetrics":[<br />        {<br />		  "description":"brief-name",<br />		  "metricName":"metric-name",<br />		  "metricType":"IndividualLikertScale"<br />	  }<br />    ],<br />    "instructions":"example instructions"<br />}</pre> |  Konten input loop manusia diperlukan untuk memulai loop manusia di bucket Amazon S3 Anda.  | 
| modelResponseIdMap | <pre>{<br />   "0": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612",<br />   "1": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352"<br />}</pre> |  Menjelaskan bagaimana setiap model direpresentasikan dalam`answerContent`.  | 

### Pasangan nilai kunci ditemukan di bawah `humanEvaluationResult`
<a name="clarify-foundation-model-evaluate-humanEvaluationResult"></a>

 Pasangan nilai kunci berikut ditemukan `humanEvaluationResult` di bawah output pekerjaan evaluasi model Anda.

Untuk pasangan nilai kunci yang terkait dengan`humanAnswers`, lihat[Pasangan nilai kunci ditemukan di bawah `humanAnswers`](#clarify-foundation-model-evaluate-humanAnswers).

**`flowDefinitionArn`**
+ ARN definisi aliran yang digunakan untuk menyelesaikan pekerjaan evaluasi model.
+ *Contoh:*`arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name`

**`humanLoopName`**
+ Sebuah sistem menghasilkan string hex 40 karakter.

**`inputContent`**
+ Nilai kunci ini menjelaskan *jenis metrik*, dan instruksi yang Anda berikan untuk pekerja di portal pekerja.
  + `additionalDataS3Uri`: Lokasi di Amazon S3 tempat instruksi untuk pekerja disimpan.
  + `instructions`: Instruksi yang Anda berikan kepada pekerja di portal pekerja.
  + `evaluationMetrics`: Nama metrik dan deskripsinya. Nilai kuncinya `metricType` adalah alat yang diberikan kepada pekerja untuk mengevaluasi respons model.

**`modelResponseIdMap`**
+ Pasangan nilai kunci ini mengidentifikasi nama lengkap model yang dipilih, dan bagaimana pilihan pekerja dipetakan ke model dalam pasangan nilai `humanAnswers` kunci.

### Pasangan nilai kunci ditemukan di bawah `inputRecord`
<a name="clarify-foundation-model-evaluate-inputRecord"></a>

Entri berikut menjelaskan pasangan nilai `inputRecord` kunci.

**`prompt`**
+ Teks prompt dikirim ke model.

**`category`**
+ Kategori opsional yang mengklasifikasikan prompt. Terlihat oleh pekerja di portal pekerja selama evaluasi model.
+ *Contoh:*`"American cities"`

**`referenceResponse`**
+ Bidang opsional dari input JSON yang digunakan untuk menentukan kebenaran dasar yang Anda ingin referensi pekerja selama evaluasi

**`responses`**
+ Bidang opsional dari input JSON yang berisi tanggapan dari model lain.

Contoh catatan masukan JSON.

```
{
  "prompt": {
     "text": "Who invented the airplane?"
  },
  "category": "Airplanes",
  "referenceResponse": {
    "text": "Orville and Wilbur Wright"
  },
  "responses":
    // The same modelIdentifier must be specified for all responses
    [{
      "modelIdentifier": "meta-textgeneration-llama-codellama-7b" ,
      "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane."
    }]
}
```

### Pasangan nilai kunci ditemukan di bawah `modelResponses`
<a name="clarify-foundation-model-evaluate-modelResponses"></a>

Array pasangan nilai kunci yang berisi respons dari model, dan model mana yang memberikan respons.

**`text`**
+ Respons model terhadap prompt.

**`modelIdentifier`**
+ Nama modul.

### Pasangan nilai kunci ditemukan di bawah `humanAnswers`
<a name="clarify-foundation-model-evaluate-humanAnswers"></a>

Array pasangan nilai kunci yang berisi respons dari model, dan bagaimana pekerja mengevaluasi model.

**`acceptanceTime`**
+ Ketika pekerja menerima tugas di portal pekerja.

**`submissionTime`**
+ Ketika pekerja mengajukan tanggapan mereka.

**`timeSpentInSeconds`**
+ Berapa lama pekerja menghabiskan menyelesaikan tugas.

**`workerId`**
+ ID pekerja yang menyelesaikan tugas.

**`workerMetadata`**
+ Metadata tentang tim kerja mana yang ditugaskan untuk pekerjaan evaluasi model ini.

#### Format array `answerContent` JSON
<a name="clarify-foundation-model-evaluate-humanAnswers-answerconent"></a>

Struktur jawaban tergantung pada metrik evaluasi yang dipilih saat pekerjaan evaluasi model dibuat. Setiap respons atau jawaban pekerja dicatat dalam objek JSON baru.

**`answerContent`**
+ `evaluationResults`berisi tanggapan pekerja.
  + Ketika **tombol Pilihan** dipilih, hasil dari setiap pekerja adalah sebagai`"evaluationResults": "comparisonChoice"`. 

    `metricName`: Nama metrik

    `result`: Objek JSON menunjukkan model mana yang dipilih pekerja menggunakan salah satu `0` atau`1`. Untuk melihat nilai mana model dipetakan untuk dilihat,`modelResponseIdMap`.
  + Ketika **skala Likert, perbandingan** dipilih, hasil dari setiap pekerja adalah sebagai. `"evaluationResults": "comparisonLikertScale"` 

    `metricName`: Nama metrik.

    `leftModelResponseId`: Menunjukkan `modelResponseIdMap` yang ditampilkan di sisi kiri portal pekerja.

    `rightModelResponseId`: Menunjukkan `modelResponseIdMap` yang ditampilkan di sisi kiri portal pekerja.

    `result`: Objek JSON menunjukkan model mana yang dipilih pekerja menggunakan salah satu `0` atau`1`. Untuk melihat nilai model mana yang dipetakan untuk dilihat, `modelResponseIdMap`
  + Ketika **peringkat Ordinal** dipilih, hasil dari setiap pekerja adalah sebagai`"evaluationResults": "comparisonRank"`.

    `metricName`: Nama metrik

    `result`: Sebuah array objek JSON. Untuk setiap model (`modelResponseIdMap`) pekerja menyediakan a`rank`.

    ```
    "result": [{
    	"modelResponseId": "0",
    	"rank": 1
    }, {
    	"modelResponseId": "1",
    	"rank": 1
    }]
    ```
  + Ketika **skala Likert, evaluasi respons model tunggal** dipilih, hasil yang disimpan pekerja. `"evaluationResults": "individualLikertScale"` Ini adalah array JSON yang berisi skor untuk `metricName` ditentukan ketika pekerjaan dibuat.

    `metricName`: Nama metrik.

    `modelResponseId`: Model yang dinilai. Untuk melihat nilai mana model dipetakan untuk dilihat,`modelResponseIdMap`.

    `result`: Pasangan nilai kunci yang menunjukkan nilai skala likert yang dipilih oleh pekerja.
  + Ketika **Thumbs atas/bawah** dipilih, hasil dari pekerja disimpan sebagai array JSON. `"evaluationResults": "thumbsUpDown"`

    `metricName`: Nama metrik.

    `result`: Entah `true` atau `false` yang berkaitan dengan. `metricName` Ketika seorang pekerja memilih acungan jempol,. `"result" : true`

## Contoh output dari output pekerjaan evaluasi model
<a name="clarify-foundation-model-evaluate-results-human-example"></a>

Objek JSON berikut adalah contoh output pekerjaan evaluasi model yang disimpan di Amazon S3. Untuk mempelajari lebih lanjut tentang setiap pasangan nilai kunci, lihat[Referensi keluaran JSON](#clarify-foundation-model-evaluate-results-human-ref).

Untuk kejelasan pekerjaan ini hanya berisi tanggapan dari dua pekerja. Beberapa pasangan nilai kunci mungkin juga terpotong agar mudah dibaca

```
{
	"humanEvaluationResult": {
		"flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name",
        "humanAnswers": [
            {
                "acceptanceTime": "2024-06-07T22:31:57.066Z",
                "answerContent": {
                    "evaluationResults": {
                        "comparisonChoice": [
                            {
                                "metricName": "Fluency",
                                "result": {
                                    "modelResponseId": "0"
                                }
                            }
                        ],
                        "comparisonLikertScale": [
                            {
                                "leftModelResponseId": "0",
                                "metricName": "Coherence",
                                "result": 1,
                                "rightModelResponseId": "1"
                            }
                        ],
                        "comparisonRank": [
                            {
                                "metricName": "Toxicity",
                                "result": [
                                    {
                                        "modelResponseId": "0",
                                        "rank": 1
                                    },
                                    {
                                        "modelResponseId": "1",
                                        "rank": 1
                                    }
                                ]
                            }
                        ],
                        "individualLikertScale": [
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "0",
                                "result": 2
                            },
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "1",
                                "result": 3
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "0",
                                "result": 1
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "1",
                                "result": 4
                            }
                        ],
                        "thumbsUpDown": [
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "0",
                                "result": true
                            },
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "1",
                                "result": true
                            }
                        ]
                    }
                },
                "submissionTime": "2024-06-07T22:32:19.640Z",
                "timeSpentInSeconds": 22.574,
                "workerId": "ead1ba56c1278175",
                "workerMetadata": {
                    "identityData": {
                        "identityProviderType": "Cognito",
                        "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4",
                        "sub": "cd2848f5-6105-4f72-b44e-68f9cb79ba07"
                    }
                }
            },
            {
                "acceptanceTime": "2024-06-07T22:32:19.721Z",
                "answerContent": {
                    "evaluationResults": {
                        "comparisonChoice": [
                            {
                                "metricName": "Fluency",
                                "result": {
                                    "modelResponseId": "1"
                                }
                            }
                        ],
                        "comparisonLikertScale": [
                            {
                                "leftModelResponseId": "0",
                                "metricName": "Coherence",
                                "result": 1,
                                "rightModelResponseId": "1"
                            }
                        ],
                        "comparisonRank": [
                            {
                                "metricName": "Toxicity",
                                "result": [
                                    {
                                        "modelResponseId": "0",
                                        "rank": 2
                                    },
                                    {
                                        "modelResponseId": "1",
                                        "rank": 1
                                    }
                                ]
                            }
                        ],
                        "individualLikertScale": [
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "0",
                                "result": 3
                            },
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "1",
                                "result": 4
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "0",
                                "result": 1
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "1",
                                "result": 5
                            }
                        ],
                        "thumbsUpDown": [
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "0",
                                "result": true
                            },
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "1",
                                "result": false
                            }
                        ]
                    }
                },
                "submissionTime": "2024-06-07T22:32:57.918Z",
                "timeSpentInSeconds": 38.197,
                "workerId": "bad258db224c3db6",
                "workerMetadata": {
                    "identityData": {
                        "identityProviderType": "Cognito",
                        "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4",
                        "sub": "84d5194a-3eed-4ecc-926d-4b9e1b724094"
                    }
                }
            }
        ],
        "humanLoopName": "a757 11d3e75a 8d41f35b9873d 253f5b7bce0256e",
        "inputContent": {
            "additionalDataS3Uri": "s3://mgrt-test-us-west-2/test-2-workers-2-model/datasets/custom_dataset/0/task-input-additional-data.json",
            "instructions": "worker instructions provided by the model evaluation job administrator",
            "evaluationMetrics": [
                {
                    "metricName": "Fluency",
                    "metricType": "ComparisonChoice",
                    "description": "Measures the linguistic quality of a generated text."
                },
                {
                    "metricName": "Coherence",
                    "metricType": "ComparisonLikertScale",
                    "description": "Measures the organization and structure of a generated text."
                },
                {
                    "metricName": "Toxicity",
                    "metricType": "ComparisonRank",
                    "description": "Measures the harmfulness of a generated text."
                },
                {
                    "metricName": "Accuracy",
                    "metricType": "ThumbsUpDown",
                    "description": "Indicates the accuracy of a generated text."
                },
                {
                    "metricName": "Correctness",
                    "metricType": "IndividualLikertScale",
                    "description": "Measures a generated answer's satisfaction in the context of the question."
                },
                {
                    "metricName": "Completeness",
                    "metricType": "IndividualLikertScale",
                    "description": "Measures a generated answer's inclusion of all relevant information."
                }
            ],
            "disableRandomization": "true"
        },
        "modelResponseIdMap": {
            "0": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612",
            "1": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352"
        }
    },
    "inputRecord": {
        "prompt": {
            "text": "What is high intensity interval training?"
        },
        "category": "Fitness",
        "referenceResponse": {
            "text": "High-Intensity Interval Training (HIIT)"
        }
    },
    "modelResponses": [
        {
            "text": "High Intensity Interval Training (HIIT) is a form of exercise that alternates between periods of high intensity work and low intensity recovery.HIIT is an excellent way to increase your fitness and improve your health, but it can be difficult to get started.In this article, we will",
            "modelIdentifier": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612"
        },
        {
            "text": "High intensity interval training is a form of exercise consisting of short bursts of maximum effort followed by periods of rest. The theory behind HIIT is that it can often be more effective at improving cardiovascular and metabolic health than longer, lower intensity workouts.The work intervals can range in length depending on the specific type of exercise, but are typically between 20 and 90 seconds. The recovery periods are generally longer, lasting between 1 and 5 minutes. This pattern is then repeated for multiple sets.\n\nSince the work intervals are high intensity, they require more effort from your body and therefore result in a greater calorie burn. The body also continues to burn calories at an increased rate after the workout due to an effect called excess post exercise oxygen consumption (EPOC), also know as the afterburn effect.\n\nHIIT is a versatile form of training that can be adapted to different fitness levels and can be performed using a variety of exercises including cycling, running, bodyweight movements, and even swimming. It can be done in as little as 20 minutes once or twice a week, making it an efficient option for busy individuals.\n\nWhat are the benefits of high intensity interval training",
            "modelIdentifier": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352"
        }
    ]
}
```

# Memahami hasil pekerjaan evaluasi otomatis
<a name="clarify-foundation-model-evaluate-auto-ui-results"></a>

Ketika Anda menyelesaikan pekerjaan evaluasi model otomatis, hasilnya disimpan di Amazon S3. Bagian di bawah ini menjelaskan file yang dihasilkan dan cara menafsirkannya.

## Menafsirkan `output.json` struktur file
<a name="clarify-foundation-model-evaluate-auto-ui-results-json"></a>

`output.json`File berisi skor agregat untuk kumpulan data dan metrik yang Anda pilih.

Berikut ini adalah contoh output

```
{
    "evaluations": [{
        "evaluation_name": "factual_knowledge",
        "dataset_name": "trex",
		## The structure of the prompt template changes based on the foundation model selected
		"prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]",
        "dataset_scores": [{
            "name": "factual_knowledge",
            "value": 0.2966666666666667
        }],
        "category_scores": [{
                "name": "Author",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.4117647058823529
                }]
            },
				....
            {
                "name": "Capitals",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.2857142857142857
                }]
            }
        ]
    }]
}
```

## Menafsirkan struktur file hasil berdasarkan contoh
<a name="clarify-foundation-model-evaluate-auto-ui-results-jsonl"></a>

Satu *evaluation\$1name* \$1 *dataset\$1name* .jsonl file yang berisi hasil berdasarkan contoh untuk setiap permintaan jsonlines. Jika Anda memiliki `300` permintaan dalam data input jsonlines Anda, file keluaran jsonlines ini berisi tanggapan. `300` File output berisi permintaan yang dibuat untuk model Anda diikuti dengan skor untuk evaluasi itu. Contoh keluaran seluruh instance berikut.

## Menafsirkan laporan
<a name="clarify-foundation-model-evaluate-auto-ui-results-report"></a>

**Laporan Evaluasi** berisi hasil pekerjaan evaluasi model yayasan Anda. Isi laporan evaluasi tergantung pada jenis tugas yang Anda gunakan untuk mengevaluasi model Anda. Setiap laporan berisi bagian-bagian berikut:

1. **Skor keseluruhan** untuk setiap evaluasi yang berhasil di bawah tugas evaluasi. Sebagai contoh satu evaluasi dengan satu kumpulan data, jika Anda mengevaluasi model Anda untuk tugas klasifikasi untuk Akurasi dan Kekokohan Semantik, maka tabel yang merangkum hasil evaluasi untuk Akurasi dan Akurasi Kekokohan Semantik muncul di bagian atas laporan Anda. Evaluasi lain dengan kumpulan data lain mungkin terstruktur secara berbeda.

1. Konfigurasi untuk pekerjaan evaluasi Anda termasuk nama model, jenis, metode evaluasi mana yang digunakan, dan kumpulan data apa yang dievaluasi terhadap model Anda.

1. Bagian **Hasil Evaluasi Terperinci** yang merangkum algoritme evaluasi, memberikan informasi tentang dan menautkan ke kumpulan data bawaan apa pun, bagaimana skor dihitung, dan tabel yang menunjukkan beberapa data sampel dengan skor terkait.

1. Bagian **Evaluasi Gagal** yang berisi daftar evaluasi yang tidak lengkap. Jika tidak ada evaluasi yang gagal, bagian laporan ini dihilangkan.