

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 了解自動評估任務的結果
<a name="clarify-foundation-model-evaluate-auto-ui-results"></a>

當您自動模型評估任務完成時，結果會儲存在 Amazon S3 中。以下各節描述產生的檔案以及如何解譯這些檔案。

## 解譯 `output.json` 檔案的結構
<a name="clarify-foundation-model-evaluate-auto-ui-results-json"></a>

`output.json` 檔案包含所選資料集和指標的彙總分數。

以下為範例輸出。

```
{
    "evaluations": [{
        "evaluation_name": "factual_knowledge",
        "dataset_name": "trex",
		## The structure of the prompt template changes based on the foundation model selected
		"prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]",
        "dataset_scores": [{
            "name": "factual_knowledge",
            "value": 0.2966666666666667
        }],
        "category_scores": [{
                "name": "Author",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.4117647058823529
                }]
            },
				....
            {
                "name": "Capitals",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.2857142857142857
                }]
            }
        ]
    }]
}
```

## 解譯執行個體結果檔案的結構
<a name="clarify-foundation-model-evaluate-auto-ui-results-jsonl"></a>

一個 *evaluation\$1name*\$1*dataset\$1name*.jsonl 檔案，其中包含每個 jsonlines 請求的執行個體結果。如果您的 jsonlines 輸入資料中有 `300` 個請求，此 jsonlines 輸出檔案會包含 `300` 個回應。輸出檔案包含對您模型提出的請求，後面接著該評估的分數。整個執行個體輸出範例如下。

## 解譯報告
<a name="clarify-foundation-model-evaluate-auto-ui-results-report"></a>

**評估報告**包含基礎模型評估任務的結果。評估報告的內容取決於您用來評估模型的任務類型。每份報告包含下列區段：

1. 評估任務下每個成功評估的**整體分數**。作為使用一個資料集進行一次評估的範例，如果您已針對準確性和語意穩健性的分類任務評估您的模型，則有一個資料表會出現在報告頂端，摘要說明準確性和準確性語意穩健性的評估結果。使用其他資料集進行其他評估可能會以不同的方式進行建構。

1. 評估任務的組態，包括模型名稱、類型、使用的評估方法，以及針對其評估模型的資料集。

1. **詳細評估結果**區段，其中摘要說明評估演算法、提供任何內建資料集的相關資訊及其連結、如何計算分數，以及顯示一些範例資料及其相關聯分數的資料表。

1. **失敗評估**區段，其中包含未完成的評估清單。如果沒有評估失敗，則會省略報告的這個區段。