

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 用於微調 Autopilot 中大型語言模型的指標
<a name="autopilot-llms-finetuning-metrics"></a>

下一節說明可用來了解微調大型語言模型 (LLMs) 的指標。Autopilot 會使用您的資料集直接對目標 LLM 進行微調，以增強預設目標指標，即交叉熵損失。

交叉熵損失是一種廣泛使用的指標，用於評估預測的概率分佈與訓練資料中文字的實際分佈之間的不相似性。透過將交叉熵損失最小化，模型學習會進行更精確並與上下文相關的預測，特別是在與文字生成相關的任務中。

微調 LLM 後，您可以使用 ROUGE 分數範圍評估其產生文字的品質。此外，您可以在評估過程中分析困惑度、交叉熵訓練和驗證損失。
+ 困惑損失可衡量模型在一系列文字中預測下一個字的程度，而較低的值則表示對語言和上下文有更好的理解。
+ Recall-Oriented Understudy for Gisting Evaluation (ROUGE) 是一組用於自然語言處理 (NLP) 和機器學習領域的指標，用於評估機器生成文字的品質，如文字摘要或文字生成。它主要評估所產生文字與驗證資料集的基本事實參考 (人類撰寫) 文字之間的相似性。ROUGE 指標旨在評估文字相似性的各個層面，包括系統產生和參考文字中 n-gram (連續單字序列) 的精確率和召回率。目標是評估模型擷取參考文字中存在的資訊的程度。

  ROUGE 指標有幾種變體，根據使用的 n-gram 類型和正在評估的文字品質的特定方面。

  下列清單包含在 Autopilot 中微調大型語言模型後可用 ROUGE 指標的名稱和說明。  
**`ROUGE-1`, `ROUGE-2`**  
ROUGE-N 是主要的 ROUGE 指標，衡量系統產生和參考文字之間 n-gram 的重疊程度。ROUGE-N 可以調整為不同的 `n` 值 (此處為 `1` 或 `2`)，以評估系統產生的文字從參考文字擷取 n-gram 的程度。  
**`ROUGE-L`**  
ROUGE-L (ROUGE-Longest通用子序列) 計算系統生成的文字和參考文字之間的最長通用子序列。除了內容重疊之外，此變體還會考慮文字順序。  
**`ROUGE-L-Sum`**  
ROUGE-L-SUM (摘要的最長通用子序列) 是專門用於評估文字摘要系統的指標。它著重於測量機器產生的摘要和參考摘要之間最長的常見子序列。ROUGE-L-SUM 會考慮文字中的單字順序，這在文字摘要任務中很重要。