

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 Studio 中評估文字產生基礎模型
<a name="jumpstart-foundation-models-evaluate"></a>

**注意**  
Foundation Model Evaluations (FMEval) 為 Amazon SageMaker Clarify 的預覽版本，可能會有所變更。

**重要**  
若要使用 SageMaker Clarify Foundation Model Evaluations，您必須升級至新的 Studio 體驗。自 2023 年 11 月 30 日起，先前的 Amazon SageMaker Studio 體驗現在命名為 Amazon SageMaker Studio Classic。基礎評估功能只能用於更新後的體驗。如需如何更新 Studio 的相關資訊，請參閱 [從 Amazon SageMaker Studio Classic 遷移](studio-updated-migrate.md)。如需使用 Studio Classic 應用程式的資訊，請參閱 [Amazon SageMaker Studio Classic](studio.md)。

Amazon SageMaker JumpStart 與 Studio 中的 SageMaker Clarify Foundation Model Evaluations (FMEval) 整合。如果 JumpStart 模型有可用的內建評估功能，您可以在 JumpStart Studio 使用者介面中選擇模型詳細資訊頁面右上角的**評估**。如需導覽 JumpStart Studio 使用者介面的詳細資訊，請參閱[在 Studio 中開啟 JumpStart](studio-jumpstart.md#jumpstart-open-studio)，

使用 Amazon SageMaker JumpStart 透過 FMEval 評估以文字為基礎的基礎模型。您可以使用這些模型評估來比較一個模型、兩個模型之間或相同模型不同版本之間的模型品質和責任指標，以協助您量化模型風險。FMEval 可以評估執行下列任務的以文字為基礎模型：
+  **開放式產生** – 對沒有預先定義結構的文字產生自然人類回應。
+  **文字摘要** – 產生簡潔扼要的摘要，同時保留較大文字中包含的意義和關鍵資訊。
+  **問題回答** – 以自然語言產生問題的回答。
+  **分類 ** – 根據類別的內容，將類別 (例如 `positive` 對 `negative`) 指派給文字段落。

您可以使用 FMEval 根據特定基準自動評估模型回應。您也可以透過引入您的提示資料集，以根據自己的條件評估模型回應。FMEval 提供使用者介面 (UI)，引導您完成評估任務的設定和組態。您也可以在自己的程式碼中使用 FMEval 程式庫。

每個評估都需要兩個執行個體的配額：
+ 託管執行個體 – 託管和部署 LLM 的執行個體。
+ 評估執行個體 – 用於在託管執行個體上提示和執行 LLM 評估的執行個體。

如果您的 LLM 已部署，請提供端點，SageMaker AI 將使用**託管執行個體**來託管和部署 LLM。

如果您正在評估的 JumpStart 模型尚未部署到帳戶，FMEval 會在您的帳戶中為您建立暫時**託管執行個體**，並僅在評估期間保持其為已部署。FMEval 使用 JumpStart 為所選 LLM 建議的預設執行個體做為您的託管執行個體。您必須擁有此建議執行個體的足夠配額。

每個評估也會使用評估執行個體對 LLM 提供提示，並為來自 LLM 的回應進行評分。您還必須有足夠的配額和記憶體來執行評估演算法。評估執行個體的配額和記憶體需求通常小於託管執行個體所需的配額和記憶體。建議您選取 `ml.m5.2xlarge` 執行個體。如需配額與記憶體的詳細資訊，請參閱[解決在 Amazon SageMaker AI 中建立模型評估任務時的錯誤](clarify-foundation-model-evaluate-troubleshooting.md)。

自動評估可用於跨下列維度對 LLM 評分：
+ 準確性 – 用於文字摘要、問題回答和文字分類
+ 語意強健性 – 用於開放式產生、文字摘要和文字分類任務
+ 事實知識 – 用於開放式產生
+ 提示詞刻板化 – 用於開放式產生 
+  毒性 – 用於開放式產生、文字摘要和問題回答

您也可以使用人工評估來手動評估模型回應。FMEval 使用者介面會引導您完成工作流程，以選取一或多個模型、佈建資源，以及撰寫指示並聯絡人力資源。人工評估完成後，結果會顯示在 FMEval 中。

您可以透過 Studio 中的 JumpStart 登陸頁面存取模型評估，方法是選取要評估的模型，然後選擇**評估**。請注意，並非所有 JumpStart 模型都有可用的評估功能。如需如何設定、佈建和執行 FMEval 的詳細資訊，請參閱[什麼是基礎模型評估？](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-foundation-model-evaluate.html)