

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 评估 Studio 中的文本生成基础模型
<a name="jumpstart-foundation-models-evaluate"></a>

**注意**  
基础模型评估 (fmeVal) 现为 Ama SageMaker zon Clarify 的预览版，可能会发生变化。

**重要**  
要使用 Clari SageMaker fy 基础模型评估，您必须升级到全新的 Studio 体验。截至 2023 年 11 月 30 日，之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。基础评估功能只能在更新的体验中使用。有关如何更新 Studio 的信息，请参阅 [从亚马逊 SageMaker Studio 经典版迁移](studio-updated-migrate.md)。有关使用 Studio Classic 应用程序的信息，请参阅 [亚马逊 SageMaker Studio 经典版](studio.md)。

亚马逊 SageMaker JumpStart 已与 Studio 中的 Cl SageMaker arify 基础模型评估 (fmeVal) 集成。如果 JumpStart 模型具有内置评估功能，则可以在 JumpStart Studio 用户界面中模型详情页面的右上角选择**评估**。有关在 JumpStart Studio 用户界面中导航的更多信息，请参阅 [JumpStart 在工作室中打开](studio-jumpstart.md#jumpstart-open-studio)

使用 Amazon SageMaker JumpStart 使用 FMeVal 评估基于文本的基础模型。您可以使用这些模型评测来比较一个模型、两个模型或同一模型的不同版本的质量和责任指标，从而帮助您量化模型风险。FMEval 可以评估执行以下任务的基于文本的模型：
+  Open-ended generati@@ **on** — 人类对没有预定义结构的文本的自然反应产生。
+  **文本摘要**：生成简明扼要的摘要，同时保留长文本中的含义和关键信息。
+  **问题解答**：用自然语言回答问题。
+  **分类**：根据文本内容，将文本段落分为 `negative` 类和 `positive` 类。

您可以使用 FMEval 根据特定基准自动评估模型响应。您还可以通过自己的提示数据集，根据自己的标准评估模型响应。FMEval 提供了一个用户界面 (UI)，指导您完成评估作业的设置和配置。您还可以在自己的代码中使用 FMEval 库。

每次评估都需要两个实例的配额：
+ 托管实例：托管和部署 LLM 的实例。
+ 评估实例：用于在主机实例上提示和执行 LLM 评估的实例。

如果您的 LLM 已部署，请提供终端节点， SageMaker AI 将使用您的**托管实例来托管**和部署 LLM。

如果您正在评估尚未部署到您的账户的 JumpStart 模型，FMeVal 会在您的账户中为您创建一个临时**托管实例**，并且仅在评估期间保持部署状态。FMeVal 使用为所选 LLM JumpStart 推荐的默认实例作为您的托管实例。您必须拥有足够的配额才能使用此推荐实例。

每次评估都会使用评估实例来提示 LLM 的响应并为其打分。您还必须拥有足够的配额和内存来运行评估算法。评估实例的配额和内存需求通常小于托管实例的需求。我们建议选择 `ml.m5.2xlarge` 实例。有关配额和内存的更多信息，请参阅 [解决在 Amazon A SageMaker I 中创建模型评估任务时出现的错误](clarify-foundation-model-evaluate-troubleshooting.md)。

自动评估可用于对 LLM 在以下维度进行评分：
+ 准确性：适用于文本摘要、问答和文本分类
+ 语义稳健性：适用于开放式生成、文本摘要和文本分类任务
+ 事实知识：适用于开放式一代
+ 提示定式：适用于开放式一代 
+  毒性：适用于开放式生成、文本摘要和问答

您还可以使用人工评估来手动评估模型响应。FMEval 用户界面将引导您完成一系列工作流程，包括选择一个或多个模型、配置资源、编写操作说明以及联系员工。人工评估完成后，评估结果将显示在 FMEval 中。

您可以通过 Studio 的 JumpStart 登录页面访问模型评估，方法是选择要评估的模型，然后选择**评估**。请注意，并非所有 JumpStart 型号都具有可用的评估功能。有关如何配置、配置和运行 FMEval 的更多信息，请参阅[什么是基础模型评测](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-foundation-model-evaluate.html)？