本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
评估 Studio 中的文本生成基础模型
注意
基础模型评估 (fmeVal) 现为 Ama SageMaker zon Clarify 的预览版,可能会发生变化。
重要
要使用 Clari SageMaker fy 基础模型评估,您必须升级到全新的 Studio 体验。截至 2023 年 11 月 30 日,之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。基础评估功能只能在更新的体验中使用。有关如何更新 Studio 的信息,请参阅 从亚马逊 SageMaker Studio 经典版迁移。有关使用 Studio Classic 应用程序的信息,请参阅 亚马逊 SageMaker Studio 经典版。
亚马逊 SageMaker JumpStart 已与 Studio 中的 Cl SageMaker arify 基础模型评估 (fmeVal) 集成。如果 JumpStart 模型具有内置评估功能,则可以在 JumpStart Studio 用户界面中模型详情页面的右上角选择评估。有关在 JumpStart Studio 用户界面中导航的更多信息,请参阅 JumpStart 在工作室中打开
使用 Amazon SageMaker JumpStart 使用 FMeVal 评估基于文本的基础模型。您可以使用这些模型评测来比较一个模型、两个模型或同一模型的不同版本的质量和责任指标,从而帮助您量化模型风险。FMEval 可以评估执行以下任务的基于文本的模型:
-
Open-ended generati@@ on — 人类对没有预定义结构的文本的自然反应产生。
-
文本摘要:生成简明扼要的摘要,同时保留长文本中的含义和关键信息。
-
问题解答:用自然语言回答问题。
-
分类:根据文本内容,将文本段落分为
negative类和positive类。
您可以使用 FMEval 根据特定基准自动评估模型响应。您还可以通过自己的提示数据集,根据自己的标准评估模型响应。FMEval 提供了一个用户界面 (UI),指导您完成评估作业的设置和配置。您还可以在自己的代码中使用 FMEval 库。
每次评估都需要两个实例的配额:
-
托管实例:托管和部署 LLM 的实例。
-
评估实例:用于在主机实例上提示和执行 LLM 评估的实例。
如果您的 LLM 已部署,请提供终端节点, SageMaker AI 将使用您的托管实例来托管和部署 LLM。
如果您正在评估尚未部署到您的账户的 JumpStart 模型,FMeVal 会在您的账户中为您创建一个临时托管实例,并且仅在评估期间保持部署状态。FMeVal 使用为所选 LLM JumpStart 推荐的默认实例作为您的托管实例。您必须拥有足够的配额才能使用此推荐实例。
每次评估都会使用评估实例来提示 LLM 的响应并为其打分。您还必须拥有足够的配额和内存来运行评估算法。评估实例的配额和内存需求通常小于托管实例的需求。我们建议选择 ml.m5.2xlarge 实例。有关配额和内存的更多信息,请参阅 解决在 Amazon A SageMaker I 中创建模型评估任务时出现的错误。
自动评估可用于对 LLM 在以下维度进行评分:
-
准确性:适用于文本摘要、问答和文本分类
-
语义稳健性:适用于开放式生成、文本摘要和文本分类任务
-
事实知识:适用于开放式一代
-
提示定式:适用于开放式一代
-
毒性:适用于开放式生成、文本摘要和问答
您还可以使用人工评估来手动评估模型响应。FMEval 用户界面将引导您完成一系列工作流程,包括选择一个或多个模型、配置资源、编写操作说明以及联系员工。人工评估完成后,评估结果将显示在 FMEval 中。
您可以通过 Studio 的 JumpStart 登录页面访问模型评估,方法是选择要评估的模型,然后选择评估。请注意,并非所有 JumpStart 型号都具有可用的评估功能。有关如何配置、配置和运行 FMEval 的更多信息,请参阅什么是基础模型评测?