本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 评估 LLMs 医疗保健和生命科学应用
<a name="evaluation"></a>

本节全面概述了在医疗保健和生命科学用例中评估大型语言模型 (LLMs) 的要求和注意事项。

重要的是要使用实况数据和中小企业反馈来减轻偏见，并验证法学硕士生成的响应的准确性。本节介绍收集和整理训练和测试数据的最佳实践。它还可以帮助您实施防护措施并衡量数据偏见和公平性。它还讨论了常见的医学自然语言处理 (NLP) 任务，例如文本分类、命名实体识别和文本生成，及其相关的评估指标。

它还提供了在训练实验阶段和后期制作阶段进行法学硕士评估的工作流程。模型监控和 LLM 操作是该评估过程的重要组成部分。

## 医疗 NLP 任务的训练和测试数据
<a name="evaluation-test-data"></a>

医疗 NLP 任务通常使用医学语料库（例如 PubMed）或患者信息（例如临床患者就诊记录）来分类、总结和生成见解。医务人员，例如医生、医疗保健管理人员或技术人员，其专业知识和观点各不相同。由于这些医务人员之间的主观性，较小的培训和测试数据集会带来偏见的风险。为了降低这种风险，我们建议采用以下最佳实践：
+ 使用预训练的 LLM 解决方案时，请确保您有足够数量的测试数据。测试数据应与实际医疗数据非常相似。根据任务的不同，记录的范围可能从 20 到 100 多条不等。
+ 在微调法学硕士学位时，请从各种目标医学领域收集足够数量的带标签（事实真相） SMEs 的记录。一般的起点是至少 100 张高质量的唱片。但是，考虑到任务的复杂性以及您的准确性验收标准，可能需要更多记录。
+ 如果您的医疗用例需要，请实施防护措施并衡量数据的偏见和公平性。例如，请确保法学硕士学位防止由于患者的种族特征而导致的误诊。有关更多信息，请参阅本指南的[安全和护栏](llms.md#llm-selection-guardrails)部分。

许多人工智能研发公司，例如Anthropic，已经在其基础模型中实施了护栏以避免毒性。您可以使用毒性检测来检查输入提示和来自的输出响应 LLMs。[有关更多信息，请参阅 Amazon Comprehend 文档中的[毒性检测](https://docs.aws.amazon.com/comprehend/latest/dg/trust-safety.html#toxicity-detection)和亚马逊 Bedrock 文档中的护栏。](https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails.html)

在任何生成式人工智能任务中，都有产生幻觉的风险。您可以通过执行 NLP 任务（例如分类）来降低这种风险。您还可以使用更高级的技术，例如文本相似度量度。 [BertScore](https://huggingface.co/spaces/evaluate-metric/bertscore)是一种常用的文本相似度量标准。有关可用于缓解幻觉的技术的更多信息，请参阅大型语言模型[中幻觉缓解技术的综合调查](https://arxiv.org/pdf/2401.01313)。

## 医疗 NLP 任务的指标
<a name="evaluation-metrics"></a>

在为训练和测试建立基本真相数据和中小企业提供的标签后，您可以创建可量化的指标。通过定性流程（例如压力测试和审查法学硕士学位）来检查质量有助于快速开发。但是，指标充当量基准，支持Future LLM的运营，并充当每个生产版本的性能基准。

了解医疗任务至关重要。指标通常映射到以下常规 NLP 任务之一：
+ **文本分类** — LLM 根据输入提示和提供的上下文将文本分类为一个或多个预定义类别。一个例子是使用疼痛量表对疼痛类别进行分类。文本分类指标的示例包括：
  + [准确性](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-accuracy-metric)
  + [精度](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macroprecision-metric)，也称为*宏观精度*
  + [召回](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrorecall-metric)，也称为*宏调用*
  + [F1 分数](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrof1score-metric)，也称为*宏观 F1 分数*
  + [重击损失](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-hammingloss-metric)
+ **命名实体识别 (NER)** — 也称为*文本提取*，命名实体识别是将非结构化文本中提及的命名实体定位和分类为预定义类别的过程。一个例子是从患者记录中提取药物名称。NER 指标的示例包括：
  + [准确性](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-accuracy-metric)
  + [精度](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macroprecision-metric)
  + [召回率](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrorecall-metric)
  + [F1 分数](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrof1score-metric)
  + [重击损失](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-hammingloss-metric)
+ **生成** — LLM 通过处理提示和提供的上下文来生成新文本。生成包括摘要任务或问答任务。生成指标的示例包括：
  + [以召回为导向的要点评估底层研究 (ROUGE)](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-accuracy-evaluation.html)
  + [显式翻译评估指标 ORdering (METEOR)](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-accuracy-evaluation.html)
  + [双语评估研究中 (BLEU)（用于翻译）](https://en.wikipedia.org/wiki/BLEU)
  + [字符串距离](https://en.wikipedia.org/wiki/Cosine_similarity)，也称为*余弦*相似度