

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 評估醫療和生命科學應用程式的 LLMs
<a name="evaluation"></a>

本節提供在醫療保健和生命科學使用案例中評估大型語言模型 (LLMs) 的需求和考量的完整概觀。

請務必使用 Ground Truth 資料和 SME 意見回饋來緩解偏差，並驗證 LLM 產生的回應的準確性。本節說明收集和策劃訓練和測試資料的最佳實務。它還可協助您實作護欄並測量資料偏差和公平性。它還討論了常見的醫療自然語言處理 (NLP) 任務，例如文字分類、具名實體辨識、文字產生及其相關評估指標。

它也提供在訓練實驗階段和後製階段執行 LLM 評估的工作流程。模型監控和 LLM 操作是此評估程序的重要元素。

## 醫療 NLP 任務的訓練和測試資料
<a name="evaluation-test-data"></a>

醫療 NLP 任務通常會使用醫療體庫 （例如 PubMed) 或患者資訊 （例如臨床患者就診備註） 來分類、摘要和產生洞見。醫療專業人員、例如醫生、醫療保健管理員或技術人員，在專業知識和觀點方面各有不同。由於這些醫務人員之間的主觀性，較小的訓練和測試資料集會有偏差的風險。為了降低此風險，我們建議採用下列最佳實務：
+ 使用預先訓練的 LLM 解決方案時，請確定您有足夠數量的測試資料。測試資料應與實際醫療資料非常相似。視任務而定，範圍可以從 20 到超過 100 筆記錄。
+ 微調 LLM 時，請從目標醫療網域的各種中SMEs收集足夠數量的已標記 （真實） 記錄。一般起點至少為 100 個高品質記錄。不過，由於任務的複雜性和您的準確性接受條件，可能需要更多記錄。
+ 如果醫療使用案例需要，請實作護欄並測量資料偏差和公平性。例如，請確定 LLM 防止因病患種族描述檔而導致的誤診。如需詳細資訊，請參閱本指南中的 [安全與護欄](llms.md#llm-selection-guardrails)一節。

許多 AI 研究和開發公司，例如 Anthropic，已經在其基礎模型中實作護欄，以避免毒性。您可以使用毒性偵測來檢查輸入提示和來自 LLMs輸出回應。如需詳細資訊，請參閱 Amazon Comprehend 文件中的[毒性偵測](https://docs.aws.amazon.com/comprehend/latest/dg/trust-safety.html#toxicity-detection)，並參閱 Amazon Bedrock 文件中的[護欄](https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails.html)。

在任何生成式 AI 任務中，都有幻覺的風險。您可以透過執行分類等 NLP 任務來降低此風險。您也可以使用更進階的技術，例如文字相似性指標。[BertScore](https://huggingface.co/spaces/evaluate-metric/bertscore) 是常用的文字相似性指標。如需可用於緩解幻覺之技術的詳細資訊，請參閱[大型語言模型中幻覺緩解技術的完整調查](https://arxiv.org/pdf/2401.01313)。

## 醫療 NLP 任務的指標
<a name="evaluation-metrics"></a>

您可以在建立基本事實資料和 SME 提供的標籤以進行訓練和測試之後，建立可量化的指標。透過壓力測試和檢閱 LLM 結果等定性程序檢查品質，有助於快速開發。不過，指標可做為支援未來 LLM 操作的量化基準，並做為每個生產版本的效能基準。

了解醫療任務至關重要。指標通常對應至下列其中一個一般 NLP 任務：
+ **文字分類** – LLM 會根據輸入提示和提供的內容，將文字分類為一或多個預先定義的類別。一個範例是使用痛苦規模來分類痛苦類別。文字分類指標的範例包括：
  + [準確性](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-accuracy-metric)
  + [精確度](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macroprecision-metric)，也稱為*巨集精確度*
  + [召回](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrorecall-metric)，也稱為*巨集召回*
  + [F1 分數](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrof1score-metric)，也稱為*巨集 F1 分數*
  + [壅塞損失](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-hammingloss-metric)
+ **具名實體辨識 (NER)** – 也稱為*文字擷取*，具名實體辨識是將非結構化文字中提及的具名實體定位和分類為預先定義類別的程序。範例是從病患記錄擷取藥物的名稱。NER 指標的範例包括：
  + [準確性](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-accuracy-metric)
  + [精確度](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macroprecision-metric)
  + [召回](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrorecall-metric)
  + [F1 分數](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrof1score-metric)
  + [壅塞損失](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-hammingloss-metric)
+ **產生** – LLM 會透過處理提示和提供的內容來產生新的文字。產生包括摘要任務或問答任務。產生指標的範例包括：
  + [手勢評估的召回導向研究 (ROUGE)](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-accuracy-evaluation.html)
  + [使用明確 ORdering 進行轉譯評估的指標 (METEOR)](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-accuracy-evaluation.html)
  + [研究下雙語評估 (BLEU)](https://en.wikipedia.org/wiki/BLEU) （適用於翻譯）
  + [字串距離](https://en.wikipedia.org/wiki/Cosine_similarity)，也稱為*餘弦相似性*