翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# ヘルスケアおよびライフサイエンスアプリケーション用の LLMs の評価
<a name="evaluation"></a>

このセクションでは、ヘルスケアとライフサイエンスのユースケースで大規模言語モデル (LLMs) を評価するための要件と考慮事項の包括的な概要を説明します。

グラウンドトゥルースデータと SME フィードバックを使用してバイアスを軽減し、LLM 生成レスポンスの精度を検証することが重要です。このセクションでは、トレーニングおよびテストデータを収集およびキュレートするためのベストプラクティスについて説明します。また、ガードレールを実装し、データのバイアスと公平性を測定するのに役立ちます。また、テキスト分類、名前付きエンティティ認識、テキスト生成などの一般的な医療自然言語処理 (NLP) タスク、および関連する評価メトリクスについても説明します。

また、トレーニング実験フェーズとポストプロダクションフェーズ中に LLM 評価を実行するワークフローも示します。モデルモニタリングと LLM オペレーションは、この評価プロセスの重要な要素です。

## 医療 NLP タスクのトレーニングデータとテストデータ
<a name="evaluation-test-data"></a>

医療 NLP タスクは、通常、医療法人 (PubMed など) または患者情報 (患者の訪問メモなど) を使用して、インサイトを分類、要約、生成します。医療担当者、医療管理者、技術者は、専門知識と視点が異なります。これらの医療担当者間の主観性により、トレーニングデータセットとテストデータセットが小さくなると、バイアスのリスクが生じます。このリスクを軽減するには、次のベストプラクティスをお勧めします。
+ 事前トレーニング済みの LLM ソリューションを使用する場合は、十分な量のテストデータがあることを確認してください。テストデータは、実際の医療データによく似ている必要があります。タスクに応じて、20～100 レコードまでの範囲になります。
+ LLM をファインチューニングする場合は、対象となる医療ドメインのさまざまな SMEs から十分な数のラベル付き (グラウンドトゥルース) レコードを収集します。一般的な開始点は、少なくとも 100 個の高品質のレコードです。ただし、タスクの複雑さと精度の許容基準を考慮すると、より多くのレコードが必要になる場合があります。
+ 医療ユースケースで必要な場合は、ガードレールを実装し、データのバイアスと公平性を測定します。例えば、LLM が患者の人種的プロファイルによる誤診断を防止していることを確認してください。詳細については、このガイドの「[セキュリティとガードレール](llms.md#llm-selection-guardrails)」セクションを参照してください。

Anthropic などの多くの AI 研究および開発企業は、毒性を回避するために基盤モデルにガードレールを既に実装しています。毒性検出を使用して、LLMs からの入力プロンプトと出力レスポンスを確認できます。詳細については、Amazon Comprehend ドキュメントの[「毒性検出](https://docs.aws.amazon.com/comprehend/latest/dg/trust-safety.html#toxicity-detection)」および Amazon Bedrock ドキュメントの[「ガードレール](https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails.html)」を参照してください。

生成 AI タスクでは、幻覚のリスクがあります。このリスクを軽減するには、分類などの NLP タスクを実行します。テキスト類似度メトリクスなど、より高度な手法を使用することもできます。[BertScore](https://huggingface.co/spaces/evaluate-metric/bertscore) は一般的に採用されているテキスト類似度メトリクスです。幻覚を軽減するために使用できる手法の詳細については、[「大規模言語モデルにおける幻覚緩和手法の包括的な調査](https://arxiv.org/pdf/2401.01313)」を参照してください。

## 医療 NLP タスクのメトリクス
<a name="evaluation-metrics"></a>

グラウンドトゥルースデータと SME が提供するトレーニングとテスト用のラベルを確立した後、定量化可能なメトリクスを作成できます。ストレステストや LLM 結果の確認などの定性的なプロセスによる品質チェックは、迅速な開発に役立ちます。ただし、メトリクスは将来の LLM オペレーションをサポートする定量的ベンチマークとして機能し、各本番リリースのパフォーマンスベンチマークとして機能します。

医療タスクを理解することは重要です。メトリクスは通常、次のいずれかの一般的な NLP タスクにマッピングされます。
+ **テキスト分類** – LLM は、入力プロンプトと提供されたコンテキストに基づいて、テキストを 1 つ以上の事前定義されたカテゴリに分類します。たとえば、ペインスケールを使用してペインカテゴリを分類します。テキスト分類メトリクスの例は次のとおりです。
  + [精度](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-accuracy-metric)
  + [精度](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macroprecision-metric)、*マクロ精度*とも呼ばれます
  + [マクロリコール](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrorecall-metric)とも呼ばれる*リコール*
  + マクロ [F1 スコア](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrof1score-metric)とも呼ばれ*る F1 スコア*
  + [ハミング損失](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-hammingloss-metric)
+ **名前付きエンティティ認識 (NER)** – *テキスト抽出*とも呼ばれる名前付きエンティティ認識は、非構造化テキストで記述されている名前付きエンティティを検索して事前定義されたカテゴリに分類するプロセスです。たとえば、患者レコードから薬剤名を抽出します。NER メトリクスの例は次のとおりです。
  + [精度](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-accuracy-metric)
  + [精度](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macroprecision-metric)
  + [リコール](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrorecall-metric)
  + [F1 スコア](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrof1score-metric)
  + [ハミング損失](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-hammingloss-metric)
+ **生成** – LLM は、プロンプトと提供されたコンテキストを処理して新しいテキストを生成します。生成には、要約タスクまたは質疑応答タスクが含まれます。生成メトリクスの例は次のとおりです。
  + [ギスト評価のためのリコール指向の研究中 (ROUGE)](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-accuracy-evaluation.html)
  + [明示的な ORdering を使用した翻訳の評価メトリクス (METEOR)](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-accuracy-evaluation.html)
  + [研究中のバイリンガル評価 (BLEU)](https://en.wikipedia.org/wiki/BLEU) (翻訳用)
  + *コサイン類似度*とも呼ばれる[文字列距離](https://en.wikipedia.org/wiki/Cosine_similarity)