

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 의료 및 생명과학 애플리케이션을 위한 LLMs 평가
<a name="evaluation"></a>

이 섹션에서는 의료 및 생명과학 사용 사례에서 대규모 언어 모델(LLMs)을 평가하기 위한 요구 사항 및 고려 사항에 대한 포괄적인 개요를 제공합니다.

편향을 완화하고 LLM 생성 응답의 정확성을 검증하려면 실측 데이터와 SME 피드백을 사용하는 것이 중요합니다. 이 섹션에서는 훈련 및 테스트 데이터를 수집하고 큐레이션하는 모범 사례를 설명합니다. 또한 가드레일을 구현하고 데이터 편향과 공정성을 측정하는 데 도움이 됩니다. 또한 텍스트 분류, 명명된 엔터티 인식, 텍스트 생성과 같은 일반적인 의료 자연어 처리(NLP) 작업과 관련 평가 지표에 대해서도 설명합니다.

또한 훈련 실험 단계 및 프로덕션 후 단계에서 LLM 평가를 수행하기 위한 워크플로를 제공합니다. 모델 모니터링 및 LLM 작업은이 평가 프로세스의 중요한 요소입니다.

## 의료 NLP 작업을 위한 훈련 및 테스트 데이터
<a name="evaluation-test-data"></a>

Medical NLP 태스크는 일반적으로 의료 코포라(예: PubMed) 또는 환자 정보(예: 임상 환자 방문 노트)를 사용하여 인사이트를 분류, 요약 및 생성합니다. 의사, 의료 관리자 또는 기술자와 같은 의료 담당자는 전문 지식과 관점이 다양합니다. 이러한 의료진 간의 주관성으로 인해 훈련 및 테스트 데이터 세트가 작을수록 편향의 위험이 있습니다. 이러한 위험을 완화하려면 다음 모범 사례를 따르는 것이 좋습니다.
+ 사전 훈련된 LLM 솔루션을 사용할 때는 적절한 양의 테스트 데이터가 있는지 확인합니다. 테스트 데이터는 실제 의료 데이터와 매우 유사해야 합니다. 작업에 따라 레코드의 범위는 20\$1100개입니다.
+ LLM을 미세 조정할 때 대상 의료 도메인의 다양한 SMEs에서 충분한 수의 레이블이 지정된(실측) 레코드를 수집합니다. 일반적인 시작점은 100개 이상의 고품질 레코드입니다. 그러나 작업의 복잡성과 정확도 수락 기준을 고려할 때 더 많은 레코드가 필요할 수 있습니다.
+ 의료 사용 사례에 필요한 경우 가드레일을 구현하고 데이터 편향과 공정성을 측정합니다. 예를 들어 LLM이 환자의 인종 프로필로 인한 오진을 방지하는지 확인합니다. 자세한 내용은 이 설명서의 [보안 및 가드레일](llms.md#llm-selection-guardrails) 섹션을 참조하세요.

Anthropic과 같은 많은 AI 연구 및 개발 회사는 이미 유해성을 방지하기 위해 파운데이션 모델에 가드레일을 구현했습니다. 유해성 감지를 사용하여 입력 프롬프트와 LLMs. 자세한 내용은 Amazon Comprehend 설명서의 [유해성 감지](https://docs.aws.amazon.com/comprehend/latest/dg/trust-safety.html#toxicity-detection) 및 Amazon Bedrock 설명서의 [가드레일을 참조하세요](https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails.html).

생성형 AI 작업에는 할루시네이션 위험이 있습니다. 분류와 같은 NLP 작업을 수행하여이 위험을 완화할 수 있습니다. 텍스트 유사성 지표와 같은 고급 기술을 사용할 수도 있습니다. [BertScore](https://huggingface.co/spaces/evaluate-metric/bertscore)는 일반적으로 채택되는 텍스트 유사성 지표입니다. 할루시네이션을 완화하는 데 사용할 수 있는 기법에 대한 자세한 내용은 [대규모 언어 모델의 할루시네이션 완화 기법에 대한 포괄적인 설문 조사를 참조하세요](https://arxiv.org/pdf/2401.01313).

## 의료 NLP 작업에 대한 지표
<a name="evaluation-metrics"></a>

훈련 및 테스트를 위해 실측 데이터 및 SME 제공 레이블을 설정한 후 정량화 가능한 지표를 생성할 수 있습니다. 스트레스 테스트 및 LLM 결과 검토와 같은 정성적 프로세스를 통해 품질을 확인하는 것은 빠른 개발에 유용합니다. 그러나 지표는 향후 LLM 운영을 지원하는 정량적 벤치마크 역할을 하며 각 프로덕션 릴리스의 성능 벤치마크 역할을 합니다.

의료 작업을 이해하는 것이 중요합니다. 지표는 일반적으로 다음 일반 NLP 작업 중 하나에 매핑됩니다.
+ **텍스트 분류** - LLM은 입력 프롬프트 및 제공된 컨텍스트에 따라 텍스트를 하나 이상의 사전 정의된 범주로 분류합니다. 예를 들어, 통증 척도를 사용하여 통증 범주를 분류합니다. 텍스트 분류 지표의 예는 다음과 같습니다.
  + [정확도](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-accuracy-metric)
  + [정밀도](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macroprecision-metric), *매크로 정밀도*라고도 함
  + [매크로 재현율](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrorecall-metric)이라고도 하는 *재현율*
  + 매크로 [F1 점수](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrof1score-metric)라고*도 하는 F1 점수*
  + [해밍 손실](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-hammingloss-metric)
+ **NER(명명된 엔터티 인식)** - *텍스트 추출*이라고도 하는 명명된 엔터티 인식은 비정형 텍스트에 언급된 명명된 엔터티를 미리 정의된 범주로 찾아 분류하는 프로세스입니다. 예를 들어 환자 레코드에서 약물 이름을 추출합니다. NER 지표의 예는 다음과 같습니다.
  + [정확도](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-accuracy-metric)
  + [정밀도](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macroprecision-metric)
  + [리콜](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrorecall-metric)
  + [F1 점수](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrof1score-metric)
  + [해밍 손실](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-hammingloss-metric)
+ **생성** - LLM은 프롬프트와 제공된 컨텍스트를 처리하여 새 텍스트를 생성합니다. 생성에는 요약 작업 또는 질문 응답 작업이 포함됩니다. 생성 지표의 예는 다음과 같습니다.
  + [Gisting Evaluation을 위한 Recall-Oriented Understud(ROUGE)](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-accuracy-evaluation.html)
  + [명시적 ORdering을 사용한 번역 평가 지표(METEOR)](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-accuracy-evaluation.html)
  + [연구 대상 이중 언어 평가(BLEU)](https://en.wikipedia.org/wiki/BLEU)(번역용)
  + *코사인 유사성*이라고도 하는 [문자열 거리](https://en.wikipedia.org/wiki/Cosine_similarity)