기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon Bedrock에서 모델 평가를 위한 일반 텍스트 생성
<a name="model-evaluation-tasks-general-text"></a>

일반 텍스트 생성은 챗봇이 포함된 애플리케이션에서 사용하는 작업입니다. 모델에서 생성되는 일반적인 질문에 대한 응답은 모델 훈련에 사용된 텍스트에 포함된 정확성, 관련성 및 편향의 영향을 받습니다.

**중요**  
일반 텍스트 생성의 경우, Cohere 모델이 유해성 평가를 성공적으로 완료하지 못하게 하는 시스템 문제가 알려져 있습니다.

다음의 기본 제공 데이터 세트에는 일반 텍스트 생성 작업에 사용하기 적합한 프롬프트가 포함되어 있습니다.

**개방형 언어 생성 데이터 세트(BOLD)의 편향**  
개방형 언어 생성 데이터세트(BOLD)의 편향은 직업, 성별, 인종, 종교 이념, 정치 이념 등 5가지 도메인에 초점을 맞춰 일반 텍스트 생성의 공정성을 평가하는 데이터세트입니다. 여기에는 23,679개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.

**RealToxicityPrompts**  
RealToxicityPrompts는 유해성을 평가하는 데이터세트입니다. 모델이 인종차별적, 성차별 또는 기타 유해한 언어를 생성하도록 유도합니다. 이 데이터세트에는 100,000개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.

**T-Rex: 자연어와 지식 기반 트리플(TREX)의 대규모 연계**  
TREX는 Wikipedia에서 추출한 지식 기반 트리플(KBT)로 구성된 데이터세트입니다. KBT는 자연어 처리(NLP) 및 지식 표현에 사용되는 일종의 데이터 구조입니다. 주제, 술어, 목적어로 구성되며 주어와 객체는 연관성으로 연결됩니다. 지식 기반 트리플(KBT) 의 예로는 ‘조지 워싱턴은 미국 대통령이었습니다’를 들 수 있습니다. 주어는 ‘조지 워싱턴’, 술어는 ‘미국 대통령’, 목적어는 ‘미국’입니다.

**WikiText2**  
WikiText2는 일반적인 텍스트 생성에 사용되는 프롬프트를 포함하는 HuggingFace 데이터 세트입니다.

다음 표에는 자동 모델 평가 작업에 사용할 수 있는 계산된 지표 및 권장되는 기본 제공 데이터 세트가 요약되어 있습니다. AWS CLI또는 지원되는 AWS SDK를 사용하여 사용 가능한 기본 제공 데이터 세트를 성공적으로 지정하려면 열의 파라미터 이름인 *기본 제공 데이터 세트(API)를* 사용합니다.


**Amazon Bedrock에서 일반 텍스트 생성을 위해 사용할 수 있는 기본 제공 데이터 세트**  


- **일반 텍스트 생성 **
  - **지표:** 정확도 / **기본 제공 데이터세트(콘솔):** [TREX](https://hadyelsahar.github.io/t-rex/) / **기본 제공 데이터세트(API):** Builtin.T-REx / **계산된 지표:** 실제 지식(RWK) 점수
  - **지표:** 견고성 / **기본 제공 데이터세트(콘솔):** [BOLD](https://github.com/amazon-science/bold) / **기본 제공 데이터세트(API):** Builtin.BOLD / **계산된 지표:** 단어 오류 발생률
  - **기본 제공 데이터세트(콘솔):** [WikiText2](https://huggingface.co/datasets/Salesforce/wikitext) / **기본 제공 데이터세트(API):** Builtin.WikiText2
  - **기본 제공 데이터세트(콘솔):** [TREX](https://hadyelsahar.github.io/t-rex/) / **기본 제공 데이터세트(API):** Builtin.T-REx
  - **지표:** 유해성 / **기본 제공 데이터세트(콘솔):** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **기본 제공 데이터세트(API):** Builtin.RealToxicityPrompts / **계산된 지표:** 유해성
  - **기본 제공 데이터세트(콘솔):** [BOLD](https://github.com/amazon-science/bold) / **기본 제공 데이터세트(API):** Builtin.Bold


각 기본 제공 데이터 세트의 계산된 지표가 계산되는 방식에 대해 자세히 알아보려면 [Amazon Bedrock에서 모델 평가 작업 보고서 및 지표 검토](model-evaluation-report.md) 섹션을 참조하세요.