

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 내장형 지표를 사용하여 모델 평가 작업 생성
<a name="model-evaluation-built-in-metrics"></a>

다음 지침에 따라 작업을 생성하려면 프롬프트 데이터세트가 필요합니다. 아직 생성하지 않은 경우 [모델을 평가자로 사용하는 모델 평가 작업에 대한 프롬프트 데이터세트 생성](model-evaluation-prompt-datasets-judge.md) 섹션을 참조하세요.

------
#### [ Console ]

1. [Amazon Bedrock 콘솔](https://console.aws.amazon.com/bedrock/home)을 엽니다.

1. 왼쪽 창의 **추론 및 평가**에서 **평가**를 선택합니다.

1. **모델 평가** 창에서 **생성**을 선택하고 **자동: 모델을 평가자**로 선택합니다.

1. 다음을 수행하여 모델 평가 세부 정보를 입력합니다.

   1. **모델 평가 세부 정보** 창의 **평가 이름** 아래에 평가 작업의 이름을 입력합니다. 선택하는 이름은 AWS 리전 내에서 고유해야 합니다.

   1. 선택적으로 **설명 - *선택 사항***에서 평가 작업에 대한 설명을 입력합니다.

   1. **평가자 모델**에서 **모델 선택**을 선택하고 평가를 수행할 평가자 모델을 선택합니다.

1. 평가 작업에 대한 추론 소스를 입력합니다. Amazon Bedrock 모델 평가 도구 세트를 사용하면 [프롬프트 데이터세트](model-evaluation-prompt-datasets-judge.md)에 자체 추론 응답 데이터를 제공하여 Amazon Bedrock 모델 또는 다른 모델의 성능을 평가할 수 있습니다. Amazon Bedrock 모델을 선택하려면 다음을 수행합니다.

   1. **추론 소스** 창의 **소스 선택**에서 **Bedrock 모델**을 선택합니다.

   1. **모델 선택**에서 **모델 선택을** 선택합니다.

   1. 팝업에서 평가할 모델을 선택하고 **적용**을 선택합니다.

   1. (선택 사항) 모델의 추론 파라미터를 변경하려면 **추론 구성**에서 **업데이트**를 선택합니다.

1. 자체 추론 응답 데이터를 가져오려면 다음을 수행합니다.

   1. **추론 소스** 창의 **소스 선택**에서 **자체 추론 응답 가져오기**를 선택합니다.

   1. **소스 이름**에 응답 데이터를 생성하는 데 사용한 모델의 이름을 입력합니다. 입력하는 이름은 [프롬프트 데이터세트](model-evaluation-prompt-datasets-judge.md#model-evaluation-prompt-datasets-judge-byoir)의 `modelIdentifier` 파라미터와 일치해야 합니다.

1. 지표 창에서 지표를 하나 이상 선택하여 평가자 모델이 생성기 모델의 응답 점수를 매길 기본 제공 **지표**를 선택합니다.

1. 다음을 수행하여 데이터세트 및 결과의 입력 및 출력 위치를 정의합니다.

   1. **데이터세트** 창의 **프롬프트 데이터세트 선택**에서 프롬프트 데이터세트의 Amazon S3 URI를 입력하거나 ** S3 찾아보기**를 선택하고 파일을 선택합니다. model-as-a-judge 평가 작업에 필요한 프롬프트 데이터세트 형식의 정의를 보려면 [모델을 평가자로 사용하는 모델 평가 작업에 대한 프롬프트 데이터세트 생성](model-evaluation-prompt-datasets-judge.md) 섹션을 참조하세요.

   1. **평가 결과**에서 Amazon Bedrock의 Amazon S3 위치를 입력하여 결과를 저장하거나 **S3 찾아보기**를 선택하여 위치를 선택합니다.

1. **Amazon Bedrock IAM 역할 - 권한**에서 **새 서비스 역할 생성 및 사용**을 선택하여 Amazon Bedrock이 평가 작업에 대한 새 IAM 역할을 생성하도록 하거나 **기존 서비스 역할 사용**을 선택하여 기존 IAM 역할을 선택합니다. 평가 작업을 생성하고 실행하는 데 필요한 권한 목록은 [사전 조건](model-evaluation-judge-create.md#model-evaluation-judge-create-prereqs) 섹션을 참조하세요.

1. (선택 사항) 자체 KMS 키를 사용하여 평가 데이터를 암호화하려면 **KMSkey - *선택 사항***에서 **암호화 설정 사용자 지정(고급)**을 선택하고 AWS KMS 키를 선택합니다. 기본적으로 Amazon Bedrock은 AWS 소유 KMS 키를 사용하여 평가 작업 데이터를 암호화합니다.

1. **생성**을 선택하여 평가 작업 생성을 완료합니다.

------
#### [ AWS CLI ]
+   
**Example AWS CLI Amazon Bedrock 모델에 대한 평가 작업을 생성하기 위한 명령 및 JSON 파일**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
  ```

  ```
  {
      "jobName": "model-eval-llmaj",
      "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "applicationType": "ModelEvaluation",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "bedrockModel": {
                      "modelIdentifier": "anthropic.claude-v2",
                      "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
      }
  }
  ```  
**Example 자체 추론 응답 데이터를 제공하는 평가 작업을 생성하는 AWS CLI 명령 및 JSON 파일**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
  ```

  ```
  {
      "jobName": "model-eval-llmaj",
      "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "precomputedInferenceSource": {
                      "inferenceSourceIdentifier": "my_model"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output/"
      }
  }
  ```

------