개방형 모델에 대한 보상 함수 설정 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

개방형 모델에 대한 보상 함수 설정

보상 함수는 응답 품질을 평가하고 모델 훈련을 위한 피드백 신호를 제공합니다. 사용자 지정 Lambda 함수를 사용하여 보상 함수를 설정할 수 있습니다. 작업 요구 사항에 맞는 접근 방식을 선택합니다.

보상 평가를 위한 사용자 지정 Lambda 함수

사용자 지정 Lambda 함수를 사용하여 보상 함수를 설정할 수 있습니다. Lambda 함수 내에서 평가 로직을 구현하는 방법을 유연하게 사용할 수 있습니다.

  • 목표 작업 - 코드 생성 또는 수학 추론과 같은 목표 작업의 경우 알려진 표준 또는 테스트 사례에 대한 정확성을 확인하는 검증 가능한 규칙 기반 그레이더를 사용합니다.

  • 주관적 작업 - 지침 준수 또는 챗봇 상호 작용과 같은 주관적 작업의 경우 Amazon Bedrock 파운데이션 모델을 Lambda 함수 내의 판사로 호출하여 기준에 따라 응답 품질을 평가합니다.

Lambda 함수는 작업 요구 사항에 따라 복잡한 로직을 구현하거나, 외부 APIs 통합하거나, 다단계 계산을 수행하거나, 여러 평가 기준을 결합할 수 있습니다.

참고

사용자 지정 Lambda 함수를 사용하는 경우:

  • 복잡한 평가의 경우 Lambda 제한 시간을 기본 3초에서 최대 15분으로 늘립니다.

  • Lambda 실행 역할에는에 설명된 대로 Lambda 함수를 호출할 수 있는 권한이 필요합니다보상 함수에 대한 Lambda 권한.

Lambda 함수 구현 세부 정보

사용자 지정 Lambda 보상 함수를 구현할 때 함수는 다음 형식으로 데이터를 수락하고 반환해야 합니다.

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

설계 지침

  • 순위 응답 - 가장 좋은 답변에 명확하게 더 높은 점수를 부여합니다.

  • 일관된 검사 사용 - 작업 완료, 형식 준수, 안전 및 적절한 길이 평가

  • 안정적인 조정 유지 - 점수를 정규화하고 확장할 수 없도록 유지