기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Bedrock에서 강화 미세 조정으로 모델 사용자 지정
강화 미세 조정은 Amazon Bedrock의 모델 사용자 지정 기법으로, 보상이라는 피드백 신호를 통해 “좋은” 응답을 구성하는 모델을 교육하여 파운데이션 모델 성능을 개선합니다. 레이블이 지정된 데이터 세트에 의존하는 기존의 미세 조정 방법과 달리 강화 미세 조정은 모델을 반복적으로 최적화하여 이러한 보상을 극대화하는 피드백 기반 접근 방식을 사용합니다.
강화 미세 조정 애플리케이션 및 시나리오
응답 품질을 평가하기 위한 명확하고 측정 가능한 성공 기준을 정의할 수 있는 경우 강화 미세 조정을 사용합니다. 강화 미세 조정은 특히 유효한 응답이 여러 개 있거나 최적의 응답을 미리 정의하기 어려운 경우 출력 품질을 객관적으로 측정할 수 있는 도메인에서 뛰어납니다. 다음과 같은 경우에 적합합니다.
수학적 문제 해결 및 코드 생성(객관적 평가에 규칙 기반 그레이더 사용)
과학적 추론 및 구조화된 데이터 분석
지침 따르기, 콘텐츠 조절, 창의적인 쓰기(AI 기반 판사 사용)와 같은 주관적 작업
step-by-step 추론 또는 멀티턴 문제 해결이 필요한 작업
일부 솔루션이 다른 솔루션보다 명확하게 더 나은 여러 개의 유효한 솔루션이 있는 시나리오
여러 목표(정확성, 효율성, 스타일)의 균형을 맞추는 애플리케이션
반복적인 개선, 개인화 또는 복잡한 비즈니스 규칙 준수가 필요한 애플리케이션
실행 결과 또는 성능 지표를 통해 프로그래밍 방식으로 성공을 확인할 수 있는 시나리오
레이블이 지정된 고품질 예제를 수집하는 것이 비싸거나 실용적이지 않은 경우
강화 미세 조정의 이점
-
모델 성능 개선 - 강화 미세 조정은 기본 모델에 비해 모델 정확도를 평균 최대 66% 개선합니다. 이를 통해 더 작고 빠르며 효율적인 모델 변형을 미세 조정하여 가격과 성능을 최적화할 수 있습니다.
-
사용 편의성 - Amazon Bedrock은 강화 미세 조정의 복잡성을 자동화하여 AI 애플리케이션을 구축하는 개발자가 액세스할 수 있도록 합니다. 업로드된 데이터 세트 또는 기존 API 호출 로그를 사용하여 모델을 미세 조정할 수 있습니다. 빠른 설정에 도움이 되는 기본 제공 템플릿을 사용하여 Lambda 또는 model-as-a-judge grader를 사용하여 사용자 지정 코드로 모델 출력을 등급화하는 보상 함수를 정의할 수 있습니다.
-
보안 및 규정 준수 - 사용자 지정 프로세스 중에 독점 데이터가 AWS의 안전하고 관리되는 환경을 벗어나지 않습니다.
강화 미세 조정을 지원하는 모델
다음 표에는 강화 미세 조정으로 사용자 지정할 수 있는 파운데이션 모델이 나와 있습니다.
| 제공업체 | 모델 | 모델 ID | 리전 이름 | 리전 |
|---|---|---|---|---|
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v1:0:256k |
미국 동부(버지니아 북부) |
us-east-1 |
| OpenAI | gpt-oss-20B | openai.gpt-oss-20b | 미국 서부(오리건) | us-west-2 |
| 쿠엔 | Qwen3 32B | qwen.qwen3-32b | 미국 서부(오리건) | us-west-2 |
강화 미세 조정 작동 방식
Amazon Bedrock은 강화 미세 조정 워크플로를 완전히 자동화합니다. 모델은 훈련 데이터 세트로부터 프롬프트를 수신하고 프롬프트당 여러 응답을 생성합니다. 그런 다음 이러한 응답은 보상 함수에 의해 점수가 매겨집니다. Amazon Bedrock은 점수와 함께 프롬프트-응답 페어를 사용하여 그룹 상대 정책 최적화(GRPO)를 사용한 정책 기반 학습을 통해 모델을 훈련합니다. 훈련 루프는 훈련 데이터가 종료되거나 선택한 체크포인트에서 작업을 중지하여 중요한 지표에 최적화된 모델을 생성할 때까지 계속됩니다.
강화 미세 조정 모범 사례
소규모 시작 - 100~200개의 예제로 시작하고, 보상 함수 정확성을 검증하고, 결과에 따라 점진적으로 확장합니다.
미세 조정 전 평가 - 강화 미세 조정 전에 기준 모델 성능을 테스트합니다. 보상이 일관되게 0%인 경우 먼저 지도 미세 조정을 사용하여 기본 기능을 설정합니다. 보상이 95%를 초과하는 경우 강화 미세 조정이 필요하지 않을 수 있습니다.
훈련 모니터링 - 평균 보상 점수 및 분포를 추적합니다. 과적합이 있는지 확인합니다(훈련 보상은 증가하고 검증 보상은 감소함). 0.15 미만으로 정체된 보상, 시간 경과에 따른 보상 차이 증가, 검증 성능 저하와 같은 우려되는 패턴을 찾습니다.
보상 함수 최적화 - 몇 초(분 아님) 내에 실행하고, 외부 API 호출을 최소화하고, 효율적인 알고리즘을 사용하고, 적절한 오류 처리를 구현하고, Lambda의 병렬 조정을 활용합니다.
반복 전략 - 보상이 개선되지 않는 경우 보상 함수 설계를 조정하고, 데이터세트 다양성을 높이고, 대표 예제를 추가하고, 보상 신호가 명확하고 일관적인지 확인합니다.