View a markdown version of this page

지속적 사전 학습(CPT) - Amazon Nova

지속적 사전 학습(CPT)

지속적인 사전 훈련(CPT)은 파운데이션 모델의 사전 훈련 단계를 확장하여 특정 도메인 또는 코포라의 레이블이 지정되지 않은 추가 텍스트에 노출시키는 훈련 기법입니다. 레이블이 지정된 입력-출력 페어가 필요한 지도 미세 조정과 달리, CPT는 원시 문서에서 훈련하여 모델이 새 도메인에 대한 심층적인 지식을 얻고, 도메인별 용어 및 쓰기 패턴을 학습하며, 특정 콘텐츠 유형 또는 주제 영역에 적응할 수 있도록 지원합니다.

이 접근 방식은 법률 문서, 의학 문헌, 기술 문서 또는 독점 비즈니스 콘텐츠와 같은 도메인별 텍스트 데이터가 많고(수백억 개의 토큰)이고 모델이 해당 도메인에서 원어민 수준의 능숙도를 개발하기를 원하는 경우에 특히 유용합니다. 일반적으로 CPT 단계 이후에 모델이 새로 획득한 지식을 사용하고 유용한 태스크를 완료할 수 있도록 추가 명령 조정 단계를 거쳐야 합니다.

지원되는 모델

CPT는 다음과 같은 Amazon Nova 모델에서 사용할 수 있습니다.

  • Nova 1.0(Micro, Lite, Pro)

  • Nova 2.0(Lite)

Nova 1.0 및 Nova 2.0을 사용해야 하는 각각의 경우

Amazon Nova 모델 제품군은 정확도, 속도 및 비용 사이에서 최적화하기 위한 여러 가격 대비 성능 운영 지점을 제공합니다.

다음이 필요한 경우 Nova 2.0을 선택합니다.

  • 복잡한 분석 태스크를 위한 고급 추론 기능

  • 코딩, 수학 및 과학적 문제 해결에 대한 우수한 성능

  • 더 긴 컨텍스트 길이 지원

  • 더 나은 다국어 성능

참고

더 큰 모델이 항상 더 좋은 것은 아닙니다. Nova 1.0 및 Nova 2.0 모델 중에서 선택할 때 비용 대비 성능의 장단점과 특정 비즈니스 요구 사항을 고려합니다.