View a markdown version of this page

선형 학습자 작동 방식 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

선형 학습자 작동 방식

선형 학습자 알고리즘의 구현에는 사전 처리, 훈련 및 검증의 세 단계가 포함됩니다.

1단계: 사전 처리

정규화 또는 특징 확장은 특정 손실 함수의 중요한 사전 처리 단계이며 데이터 세트에서 학습되는 모델이 단일 특징의 가중치에 따라 관리되지 않게 합니다. Amazon SageMaker AI Linear Learner 알고리즘에는 이 사전 처리 단계를 지원하는 정규화 옵션이 있습니다. 정규화를 사용 중인 경우 알고리즘은 먼저 데이터의 작은 샘플을 검토하여 각 특징 및 레이블의 평균 값과 표준 편차를 학습합니다. 전체 데이터 세트의 각 특징은 0의 평균 값을 갖도록 이동하며 단위 표준 편차를 갖도록 크기가 조정됩니다.

참고

최상의 결과를 얻으려면 훈련 전에 데이터가 섞여 있는지 확인하세요. 섞여 있지 않은 데이터로 훈련하면 실패할 수 있습니다.

Linear Learner 알고리즘이 normalize_datanormalize_label 하이퍼파라미터를 각각 사용하여 특징 데이터 및 레이블을 정규화하는지 여부를 구성할 수 있습니다. 정규화는 특징 및 회귀 레이블에 대해 기본적으로 활성화됩니다. 바이너리 분류에서는 특징만 정규화할 수 있으며 이것이 기본 동작입니다.

2단계: 훈련

Linear Learner 알고리즘을 사용하면 확률 그라디언트 하강(SGD)의 분산 구현을 통해 훈련합니다. 최적화 알고리즘을 선택하여 최적화 프로세스를 제어할 수 있습니다. 예를 들어, Adam, AdaGrad, 확률 그라디언트 하강 또는 기타 최적화 알고리즘을 사용하도록 선택할 수 있습니다. 또한 모멘텀, 학습률 및 학습률 일정 등과 같은 하이퍼파라미터를 지정할 수도 있습니다. 어떤 알고리즘 또는 하이퍼파라미터 값을 사용할지 잘 모르는 경우 대부분 데이터 세트에 작동하는 기본값을 선택합니다.

훈련 중 각 목표가 조금씩 다른 여러 모델을 동시에 최적화합니다. 예를 들어 L1 또는 L2 정규화를 다르게 한 다음 각기 다른 옵티마이저 설정을 시도합니다.

3단계: 검증 및 임곗값 설정

여러 모델을 병렬로 훈련할 때, 훈련이 완료되면 검증 세트에 대해 모델을 평가하여 가장 적합한 모델을 선택합니다. 회귀의 경우 가장 적합한 모델은 검증 세트에서 가장 큰 손실을 얻는 모델입니다. 분류의 경우 검증 세트의 샘플은 분류 임계값을 교정하는 데 사용됩니다. 가장 적합한 모델은 검증 세트에서 가장 높은 바이너리 분류 선택 기준을 충족하는 모델입니다. 이러한 기준의 예에는 F1 측정, 정확도 및 교차 엔트로피 손실이 있습니다.

참고

알고리즘에 검증 세트가 제공되지 않으면 가장 적합한 모델을 평가 및 선택할 수 없습니다. 병렬 훈련 및 모델 선택을 활용하려면 알고리즘에 검증 세트를 제공하세요.