

# 콘텐츠 도메인 3: 모델링
<a name="machine-learning-specialty-01-domain3"></a>

**Topics**
+ [작업 3.1: 비즈니스 문제를 ML 문제로 규정](#machine-learning-specialty-01-domain3-task1)
+ [작업 3.2: 특정 ML 문제에 적합한 모델 선택](#machine-learning-specialty-01-domain3-task2)
+ [작업 3.3: ML 모델 훈련](#machine-learning-specialty-01-domain3-task3)
+ [작업 3.4: 하이퍼파라미터 최적화 수행](#machine-learning-specialty-01-domain3-task4)
+ [작업 3.5: ML 모델 평가](#machine-learning-specialty-01-domain3-task5)

## 작업 3.1: 비즈니스 문제를 ML 문제로 규정
<a name="machine-learning-specialty-01-domain3-task1"></a>
+ ML을 사용해야 하는 경우와 그렇지 않은 경우를 결정
+ 지도 학습과 비지도 학습의 차이점 이해
+ 분류, 회귀, 예측, 클러스터링, 권장 사항, 파운데이션 모델 중에서 선택

## 작업 3.2: 특정 ML 문제에 적합한 모델 선택
<a name="machine-learning-specialty-01-domain3-task2"></a>
+ XGBoost, 로지스틱 회귀, K-평균, 선형 회귀, 의사결정 트리, 랜덤 포레스트, RNN, CNN, 앙상블, 전이 학습, 대규모 언어 모델(LLM)
+ 모델 배경을 직관적으로 표현

## 작업 3.3: ML 모델 훈련
<a name="machine-learning-specialty-01-domain3-task3"></a>
+ 훈련과 검증 간의 데이터 분할(예: 교차 검증)
+ ML 훈련에 최적화된 기법 파악(예: 경사 하강법, 손실 함수, 수렴)
+ 적절한 컴퓨팅 리소스 선택(예: GPU 또는 CPU, 분산 또는 비분산)
  + 적절한 컴퓨팅 플랫폼 선택(Spark 또는 Spark가 아닌 플랫폼)
+ 모델 업데이트 및 재훈련
  + 배치 또는 실시간/온라인

## 작업 3.4: 하이퍼파라미터 최적화 수행
<a name="machine-learning-specialty-01-domain3-task4"></a>
+ 정규화 수행
  + 드롭아웃
  + L1/L2
+ 교차 검증 수행
+ 모델 초기화
+ 신경망 아키텍처(계층 및 노드), 학습률, 활성화 함수 이해
+ 트리 기반 모델 이해(트리 수, 레벨 수)
+ 선형 모델 이해(학습률)

## 작업 3.5: ML 모델 평가
<a name="machine-learning-specialty-01-domain3-task5"></a>
+ 과적합 또는 과소적합 방지
  + 편향과 분산 탐지 및 처리
+ 지표 평가(예: 곡선형 아래 영역(AUC) - 수신기 작동 특성(ROC), 정확도, 정밀도, 재현율, 루트 평균 제곱 오차(RMSE), F1 점수)
+ 혼동 행렬 해석
+ 오프라인 및 온라인 모델 평가 수행(A/B 테스트)
+ 지표를 사용하여 모델 비교(예: 모델 훈련 시간, 모델 품질, 엔지니어링 비용)
+ 교차 검증 수행