# 콘텐츠 도메인 3: 모델링 **Topics** + [작업 3.1: 비즈니스 문제를 ML 문제로 규정](#machine-learning-specialty-01-domain3-task1) + [작업 3.2: 특정 ML 문제에 적합한 모델 선택](#machine-learning-specialty-01-domain3-task2) + [작업 3.3: ML 모델 훈련](#machine-learning-specialty-01-domain3-task3) + [작업 3.4: 하이퍼파라미터 최적화 수행](#machine-learning-specialty-01-domain3-task4) + [작업 3.5: ML 모델 평가](#machine-learning-specialty-01-domain3-task5) ## 작업 3.1: 비즈니스 문제를 ML 문제로 규정 + ML을 사용해야 하는 경우와 그렇지 않은 경우를 결정 + 지도 학습과 비지도 학습의 차이점 이해 + 분류, 회귀, 예측, 클러스터링, 권장 사항, 파운데이션 모델 중에서 선택 ## 작업 3.2: 특정 ML 문제에 적합한 모델 선택 + XGBoost, 로지스틱 회귀, K-평균, 선형 회귀, 의사결정 트리, 랜덤 포레스트, RNN, CNN, 앙상블, 전이 학습, 대규모 언어 모델(LLM) + 모델 배경을 직관적으로 표현 ## 작업 3.3: ML 모델 훈련 + 훈련과 검증 간의 데이터 분할(예: 교차 검증) + ML 훈련에 최적화된 기법 파악(예: 경사 하강법, 손실 함수, 수렴) + 적절한 컴퓨팅 리소스 선택(예: GPU 또는 CPU, 분산 또는 비분산) + 적절한 컴퓨팅 플랫폼 선택(Spark 또는 Spark가 아닌 플랫폼) + 모델 업데이트 및 재훈련 + 배치 또는 실시간/온라인 ## 작업 3.4: 하이퍼파라미터 최적화 수행 + 정규화 수행 + 드롭아웃 + L1/L2 + 교차 검증 수행 + 모델 초기화 + 신경망 아키텍처(계층 및 노드), 학습률, 활성화 함수 이해 + 트리 기반 모델 이해(트리 수, 레벨 수) + 선형 모델 이해(학습률) ## 작업 3.5: ML 모델 평가 + 과적합 또는 과소적합 방지 + 편향과 분산 탐지 및 처리 + 지표 평가(예: 곡선형 아래 영역(AUC) - 수신기 작동 특성(ROC), 정확도, 정밀도, 재현율, 루트 평균 제곱 오차(RMSE), F1 점수) + 혼동 행렬 해석 + 오프라인 및 온라인 모델 평가 수행(A/B 테스트) + 지표를 사용하여 모델 비교(예: 모델 훈련 시간, 모델 품질, 엔지니어링 비용) + 교차 검증 수행