콘텐츠 도메인 3: 모델링
작업
작업 3.1: 비즈니스 문제를 ML 문제로 규정
ML을 사용해야 하는 경우와 그렇지 않은 경우를 결정
지도 학습과 비지도 학습의 차이점 이해
분류, 회귀, 예측, 클러스터링, 권장 사항, 파운데이션 모델 중에서 선택
작업 3.2: 특정 ML 문제에 적합한 모델 선택
XGBoost, 로지스틱 회귀, K-평균, 선형 회귀, 의사결정 트리, 랜덤 포레스트, RNN, CNN, 앙상블, 전이 학습, 대규모 언어 모델(LLM)
모델 배경을 직관적으로 표현
작업 3.3: ML 모델 훈련
훈련과 검증 간의 데이터 분할(예: 교차 검증)
ML 훈련에 최적화된 기법 파악(예: 경사 하강법, 손실 함수, 수렴)
-
적절한 컴퓨팅 리소스 선택(예: GPU 또는 CPU, 분산 또는 비분산)
적절한 컴퓨팅 플랫폼 선택(Spark 또는 Spark가 아닌 플랫폼)
-
모델 업데이트 및 재훈련
배치 또는 실시간/온라인
작업 3.4: 하이퍼파라미터 최적화 수행
-
정규화 수행
드롭아웃
L1/L2
교차 검증 수행
모델 초기화
신경망 아키텍처(계층 및 노드), 학습률, 활성화 함수 이해
트리 기반 모델 이해(트리 수, 레벨 수)
선형 모델 이해(학습률)
작업 3.5: ML 모델 평가
-
과적합 또는 과소적합 방지
편향과 분산 탐지 및 처리
지표 평가(예: 곡선형 아래 영역(AUC) - 수신기 작동 특성(ROC), 정확도, 정밀도, 재현율, 루트 평균 제곱 오차(RMSE), F1 점수)
혼동 행렬 해석
오프라인 및 온라인 모델 평가 수행(A/B 테스트)
지표를 사용하여 모델 비교(예: 모델 훈련 시간, 모델 품질, 엔지니어링 비용)
교차 검증 수행