View a markdown version of this page

콘텐츠 도메인 2: 탐색적 데이터 분석 - AWS Certified Machine Learning - Specialty

콘텐츠 도메인 2: 탐색적 데이터 분석

작업 2.1: 모델링용 데이터 정제 및 준비

  • 누락 데이터, 손상 데이터, 중단 단어 식별 및 처리

  • 데이터 포맷, 정규화, 강화, 규모 조정

  • 레이블이 지정된 데이터가 충분한지 확인

    • 완화 전략 파악

    • 데이터 라벨링 도구 활용(예: Amazon Mechanical Turk)

작업 2.2: 특성 추출 수행

  • 텍스트, 음성, 이미지, 공개 데이터세트 등의 데이터 소스를 비롯해 데이터세트에서 특성 파악 및 추출

  • 특성 추출 개념 분석 및 평가(예: 묶기, 토큰화, 이상값, 종합 기능, 원-핫 인코딩, 데이터 차원 축소)

작업 2.3: ML용 데이터 분석 및 데이터 시각화

  • 그래프 만들기(예: 산점도, 시계열, 히스토그램, 박스 플롯)

  • 기술적 통계 해석(예: 상관관계, 요약 통계, p 값)

  • 클러스터 분석 수행(예: 계층적 분석, 진단, 엘보 플롯, 클러스터 크기)