View a markdown version of this page

콘텐츠 도메인 1: 데이터 엔지니어링 - AWS Certified Machine Learning - Specialty

콘텐츠 도메인 1: 데이터 엔지니어링

작업 1.1: ML용 데이터 리포지토리 만들기

  • 데이터 소스 식별(예: 콘텐츠 및 위치, 사용자 데이터와 같은 주요 소스)

  • 스토리지 매체 결정(예: 데이터베이스, Amazon S3, Amazon Elastic File System(Amazon EFS), Amazon Elastic Block Store(Amazon EBS))

작업 1.2: 데이터 수집 솔루션 식별 및 구현

  • 데이터 작업 스타일 및 작업 유형 식별(예: 배치 로드, 스트리밍)

  • 데이터 수집 파이프라인 오케스트레이션(배치 기반 ML 워크로드 및 스트리밍 기반 ML 워크로드)

    • Amazon Kinesis

    • Amazon Data Firehose

    • Amazon EMR

    • AWS Glue

    • Amazon Managed Service for Apache Flink

  • 작업 예약

작업 1.3: 데이터 변환 솔루션 식별 및 구현

  • 전송 중인 데이터 변환(ETL, AWS Glue, Amazon EMR, AWS Batch).

  • MapReduce를 사용하여 ML별로 데이터 처리(예: Apache Hadoop, Apache Spark, Apache Hive)