콘텐츠 도메인 1: 데이터 엔지니어링
작업 1.1: ML용 데이터 리포지토리 만들기
데이터 소스 식별(예: 콘텐츠 및 위치, 사용자 데이터와 같은 주요 소스)
스토리지 매체 결정(예: 데이터베이스, Amazon S3, Amazon Elastic File System(Amazon EFS), Amazon Elastic Block Store(Amazon EBS))
작업 1.2: 데이터 수집 솔루션 식별 및 구현
데이터 작업 스타일 및 작업 유형 식별(예: 배치 로드, 스트리밍)
-
데이터 수집 파이프라인 오케스트레이션(배치 기반 ML 워크로드 및 스트리밍 기반 ML 워크로드)
Amazon Kinesis
Amazon Data Firehose
Amazon EMR
AWS Glue
Amazon Managed Service for Apache Flink
작업 예약
작업 1.3: 데이터 변환 솔루션 식별 및 구현
전송 중인 데이터 변환(ETL, AWS Glue, Amazon EMR, AWS Batch).
MapReduce를 사용하여 ML별로 데이터 처리(예: Apache Hadoop, Apache Spark, Apache Hive)