콘텐츠 도메인 4: 기계 학습 구현 및 운영
작업
작업 4.1: 성능, 가용성, 확장성, 복원성 및 내결함성을 고려한 ML 솔루션 구축
-
AWS 환경 기록 및 모니터링
AWS CloudTrail 및 Amazon CloudWatch
오류 모니터링 솔루션 구축
여러 AWS 리전과 여러 가용 영역에 배포
AMI와 골든 이미지 만들기
Docker 컨테이너 만들기
Auto Scaling 그룹 배포
리소스 크기를 적절하게 조정(예: 인스턴스, 프로비저닝된 IOPS, 볼륨)
로드 밸런싱 수행
AWS 모범 사례 따르기
작업 4.2: 특정 문제에 적합한 ML 서비스 및 기능 권장 사항 및 구현
-
AWS 기반 ML(애플리케이션 서비스), 예:
Amazon Polly
Amazon Lex
Amazon Transcribe
Amazon Q
AWS 서비스 할당량 이해
사용자 지정 모델 구축 시기 및 Amazon SageMaker 기본 제공 알고리즘의 사용 시기 결정
-
AWS 인프라(예: 인스턴스 유형)와 비용 고려 사항 파악
AWS Batch를 사용한 딥 러닝 모델 훈련 스팟 인스턴스 사용
작업 4.3: ML 솔루션에 기본 AWS 보안 사례 적용
AWS Identity and Access Management(AWS IAM)
S3 버킷 정책
보안 그룹
VPC
암호화 및 익명화
작업 4.4: ML 솔루션 배포 및 운영
엔드포인트 노출 및 엔드포인트와 상호 작용
ML 모델 이해
A/B 테스트 수행
파이프라인 재훈련
-
ML 모델 디버깅 및 문제 해결
성능 저하 감지 및 완화
모델 성능 모니터링