View a markdown version of this page

관찰성 및 모니터링 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

관찰성 및 모니터링

관찰성은 대규모 이벤트 기반 AI 기반 시스템을 운영하는 데 필수적입니다. 모놀리식 애플리케이션과 달리 서버리스 및 생성형 AI 시스템은 분산되고 상태 비저장되며 임시 컴퓨팅 및 통합 AI 서비스(예: Amazon Bedrock 및 Amazon SageMaker)로 구성됩니다. 이러한 특성에는 가시성, 상관관계 및 책임에 대한 새로운 사고가 필요합니다.

관찰성이 없으면 팀은 다음과 같은 문제에 직면합니다.

  • 실행 및 에이전트 동작의 사각 지대

  • 감지되지 않은 비용 이상 또는 성능 회귀

  • 모델 출력 및 대규모 언어 모델(LLM) 품질에 대한 제한된 인사이트

  • 비동기 워크플로 전반의 근본 원인 분석의 어려움

관찰성은 서버리스 AI의 다음 영역에서 중요한 역할을 합니다.

  • AI 출력 - LLMs은 비결정적입니다. 출력 로깅 및 검사는 시간 경과에 따른 정확성을 검증하는 유일한 방법입니다.

  • 서버리스 실행 - AWS Lambda AWS Step Functions, 및 Amazon EventBridge는 고정 호스트에서 실행되지 않습니다. 모니터링은 서버 기반이 아닌 추적 기반이어야 합니다.

  • 비용 및 지연 시간 - Amazon Bedrock 사용량은 토큰을 기반으로 합니다. Lambda 및 Step Functions는 기간 및 실행당 요금이 부과됩니다.

  • 보안 및 거버넌스 - 프롬프트 로그, 에이전트 도구 사용 및 API 호출을 감사하고 자격 증명 및 역할 컨텍스트로 범위를 지정해야 합니다.

  • 사용자 경험 - 장애, 지연 또는 할루시네이션은 신뢰에 영향을 미칩니다. 이러한 문제를 조기에 감지하는 것은 AI 시스템에 대한 사용자 신뢰도를 유지하는 데 중요합니다.

모니터링할 주요 관찰성 지표

다음 표에서는 관찰성 및 모니터링과 관련된 주요 지표의 중요성을 설명합니다.

지표 범주

지표

지표가 중요한 이유

에이전트 동작

  • 도구 선택 속도

  • 잘못된 도구 호출

의도와 행동 간의 오정렬을 드러냅니다.

비용 추세

사용자 또는 세션당 추론 비용

FinOps 보고 및 계층형 모델 라우팅 결정을 활성화합니다.

호출 지표

  • Lambda 호출

  • 오류율

  • 콜드 스타트

파이프라인 안정성 및 오류 복원력을 검증합니다.

지식 기반 검색

  • 적중률/누락률

  • 근거 관련성 점수

RAG 파이프라인의 성능을 측정합니다.

Latency

모델당 추론 지연 시간

  • Amazon Bedrock 또는 SageMaker에서 속도 저하를 감지합니다.

  • 사용자 응답 시간을 최적화합니다.

프롬프트 및 응답 품질

  • 할루시네이션 비율

  • 폴백 속도

근거가 제대로 작동하고 프롬프트가 예상대로 작동하는지 확인합니다.

보안 및 액세스

IAM 역할별 에이전트 및 도구 사용

최소 권한 및 추적성 원칙을 보장합니다.

토큰 사용량

총 입력 및 출력 토큰(Amazon Bedrock)

  • 비용을 제어합니다.

  • 프롬프트 팽창 또는 모델 오용을 감지합니다.

워크플로 상태

Step Functions 워크플로 실패, 재시도 및 제한 시간

표면 오케스트레이션 문제 및 재시도 루프.

AWS 서비스 서버리스 및 생성형 AI 관찰

다음 표에서는 이상적인 사용 사례를 포함하여 서버리스 및 생성형 AI 애플리케이션의 관찰성을 지원하는 AWS 서비스 및 기능에 대해 설명합니다.

AWS 서비스

설명

이상적인 사용 사례

Amazon CloudWatch Logs

Lambda, Step Functions, Amazon Bedrock Agents 및 Amazon API Gateway에서 로그 캡처

  • 디버깅

  • 감사 추적

  • 사용자 세션 추적

Amazon CloudWatch 지표

호출 수, 기간 및 토큰 수와 같은 사용자 지정 및 서비스 생성 핵심 성과 지표(KPIs)

  • 대시보드 작업

  • 알림

  • 추세 분석

AWS X-Ray

Lambda, API Gateway 및 Step Functions를 포함한 서버리스 흐름 간 추적

  • 근본 원인 분석

  • 지연 시간 추적

  • 종속성 매핑

CloudWatch 임베디드 지표 형식

로그 스트림의 고급 지표에 대한 구조화된 로깅

별도의 지표 호출 없이 분석 활성화

Amazon Bedrock 에이전트 추적모델 호출 로깅

네이티브 Amazon Bedrock Agent 실행 추적, 도구 호출 및 RAG 인사이트

에이전트 동작 모니터링 및 실패 문제 해결

Amazon EventBridge 파이프스키마 레지스트리

파이프라인을 통해 흐르는 이벤트 형식을 추적하고 검증합니다.

  • 잘못된 이벤트 방지

  • 계약 일관성 보장

AWS CloudTrail

모든 API 호출 및 자격 증명 컨텍스트를 로깅합니다.

  • 규정 준수

  • 보안 감사

  • 역할별 에이전트 및 도구 사용

Amazon OpenSearch Service

추론 응답, 구조화된 로그 또는 감사 레코드를 인덱싱합니다.

  • 응답의 의미 체계 검색

  • 관찰성 대시보드

Amazon CloudWatch Synthetics

트래픽을 시뮬레이션하여 엔드포인트 또는 워크플로를 사전에 테스트합니다.

버전 간 가동 시간 및 회귀 모니터링 보장

예: 에이전트 기반 지원 워크플로 모니터링

에이전트 기반 지원 워크플로를 효과적으로 모니터링하려면 관련 워크플로 단계에서 다음 지표를 사용하는 것이 좋습니다.

  1. API Gateway에 대한 사용자 쿼리 - 응답 시간과 5xx 오류를 모니터링합니다.

  2. 프리프로세서 Lambda 함수 - 콜드 스타트 및 구문 분석 실패를 모니터링합니다.

  3. Amazon Bedrock 에이전트 - 프롬프트, 도구 호출 추적, 토큰 비용 및 지연 시간을 모니터링합니다.

  4. 도구 Lambda 함수(예: getOrderStatus) - 사용자당 실행 시간 및 도구 호출 수를 모니터링합니다.

  5. 지식 기반을 통한 RAG 쿼리 - 관련성 점수 및 누락된 근거 모니터링.

  6. 프로세서 후 Lambda 함수 - 스키마 검증 및 폴백 트리거를 모니터링합니다.

  7. CloudWatch 및 OpenSearch 로깅 - 세션 로그, 트레이IDs 및 모델 응답 품질을 모니터링합니다.

  8. 경보 - 높은 장애 발생률, 세션당 비용 급증, 지연 시간 저하에 대한 알림을 모니터링합니다.

관찰성 모범 사례

서버리스 및 생성형 AI 워크플로의 관찰성에 대한 다음 모범 사례를 고려하세요.

  • 구조화된 로그로 AI 흐름을 계측하여 구성 요소(예: 사용자 세션, 트레이스 ID 및 모델 응답) 간의 상관관계를 활성화합니다.

  • 일관된 로깅 스키마를 사용하여 다운스트림 구문 분석, 알림 및 분석 파이프라인을 지원합니다.

  • 계층당 사용자 지정 지표를 내보내면 인프라 문제와 비교하여 모델 관련 오류를 추적할 수 있습니다.

  • 사용자 역할, 리전, 버전 또는 팀별로 필터링할 수 있도록 환경 및 컨텍스트로 로그에 태그를 지정합니다.

  • 이상 탐지 경보를 사용하여 토큰 급증, 지연 시간 급증 또는 출력 드리프트를 탐지합니다.

  • LLM 응답 로그를 다운스트림 영향과 상호 연관시켜 에이전트 출력을 결정, 에스컬레이션 또는 실패에 연결합니다.

  • 프롬프트 비용, 모델 사용량 및 대체율을 사용하여 주간 대시보드를 통해 보고서 생성을 자동화하여 책임 및 개선 주기를 촉진합니다.

관찰성 및 모니터링 요약

AI 기반 서버리스 시스템에서는 호스트를 모니터링하지 않습니다. 대신 동작, 비용 및 정확성을 모니터링합니다. 관찰성은 운영 복원력, 비용 제어 및 예측, LLM 성능 평가, 거버넌스 및 규정 준수, 지속적인 프롬프트 및 에이전트 개선의 기반을 제공합니다.

관찰성 및 모니터링을 AWS 서비스 지원하는 네이티브는 구조화된 이벤트 인식 원격 측정과 함께 필요한 기능을 제공합니다. 이러한 기능을 활용하면 팀은 진행 상황, 위치 및 이유를 파악하여 대규모로 AI 워크로드를 자신 있게 운영할 수 있습니다.