기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
관찰성 및 모니터링
관찰성은 대규모 이벤트 기반 AI 기반 시스템을 운영하는 데 필수적입니다. 모놀리식 애플리케이션과 달리 서버리스 및 생성형 AI 시스템은 분산되고 상태 비저장되며 임시 컴퓨팅 및 통합 AI 서비스(예: Amazon Bedrock 및 Amazon SageMaker)로 구성됩니다. 이러한 특성에는 가시성, 상관관계 및 책임에 대한 새로운 사고가 필요합니다.
관찰성이 없으면 팀은 다음과 같은 문제에 직면합니다.
-
실행 및 에이전트 동작의 사각 지대
-
감지되지 않은 비용 이상 또는 성능 회귀
-
모델 출력 및 대규모 언어 모델(LLM) 품질에 대한 제한된 인사이트
-
비동기 워크플로 전반의 근본 원인 분석의 어려움
관찰성은 서버리스 AI의 다음 영역에서 중요한 역할을 합니다.
-
AI 출력 - LLMs은 비결정적입니다. 출력 로깅 및 검사는 시간 경과에 따른 정확성을 검증하는 유일한 방법입니다.
-
서버리스 실행 - AWS Lambda AWS Step Functions, 및 Amazon EventBridge는 고정 호스트에서 실행되지 않습니다. 모니터링은 서버 기반이 아닌 추적 기반이어야 합니다.
-
비용 및 지연 시간 - Amazon Bedrock 사용량은 토큰을 기반으로 합니다. Lambda 및 Step Functions는 기간 및 실행당 요금이 부과됩니다.
-
보안 및 거버넌스 - 프롬프트 로그, 에이전트 도구 사용 및 API 호출을 감사하고 자격 증명 및 역할 컨텍스트로 범위를 지정해야 합니다.
-
사용자 경험 - 장애, 지연 또는 할루시네이션은 신뢰에 영향을 미칩니다. 이러한 문제를 조기에 감지하는 것은 AI 시스템에 대한 사용자 신뢰도를 유지하는 데 중요합니다.
모니터링할 주요 관찰성 지표
다음 표에서는 관찰성 및 모니터링과 관련된 주요 지표의 중요성을 설명합니다.
지표 범주 |
지표 |
지표가 중요한 이유 |
|---|---|---|
에이전트 동작 |
|
의도와 행동 간의 오정렬을 드러냅니다. |
비용 추세 |
사용자 또는 세션당 추론 비용 |
FinOps 보고 및 계층형 모델 라우팅 결정을 활성화합니다. |
호출 지표 |
|
파이프라인 안정성 및 오류 복원력을 검증합니다. |
지식 기반 검색 |
|
RAG 파이프라인의 성능을 측정합니다. |
Latency |
모델당 추론 지연 시간 |
|
프롬프트 및 응답 품질 |
|
근거가 제대로 작동하고 프롬프트가 예상대로 작동하는지 확인합니다. |
보안 및 액세스 |
IAM 역할별 에이전트 및 도구 사용 |
최소 권한 및 추적성 원칙을 보장합니다. |
토큰 사용량 |
총 입력 및 출력 토큰(Amazon Bedrock) |
|
워크플로 상태 |
Step Functions 워크플로 실패, 재시도 및 제한 시간 |
표면 오케스트레이션 문제 및 재시도 루프. |
AWS 서비스 서버리스 및 생성형 AI 관찰
다음 표에서는 이상적인 사용 사례를 포함하여 서버리스 및 생성형 AI 애플리케이션의 관찰성을 지원하는 AWS 서비스 및 기능에 대해 설명합니다.
AWS 서비스 |
설명 |
이상적인 사용 사례 |
|---|---|---|
Lambda, Step Functions, Amazon Bedrock Agents 및 Amazon API Gateway에서 로그 캡처 |
|
|
호출 수, 기간 및 토큰 수와 같은 사용자 지정 및 서비스 생성 핵심 성과 지표(KPIs) |
|
|
Lambda, API Gateway 및 Step Functions를 포함한 서버리스 흐름 간 추적 |
|
|
로그 스트림의 고급 지표에 대한 구조화된 로깅 |
별도의 지표 호출 없이 분석 활성화 |
|
네이티브 Amazon Bedrock Agent 실행 추적, 도구 호출 및 RAG 인사이트 |
에이전트 동작 모니터링 및 실패 문제 해결 |
|
파이프라인을 통해 흐르는 이벤트 형식을 추적하고 검증합니다. |
|
|
모든 API 호출 및 자격 증명 컨텍스트를 로깅합니다. |
|
|
추론 응답, 구조화된 로그 또는 감사 레코드를 인덱싱합니다. |
|
|
트래픽을 시뮬레이션하여 엔드포인트 또는 워크플로를 사전에 테스트합니다. |
버전 간 가동 시간 및 회귀 모니터링 보장 |
예: 에이전트 기반 지원 워크플로 모니터링
에이전트 기반 지원 워크플로를 효과적으로 모니터링하려면 관련 워크플로 단계에서 다음 지표를 사용하는 것이 좋습니다.
-
API Gateway에 대한 사용자 쿼리 - 응답 시간과 5xx 오류를 모니터링합니다.
-
프리프로세서 Lambda 함수 - 콜드 스타트 및 구문 분석 실패를 모니터링합니다.
-
Amazon Bedrock 에이전트 - 프롬프트, 도구 호출 추적, 토큰 비용 및 지연 시간을 모니터링합니다.
-
도구 Lambda 함수(예:
getOrderStatus) - 사용자당 실행 시간 및 도구 호출 수를 모니터링합니다. -
지식 기반을 통한 RAG 쿼리 - 관련성 점수 및 누락된 근거 모니터링.
-
프로세서 후 Lambda 함수 - 스키마 검증 및 폴백 트리거를 모니터링합니다.
-
CloudWatch 및 OpenSearch 로깅 - 세션 로그, 트레이IDs 및 모델 응답 품질을 모니터링합니다.
-
경보 - 높은 장애 발생률, 세션당 비용 급증, 지연 시간 저하에 대한 알림을 모니터링합니다.
관찰성 모범 사례
서버리스 및 생성형 AI 워크플로의 관찰성에 대한 다음 모범 사례를 고려하세요.
-
구조화된 로그로 AI 흐름을 계측하여 구성 요소(예: 사용자 세션, 트레이스 ID 및 모델 응답) 간의 상관관계를 활성화합니다.
-
일관된 로깅 스키마를 사용하여 다운스트림 구문 분석, 알림 및 분석 파이프라인을 지원합니다.
-
계층당 사용자 지정 지표를 내보내면 인프라 문제와 비교하여 모델 관련 오류를 추적할 수 있습니다.
-
사용자 역할, 리전, 버전 또는 팀별로 필터링할 수 있도록 환경 및 컨텍스트로 로그에 태그를 지정합니다.
-
이상 탐지 경보를 사용하여 토큰 급증, 지연 시간 급증 또는 출력 드리프트를 탐지합니다.
-
LLM 응답 로그를 다운스트림 영향과 상호 연관시켜 에이전트 출력을 결정, 에스컬레이션 또는 실패에 연결합니다.
-
프롬프트 비용, 모델 사용량 및 대체율을 사용하여 주간 대시보드를 통해 보고서 생성을 자동화하여 책임 및 개선 주기를 촉진합니다.
관찰성 및 모니터링 요약
AI 기반 서버리스 시스템에서는 호스트를 모니터링하지 않습니다. 대신 동작, 비용 및 정확성을 모니터링합니다. 관찰성은 운영 복원력, 비용 제어 및 예측, LLM 성능 평가, 거버넌스 및 규정 준수, 지속적인 프롬프트 및 에이전트 개선의 기반을 제공합니다.
관찰성 및 모니터링을 AWS 서비스 지원하는 네이티브는 구조화된 이벤트 인식 원격 측정과 함께 필요한 기능을 제공합니다. 이러한 기능을 활용하면 팀은 진행 상황, 위치 및 이유를 파악하여 대규모로 AI 워크로드를 자신 있게 운영할 수 있습니다.