기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 관찰성 및 모니터링
<a name="observability-and-monitoring"></a>

관찰성은 대규모 이벤트 기반 AI 기반 시스템을 운영하는 데 필수적입니다. 모놀리식 애플리케이션과 달리 서버리스 및 생성형 AI 시스템은 분산되고 상태 비저장되며 임시 컴퓨팅 및 통합 AI 서비스(예: Amazon Bedrock 및 Amazon SageMaker)로 구성됩니다. 이러한 특성에는 가시성, 상관관계 및 책임에 대한 새로운 사고가 필요합니다.

관찰성이 없으면 팀은 다음과 같은 문제에 직면합니다.
+ 실행 및 에이전트 동작의 사각 지대
+ 감지되지 않은 비용 이상 또는 성능 회귀
+ 모델 출력 및 대규모 언어 모델(LLM) 품질에 대한 제한된 인사이트
+ 비동기 워크플로 전반의 근본 원인 분석의 어려움

관찰성은 서버리스 AI의 다음 영역에서 중요한 역할을 합니다.
+ **AI 출력** - LLMs은 비결정적입니다. 출력 로깅 및 검사는 시간 경과에 따른 정확성을 검증하는 유일한 방법입니다.
+ **서버리스 실행** - AWS Lambda AWS Step Functions, 및 Amazon EventBridge는 고정 호스트에서 실행되지 않습니다. 모니터링은 서버 기반이 아닌 추적 기반이어야 합니다.
+ **비용 및 지연 시간** - Amazon Bedrock 사용량은 토큰을 기반으로 합니다. Lambda 및 Step Functions는 기간 및 실행당 요금이 부과됩니다.
+ **보안 및 거버넌스** - 프롬프트 로그, 에이전트 도구 사용 및 API 호출을 감사하고 자격 증명 및 역할 컨텍스트로 범위를 지정해야 합니다.
+ **사용자 경험** - 장애, 지연 또는 할루시네이션은 신뢰에 영향을 미칩니다. 이러한 문제를 조기에 감지하는 것은 AI 시스템에 대한 사용자 신뢰도를 유지하는 데 중요합니다.

## 모니터링할 주요 관찰성 지표
<a name="section-observability-key-metrics"></a>

다음 표에서는 관찰성 및 모니터링과 관련된 주요 지표의 중요성을 설명합니다.


| 
| 
| **지표 범주** | **지표** | **지표가 중요한 이유** | 
| --- |--- |--- |
| 에이전트 동작 |   도구 선택 속도   잘못된 도구 호출   | 의도와 행동 간의 오정렬을 드러냅니다. | 
| 비용 추세 | 사용자 또는 세션당 추론 비용 | FinOps 보고 및 계층형 모델 라우팅 결정을 활성화합니다. | 
| 호출 지표 |   Lambda 호출   오류율   콜드 스타트   | 파이프라인 안정성 및 오류 복원력을 검증합니다. | 
| 지식 기반 검색 |   적중률/누락률   근거 관련성 점수   | RAG 파이프라인의 성능을 측정합니다. | 
| Latency | 모델당 추론 지연 시간 |   Amazon Bedrock 또는 SageMaker에서 속도 저하를 감지합니다.   사용자 응답 시간을 최적화합니다.   | 
| 프롬프트 및 응답 품질 |   할루시네이션 비율   폴백 속도   | 근거가 제대로 작동하고 프롬프트가 예상대로 작동하는지 확인합니다. | 
| 보안 및 액세스 | IAM 역할별 에이전트 및 도구 사용 | 최소 권한 및 추적성 원칙을 보장합니다. | 
| 토큰 사용량 | 총 입력 및 출력 토큰(Amazon Bedrock) |   비용을 제어합니다.   프롬프트 팽창 또는 모델 오용을 감지합니다.   | 
| 워크플로 상태 | Step Functions 워크플로 실패, 재시도 및 제한 시간 | 표면 오케스트레이션 문제 및 재시도 루프. | 

## AWS 서비스 서버리스 및 생성형 AI 관찰
<a name="section-observability-aws-services"></a>

다음 표에서는 이상적인 사용 사례를 포함하여 서버리스 및 생성형 AI 애플리케이션의 관찰성을 지원하는 AWS 서비스 및 기능에 대해 설명합니다.


| 
| 
| **AWS 서비스** | **설명** | **이상적인 사용 사례** | 
| --- |--- |--- |
| [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) | Lambda, Step Functions, Amazon Bedrock Agents 및 Amazon API Gateway에서 로그 캡처 |   디버깅   감사 추적   사용자 세션 추적   | 
| [Amazon CloudWatch 지표](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) | 호출 수, 기간 및 토큰 수와 같은 사용자 지정 및 서비스 생성 핵심 성과 지표(KPIs) |   대시보드 작업   알림    추세 분석   | 
| [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) | Lambda, API Gateway 및 Step Functions를 포함한 서버리스 흐름 간 추적 |   근본 원인 분석   지연 시간 추적   종속성 매핑   | 
| [CloudWatch 임베디드 지표 형식](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Embedded_Metric_Format.html) | 로그 스트림의 고급 지표에 대한 구조화된 로깅 | 별도의 지표 호출 없이 분석 활성화 | 
| [Amazon Bedrock 에이전트 추적](https://docs.aws.amazon.com/bedrock/latest/userguide/trace-events.html) 및 [모델 호출 로깅](https://docs.aws.amazon.com/bedrock/latest/userguide/model-invocation-logging.html) | 네이티브 Amazon Bedrock Agent 실행 추적, 도구 호출 및 RAG 인사이트 | 에이전트 동작 모니터링 및 실패 문제 해결 | 
| [Amazon EventBridge 파이프](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-pipes.html) 및 [스키마 레지스트리](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-schema-registry.html) | 파이프라인을 통해 흐르는 이벤트 형식을 추적하고 검증합니다. |   잘못된 이벤트 방지    계약 일관성 보장   | 
| [AWS CloudTrail](https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-user-guide.html) | 모든 API 호출 및 자격 증명 컨텍스트를 로깅합니다. |   규정 준수   보안 감사   역할별 에이전트 및 도구 사용   | 
| [Amazon OpenSearch Service](https://docs.aws.amazon.com/whitepapers/latest/big-data-analytics-options/elasticsearch.html) | 추론 응답, 구조화된 로그 또는 감사 레코드를 인덱싱합니다. |   응답의 의미 체계 검색    관찰성 대시보드   | 
| [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) | 트래픽을 시뮬레이션하여 엔드포인트 또는 워크플로를 사전에 테스트합니다. | 버전 간 가동 시간 및 회귀 모니터링 보장 | 

## 예: 에이전트 기반 지원 워크플로 모니터링
<a name="section-observability-example-workflow"></a>

에이전트 기반 지원 워크플로를 효과적으로 모니터링하려면 관련 워크플로 단계에서 다음 지표를 사용하는 것이 좋습니다.

1. **API Gateway****에 대한 사용자 쿼리 **- 응답 시간과 5xx 오류를 모니터링합니다.

1. **프리프로세서 Lambda 함수 -** 콜드 스타트 및 구문 분석 실패를 모니터링합니다.

1. **Amazon Bedrock 에이전트** - 프롬프트, 도구 호출 추적, 토큰 비용 및 지연 시간을 모니터링합니다.

1. **도구 Lambda 함수**(예: `getOrderStatus`) - 사용자당 실행 시간 및 도구 호출 수를 모니터링합니다.

1. **지식 기반을 통한 RAG 쿼리** - 관련성 점수 및 누락된 근거 모니터링.

1. **프로세서 후 Lambda 함수 -** 스키마 검증 및 폴백 트리거를 모니터링합니다.

1. **CloudWatch 및 OpenSearch 로깅** - 세션 로그, 트레이IDs 및 모델 응답 품질을 모니터링합니다.

1. **경보 **- 높은 장애 발생률, 세션당 비용 급증, 지연 시간 저하에 대한 알림을 모니터링합니다.

## 관찰성 모범 사례
<a name="section-observability-best-practices"></a>

서버리스 및 생성형 AI 워크플로의 관찰성에 대한 다음 모범 사례를 고려하세요.
+ 구조화된 로그로 AI 흐름을 계측하여 구성 요소(예: 사용자 세션, 트레이스 ID 및 모델 응답) 간의 상관관계를 활성화합니다.
+ 일관된 로깅 스키마를 사용하여 다운스트림 구문 분석, 알림 및 분석 파이프라인을 지원합니다.
+ 계층당 사용자 지정 지표를 내보내면 인프라 문제와 비교하여 모델 관련 오류를 추적할 수 있습니다.
+ 사용자 역할, 리전, 버전 또는 팀별로 필터링할 수 있도록 환경 및 컨텍스트로 로그에 태그를 지정합니다.
+ 이상 탐지 경보를 사용하여 토큰 급증, 지연 시간 급증 또는 출력 드리프트를 탐지합니다.
+ LLM 응답 로그를 다운스트림 영향과 상호 연관시켜 에이전트 출력을 결정, 에스컬레이션 또는 실패에 연결합니다.
+ 프롬프트 비용, 모델 사용량 및 대체율을 사용하여 주간 대시보드를 통해 보고서 생성을 자동화하여 책임 및 개선 주기를 촉진합니다.

## 관찰성 및 모니터링 요약
<a name="section-observability-summary"></a>

AI 기반 서버리스 시스템에서는 호스트를 모니터링하지 않습니다. 대신 동작, 비용 및 정확성을 모니터링합니다. 관찰성은 운영 복원력, 비용 제어 및 예측, LLM 성능 평가, 거버넌스 및 규정 준수, 지속적인 프롬프트 및 에이전트 개선의 기반을 제공합니다.

관찰성 및 모니터링을 AWS 서비스 지원하는 네이티브는 구조화된 이벤트 인식 원격 측정과 함께 필요한 기능을 제공합니다. 이러한 기능을 활용하면 팀은 진행 상황, 위치 및 이유를 파악하여 대규모로 AI 워크로드를 자신 있게 운영할 수 있습니다.