

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 비동기 엔드포인트에서 지표를 추적하기 위한 경보 및 로그
<a name="async-inference-monitor"></a>

원시 데이터를 수집하여 읽기가 가능하며 실시간에 가까운 지표로 처리하는 Amazon CloudWatch를 통해 SageMaker AI를 모니터링할 수 있습니다. Amazon CloudWatch를 사용하여 기록 정보에 액세스하고 웹 애플리케이션 또는 서비스가 어떻게 실행되고 있는지 전체적으로 더 잘 파악할 수 있습니다. Amazon CloudWatch에 대한 자세한 내용은 [Amazon CloudWatch란 무엇인가요?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)를 참조하세요.

## CloudWatch를 사용하여 모니터링
<a name="async-inference-monitor-cloudwatch"></a>

아래 지표는 `AWS/SageMaker` 네임스페이스에 있는 비동기 엔드포인트에 대한 전체 지표 목록입니다. 엔드포인트에 비동기 추론이 활성화된 경우 아래에 나열되지 않은 모든 지표는 게시되지 않습니다. 이러한 지표에는 다음이 포함되지만 이에 국한되지는 않습니다.
+ OverheadLatency
+ Invocations
+ InvocationsPerInstance

### 일반적인 엔드포인트 지표
<a name="async-inference-monitor-cloudwatch-common"></a>

이러한 지표는 오늘 실시간 엔드포인트에 대해 게시된 지표와 동일합니다. Amazon CloudWatch에 있는 기타 지표에 관한 자세한 내용은 [Amazon CloudWatch로 SageMaker AI 모니터링](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html)을 참조하세요.


| 지표 이름 | 설명 | 단위/통계 | 
| --- | --- | --- | 
| `Invocation4XXErrors` | 모델이 4xx HTTP 응답 코드를 반환하는 요청의 수. 각 4xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다. | 단위: 없음유효한 통계: Average, Sum | 
| `Invocation5XXErrors` | 모델이 5xx HTTP 응답 코드를 반환하는 InvokeEndpoint 요청의 수. 각 5xx 응답에서 1이 전송되고, 그 외의 경우에는 0이 전송됩니다. | 단위: 없음유효한 통계: Average, Sum | 
| `ModelLatency` | SageMaker AI에서 본 모델 응답 시간 간격. 이 간격에는 요청을 전송하고 모델의 컨테이너에서 응답을 가져오는 데 걸리는 로컬 통신 시간과 컨테이너에서 추론을 완료하는 데 걸리는 시간도 포함됩니다. | 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count | 

### 비동기 추론 엔드포인트 지표
<a name="async-inference-monitor-cloudwatch-async"></a>

이러한 지표는 비동기 추론이 활성화된 엔드포인트에 대해 게시됩니다. 다음 지표는 `EndpointName`차원으로 게시됩니다..


| 지표 이름 | 설명 | 단위/통계 | 
| --- | --- | --- | 
| `ApproximateBacklogSize` | 엔드포인트 대기열에 있는 항목 중 현재 처리 중이거나 아직 처리되지 않은 항목 수입니다. | 단위: 개 유효한 통계: 평균, 최대, 최소  | 
| `ApproximateBacklogSizePerInstance` | 대기열에 있는 항목 수를 엔드포인트 뒤의 인스턴스 수로 나눈 값입니다. 이 지표는 주로 비동기 지원 엔드포인트에 대한 애플리케이션 오토 스케일링을 설정하는 데 사용됩니다. | 단위: 개유효한 통계: 평균, 최대, 최소 | 
| `ApproximateAgeOfOldestRequest` | 대기열에 있는 가장 오래된 요청의 보존 기간입니다. | 단위: 초유효한 통계: 평균, 최대, 최소 | 
| `HasBacklogWithoutCapacity` | 대기열에 요청이 있지만 엔드포인트 뒤에 있는 인스턴스가 없을 때 이 지표의 값은 `1`입니다. 다른 모든 경우에는 이 값은 `0`입니다. 이 지표를 사용하면 대기열에서 새 요청을 수신할 때 엔드포인트를 0개 인스턴스에서 오토 스케일링할 수 있습니다. | 단위: 개수유효 통계: Average | 

다음 지표는 `EndpointName` 및 `VariantName`차원으로 게시됩니다..


| 지표 이름 | 설명 | 단위/통계 | 
| --- | --- | --- | 
| `RequestDownloadFailures` | Amazon S3에서 요청을 다운로드하는 중 문제가 발생하여 추론 실패가 발생하는 경우 | 단위: 개유효 통계: Sum | 
| `ResponseUploadFailures` | Amazon S3에 응답을 업로드하는 중 문제가 발생하여 추론 실패가 발생하는 경우 | 단위: 개유효 통계: Sum | 
| `NotificationFailures` | 알림을 게시하는 데 문제가 발생한 경우 | 단위: 개유효 통계: Sum | 
| `RequestDownloadLatency` | 요청 페이로드를 다운로드하는 데 걸린 총 시간입니다. | 단위: 마이크로초유효 통계: Average, Sum, Min, Max, Sample Count | 
| `ResponseUploadLatency` | 응답 페이로드를 업로드하는 데 걸린 총 시간입니다. | 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count | 
| `ExpiredRequests` | 지정된 요청 TTL에 도달하여 실패한 대기열의 요청 수입니다. | 단위: 개유효 통계: Sum | 
| `InvocationFailures` | 어떤 이유로든 호출이 실패한 경우 | 단위: 개유효 통계: Sum | 
| `InvocationsProcesssed` | 엔드포인트에서 처리한 비동기 호출 수 | 단위: 개유효 통계: Sum | 
| `TimeInBacklog` | 요청이 처리되기 전에 대기열에 있었던 총 시간입니다. 여기에는 실제 처리 시간(예: 다운로드 시간, 업로드 시간, 모델 지연 시간)은 포함되지 않습니다. | 단위: 밀리초유효 통계: Average, Sum, Min, Max, Sample Count | 
| `TotalProcessingTime` | SageMaker AI가 추론 요청을 수신하여 요청 처리가 완료될 때까지의 시간입니다. 여기에는 백로그에 소요되는 시간과 응답 알림을 업로드하고 전송하는 시간(있는 경우)이 포함됩니다. | 단위: 밀리초유효 통계: Average, Sum, Min, Max, Sample Count | 

Amazon SageMaker 비동기 추론에는 호스트 수준 지표도 포함됩니다. 호스트 수준 지표에 대한 자세한 내용은 [SageMaker AI Jobs and Endpoint Metrics](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-jobs)를 참조하세요.

## 로그
<a name="async-inference-monitor-logs"></a>

사용자 계정에서 Amazon CloudWatch에 게시되는 [모델 컨테이너 로그](https://docs.aws.amazon.com/sagemaker/latest/dg/logging-cloudwatch.html) 외에도 추론 요청의 추적 및 디버깅을 위한 새로운 플랫폼 로그도 사용할 수 있습니다.

새 로그는 엔드포인트 로그 그룹 아래에 게시됩니다.

```
/aws/sagemaker/Endpoints/[EndpointName]
```

로그 스트림 이름은 다음과 같이 구성됩니다.

```
[production-variant-name]/[instance-id]/data-log.
```

로그 라인에는 요청의 추론 ID가 포함되므로 오류를 특정 요청에 쉽게 매핑할 수 있습니다.