

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 다중 모델 엔드포인트 배포에 대한 CloudWatch 지표
<a name="multi-model-endpoint-cloudwatch-metrics"></a>

Amazon SageMaker AI에서는 엔드포인트에 대한 지표를 제공하므로 캐시 적중률, 로드된 모델 수, 다중 모델 엔드포인트에서 로드, 다운로드 및 업로드를 수행하기 위한 모델 대기 시간을 모니터링할 수 있습니다. CPU 및 GPU 지원 다중 모델 엔드포인트의 일부 지표는 다르므로, 다음 섹션에서는 각 유형의 다중 모델 엔드포인트에 사용할 수 있는 Amazon CloudWatch 지표를 설명합니다.

지표에 대한 자세한 내용은 [Amazon CloudWatch의 Amazon SageMaker AI 지표](monitoring-cloudwatch.md)의 **다중 모델 엔드포인트 모델 로드 지표** 및 **다중 모델 엔드포인트 모델 인스턴스 지표**를 참조하세요. 모델별 지표는 지원되지 않습니다.

## CPU 지원 다중 모델 엔드포인트에 대한 CloudWatch 지표
<a name="multi-model-endpoint-cloudwatch-metrics-cpu"></a>

CPU 지원 다중 모델 엔드포인트에서 다음 지표를 모니터링할 수 있습니다.

`AWS/SageMaker` 네임스페이스에는 [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html) 호출을 통해 생성된 다음과 같은 모델 로드 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표의 보존 기간에 대한 자세한 내용은 *Amazon CloudWatch API 참조*의 [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)를 참조하세요.

**다중 모델 엔드포인트 모델 로드 지표**


| 지표 | 설명 | 
| --- | --- | 
| ModelLoadingWaitTime  |  추론을 수행하기 위해 대상 모델이 다운로드되거나, 로드되거나, 다운로드 및 로드될 때까지 호출 요청이 대기한 시간 간격입니다. 단위: 마이크로초  유효 통계: Average, Sum, Min, Max, Sample Count   | 
| ModelUnloadingTime  |  컨테이너의 `UnloadModel` API 직접 호출을 통해 모델을 언로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초  유효 통계: Average, Sum, Min, Max, Sample Count   | 
| ModelDownloadingTime |  Amazon Simple Storage Service(S3)에서 모델을 다운로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count   | 
| ModelLoadingTime  |  컨테이너의 `LoadModel` API 직접 호출을 통해 모델을 로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초  유효 통계: Average, Sum, Min, Max, Sample Count   | 
| ModelCacheHit  |  모델이 이미 로드된 다중 모델 엔드포인트로 전송된 `InvokeEndpoint` 요청 수입니다. 평균 통계는 모델이 이미 로드된 요청의 비율을 보여줍니다. 단위: 없음 유효한 통계: 평균, 합계, 샘플 개수  | 

**Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)**


| 차원 | 설명 | 
| --- | --- | 
| EndpointName, VariantName |  지정된 엔드포인트 및 변환의 `ProductionVariant`에 대한 엔드포인트 호출 지표를 필터링합니다.  | 

`/aws/sagemaker/Endpoints` 네임스페이스에는 [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html) 호출을 통해 생성된 다음과 같은 인스턴스 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표의 보존 기간에 대한 자세한 내용은 *Amazon CloudWatch API 참조*의 [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)를 참조하세요.

**Multi–Model Endpoint Model Instance Metrics(다중 모델 엔드포인트 모델 인스턴스 지표)**


| 지표 | 설명 | 
| --- | --- | 
| LoadedModelCount  |  다중 모델 엔드포인트의 컨테이너에 로드된 모델 수입니다. 이 지표는 인스턴스별로 내보내집니다. 1분의 평균 통계는 인스턴스당 로드된 평균 모델 수를 나타냅니다. 합계 통계는 엔드포인트의 모든 인스턴스에 로드된 총 모델 수를 알려줍니다. 모델이 엔드포인트의 여러 컨테이너에 로드될 수 있기 때문에 이 지표가 추적하는 모델은 고유하지 않을 수 있습니다. 단위: 없음 유효 통계: Average, Sum, Min, Max, Sample Count  | 
| CPUUtilization  |  각 개별 CPU 코어 사용률의 합계. 각 코어 범위의 CPU 사용률은 0–100입니다. 예를 들어 CPU가 4개인 경우 `CPUUtilization` 범위는 0%\$1400%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 CPU 사용률 총합입니다. 단위: 백분율  | 
| MemoryUtilization |  인스턴스의 컨테이너에서 사용하는 메모리의 비율(%)입니다. 이 값 범위는 0%\$1100%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 메모리 사용률 총합입니다. 단위: 백분율  | 
| DiskUtilization |  인스턴스의 컨테이너에서 사용하는 디스크 공간의 비율입니다. 이 값 범위는 0%\$1100%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 디스크 공간 사용률 합계입니다. 단위: 백분율  | 

## GPU 다중 모델 엔드포인트 배포에 대한 CloudWatch 지표
<a name="multi-model-endpoint-cloudwatch-metrics-gpu"></a>

GPU 지원 다중 모델 엔드포인트에서 다음 지표를 모니터링할 수 있습니다.

`AWS/SageMaker` 네임스페이스에는 [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html) 호출을 통해 생성된 다음과 같은 모델 로드 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표의 보존 기간에 대한 자세한 내용은 *Amazon CloudWatch API 참조*의 [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)를 참조하세요.

**다중 모델 엔드포인트 모델 로드 지표**


| 지표 | 설명 | 
| --- | --- | 
| ModelLoadingWaitTime  |  추론을 수행하기 위해 대상 모델이 다운로드되거나, 로드되거나, 다운로드 및 로드될 때까지 호출 요청이 대기한 시간 간격입니다. 단위: 마이크로초  유효 통계: Average, Sum, Min, Max, Sample Count   | 
| ModelUnloadingTime  |  컨테이너의 `UnloadModel` API 직접 호출을 통해 모델을 언로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초  유효 통계: Average, Sum, Min, Max, Sample Count   | 
| ModelDownloadingTime |  Amazon Simple Storage Service(S3)에서 모델을 다운로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초 유효 통계: Average, Sum, Min, Max, Sample Count   | 
| ModelLoadingTime  |  컨테이너의 `LoadModel` API 직접 호출을 통해 모델을 로드하는 데 걸린 시간 간격입니다. 단위: 마이크로초  유효 통계: Average, Sum, Min, Max, Sample Count   | 
| ModelCacheHit  |  모델이 이미 로드된 다중 모델 엔드포인트로 전송된 `InvokeEndpoint` 요청 수입니다. 평균 통계는 모델이 이미 로드된 요청의 비율을 보여줍니다. 단위: 없음 유효한 통계: 평균, 합계, 샘플 개수  | 

**Dimensions for Multi–Model Endpoint Model Loading Metrics(다중 모델 엔드포인트 모델 로드 지표의 차원)**


| 차원 | 설명 | 
| --- | --- | 
| EndpointName, VariantName |  지정된 엔드포인트 및 변환의 `ProductionVariant`에 대한 엔드포인트 호출 지표를 필터링합니다.  | 

`/aws/sagemaker/Endpoints` 네임스페이스에는 [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html) 호출을 통해 생성된 다음과 같은 인스턴스 지표가 포함됩니다.

지표는 1분 간격으로 제공됩니다.

CloudWatch 지표의 보존 기간에 대한 자세한 내용은 *Amazon CloudWatch API 참조*의 [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)를 참조하세요.

**Multi–Model Endpoint Model Instance Metrics(다중 모델 엔드포인트 모델 인스턴스 지표)**


| 지표 | 설명 | 
| --- | --- | 
| LoadedModelCount  |  다중 모델 엔드포인트의 컨테이너에 로드된 모델 수입니다. 이 지표는 인스턴스별로 내보내집니다. 1분의 평균 통계는 인스턴스당 로드된 평균 모델 수를 나타냅니다. 합계 통계는 엔드포인트의 모든 인스턴스에 로드된 총 모델 수를 알려줍니다. 모델이 엔드포인트의 여러 컨테이너에 로드될 수 있기 때문에 이 지표가 추적하는 모델은 고유하지 않을 수 있습니다. 단위: 없음 유효 통계: Average, Sum, Min, Max, Sample Count  | 
| CPUUtilization  |  각 개별 CPU 코어 사용률의 합계. 각 코어 범위의 CPU 사용률은 0\$1100입니다. 예를 들어 CPU가 4개인 경우 `CPUUtilization` 범위는 0%\$1400%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 CPU 사용률 총합입니다. 단위: 백분율  | 
| MemoryUtilization |  인스턴스의 컨테이너에서 사용하는 메모리의 비율(%)입니다. 이 값 범위는 0%\$1100%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 메모리 사용률 총합입니다. 단위: 백분율  | 
| GPUUtilization |  인스턴스의 컨테이너에서 사용하는 GPU 유닛의 비율(%)입니다. 값은 0\$1100 사이가 될 수 있고, GPU의 수를 곱합니다. 예를 들어 GPU가 4개인 경우 `GPUUtilization` 범위는 0%\$1400%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 GPU 사용률 총합입니다. 단위: 백분율  | 
| GPUMemoryUtilization |  인스턴스의 컨테이너에서 사용하는 GPU 메모리의 비율(%)입니다. 값 범위는 0\$1100이고, GPU의 수를 곱합니다. 예를 들어 GPU가 4개인 경우 `GPUMemoryUtilization` 범위는 0%\$1400%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 GPU 메모리 사용률 총합입니다. 단위: 백분율  | 
| DiskUtilization |  인스턴스의 컨테이너에서 사용하는 디스크 공간의 비율입니다. 이 값 범위는 0%\$1100%입니다. 엔드포인트 변환의 경우 이 값은 인스턴스에 있는 기본 및 보조 컨테이너의 디스크 공간 사용률 합계입니다. 단위: 백분율  | 