

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 기준 생성
<a name="model-monitor-create-baseline"></a>

데이터 드리프트 및 기타 데이터 품질 문제를 감지할 수 있는 기준이 되는 표준으로 통계 및 제약 조건의 기준 계산이 필요합니다. 모델 모니터는 CSV 및 플랫 JSON 입력에 대한 제약 조건을 자동으로 제안할 수 있는 기능을 제공하는 내장 컨테이너를 제공합니다. 또한 이 *sagemaker-model-monitor-analyzer* 컨테이너는 기준과 비교한 제약 조건 검증, Amazon CloudWatch 지표 내보내기 등 다양한 모델 모니터링 기능을 제공합니다. 이 컨테이너는 Spark 버전 3.3.0을 기반으로 하며 [Deequ](https://github.com/awslabs/deequ) 버전 2.0.2를 사용하여 구축되었습니다. 기준 데이터세트의 모든 열 이름은 Spark와 호환되어야 합니다. 열 이름의 경우 소문자만 사용하고 특수 문자로는 `_`만 사용하세요.

모델을 훈련하는 데 사용한 훈련 데이터세트는 일반적으로 좋은 기준 데이터세트입니다. 훈련 데이터세트의 데이터 스키마와 추론 데이터세트 스키마는 정확히 일치해야 합니다(기능의 수와 순서). 예측/출력 열(들)은 훈련 데이터세트의 첫 번째 열로 간주됩니다. 훈련 데이터세트에서 일련의 기준 제약 조건을 제안하고 데이터를 탐색하기 위한 기술 통계를 생성하도록 SageMaker AI에 요청할 수 있습니다. 이 예시의 경우 이 예시에 포함된 사전 훈련된 모델을 훈련하는 데 사용된 훈련 데이터세트를 업로드합니다. Amazon S3에 훈련 데이터세트를 이미 저장한 경우 해당 데이터세트를 직접 가리킬 수 있습니다.

**훈련 데이터세트에서 기준을 생성하려면** 

훈련 데이터를 준비하고 Amazon S3에 저장했으면 [Amazon SageMaker Python SDK](https://sagemaker.readthedocs.io/en/stable)를 사용하여 `DefaultModelMonitor.suggest_baseline(..)`으로 기본 처리 작업을 시작합니다. [Amazon SageMaker Model Monitor 사전 구축 컨테이너](model-monitor-pre-built-container.md)를 사용해 기준 통계를 생성하고, 데이터세트에 대한 기준 제약 조건을 제안하고, 사용자가 지정한 `output_s3_uri`위치에 기록합니다.

```
from sagemaker.model_monitor import DefaultModelMonitor
from sagemaker.model_monitor.dataset_format import DatasetFormat

my_default_monitor = DefaultModelMonitor(
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
    volume_size_in_gb=20,
    max_runtime_in_seconds=3600,
)

my_default_monitor.suggest_baseline(
    baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv',
    dataset_format=DatasetFormat.csv(header=True),
    output_s3_uri=baseline_results_uri,
    wait=True
)
```

**참고**  
훈련 데이터세트에 기능/열 이름을 첫 번째 행으로 제공하고 이전 코드 샘플에서와 같이 `header=True` 옵션을 설정하면 SageMaker AI는 제약 조건 및 통계 파일에서 기능 이름을 사용합니다.

데이터세트에 대한 기준 통계는 statistics s.json 파일에 포함되어 있으며, 제안된 기준 제약 조건은 `output_s3_uri`에서 지정한 위치의 constraints.json 파일에 포함되어 있습니다.

테이블 형식 데이터세트 통계 및 제약 조건의 출력 파일


| 파일 이름 | 설명 | 
| --- | --- | 
| statistics.json |  이 파일에는 분석되는 데이터세트의 각 기능에 대한 열 기반 통계가 있어야 합니다. 이 파일의 스키마에 대한 자세한 내용은 [통계에 대한 스키마(statistics.json 파일)](model-monitor-byoc-statistics.md)섹션을 참조하세요.  | 
| constraints.json |  이 파일에는 관찰된 기능에 대한 제약 조건이 있어야 합니다. 이 파일의 스키마에 대한 자세한 내용은 [제약 조건에 대한 스키마(constraints.json 파일)](model-monitor-byoc-constraints.md)섹션을 참조하세요.  | 

[Amazon SageMaker Python SDK](https://sagemaker.readthedocs.io/en/stable)는 기준 통계 및 제약 조건을 생성하기 위해 설명된 편의 기능을 제공합니다. 하지만 이러한 목적을 위해 직접 처리 작업을 호출하려는 경우에는 다음 예시에서와 같이 `Environment`맵을 설정해야 합니다.

```
"Environment": {
    "dataset_format": "{\"csv\”: { \”header\”: true}",
    "dataset_source": "/opt/ml/processing/sm_input",
    "output_path": "/opt/ml/processing/sm_output",
    "publish_cloudwatch_metrics": "Disabled",
}
```