

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 기본 제공 알고리즘에 대한 로그
<a name="common-info-all-sagemaker-models-logs"></a>

Amazon SageMaker AI 알고리즘은 훈련 프로세스 관련 세부 사항을 제공하는 Amazon CloudWatch 로그를 프로덕션합니다. 로그를 보려면 AWS 관리 콘솔에서 **CloudWatch**를 선택하고 **로그**를 선택한 다음 /aws/sagemaker/TrainingJobs **로그 그룹을** 선택합니다. 각 훈련 작업에는 훈련된 노드당 하나의 로그 스트림이 있습니다. 로그 스트림의 이름은 작업 생성 시 `TrainingJobName` 파라미터에 지정된 값으로 시작합니다.

**참고**  
작업이 실패하고 로그가 CloudWatch에 표시되지 않는 경우 훈련 시작 전에 오류가 발생했을 수 있습니다. 이유 중에는 잘못된 훈련 이미지 또는 S3 위치 지정이 있습니다.

로그의 콘텐츠는 알고리즘에 따라 다릅니다. 하지만 일반적으로 다음 정보를 확인할 수 있습니다.
+ 로그 시작 시 제공된 인수의 확인
+ 훈련 도중 발생한 오류
+ 알고리즘 정확도 또는 수치 성능의 측정
+ 알고리즘에 대한 시점 및 알고리즘의 모든 주요 단계

## 일반적인 오류
<a name="example-errors"></a>

훈련 작업이 실패한 경우 훈련 작업 설명의 `FailureReason` 반환 값에 실패에 대한 세부 정보가 제공됩니다.

```
sage = boto3.client('sagemaker')
sage.describe_training_job(TrainingJobName=job_name)['FailureReason']
```

나머지는 CloudWatch 로그에서만 보고됩니다. 일반적인 오류는 다음과 같습니다.

1. 하이퍼파라미터 미지정 또는 알고리즘에 대해 유효하지 않은 하이퍼파라미터 지정.

   **CloudWatch 로그에서**

   ```
   [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48]
   Additional properties are not allowed (u'mini_batch_siz' was
   unexpected)
   ```

1. 하이퍼파라미터에 대한 유효하지 않은 값 지정.

   **FailureReason**

   ```
   AlgorithmError: u'abc' is not valid under any of the given
   schemas\n\nFailed validating u'oneOf' in
   schema[u'properties'][u'feature_dim']:\n    {u'oneOf':
   [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n
   {u'minimum': 1, u'type': u'integer'}]}\
   ```

   **FailureReason**

   ```
   [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc'
   is not valid under any of the given schemas
   ```

1. 정확하지 않은 protobuf 파일 형식.

   **CloudWatch 로그에서**

   ```
   [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot
                      copy sequence with size 785 to array axis with dimension 784
   ```