

 신규 고객은 Amazon Forecast를 더 이상 사용할 수 없습니다. Amazon Forecast의 기존 고객은 서비스를 정상적으로 계속 사용할 수 있습니다. [자세히 알아보기](https://aws.amazon.com/blogs/machine-learning/transition-your-amazon-forecast-usage-to-amazon-sagemaker-canvas/)

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 데이터 세트 가져오기
<a name="howitworks-datasets-groups"></a>

*데이터 세트*에는 [예측기](howitworks-predictor.md)를 훈련시키는 데 사용되는 데이터가 저장됩니다. 먼저 Amazon Forecast 데이터 세트를 1개 이상 생성한 후 훈련 데이터를 데이터 세트로 가져옵니다. *데이터 세트 그룹*은 시계열에 따라 바뀌는 파라미터 집합을 자세히 설명하는 보완적 데이터 세트 모음입니다. 생성된 데이터 세트 그룹은 예측기를 훈련시키는 데 사용됩니다.

데이터 세트 그룹은 각각 최대 3개까지 데이터 세트를 가질 수 있으며, 이때 각 [데이터 세트](#howitworks-dataset-domainstypes) 유형은 대상 시계열, 관련 시계열 및 항목 메타데이터입니다.

Forecast 데이터 세트 및 데이터 세트 그룹을 생성하고 관리하려면 Forecast 콘솔, AWS Command Line Interface (AWS CLI) 또는 AWS SDK를 사용할 수 있습니다.

Forecast 데이터 세트의 예를 알아보려면 [Amazon Forecast 샘플 GitHub 리포지토리](https://github.com/aws-samples/amazon-forecast-samples)를 참조하세요.

**Topics**
+ [데이터세트](#howitworks-dataset)
+ [데이터 세트 그룹](#howitworks-datasetgroup)
+ [데이터 수집 빈도의 충돌 해결](#howitworks-data-alignment)
+ [관련 시계열 데이터 세트 사용](related-time-series-datasets.md)
+ [항목 메타데이터 데이터 세트 사용](item-metadata-datasets.md)
+ [미리 정의된 데이터 세트 도메인 및 데이터 세트 유형](howitworks-domains-ds-types.md)
+ [데이터 업데이트](updating-data.md)
+ [누락 값 처리](howitworks-missing-values.md)
+ [Forecast 데이터 세트 지침](dataset-import-guidelines-troubleshooting.md)

## 데이터세트
<a name="howitworks-dataset"></a>

Forecast 데이터 세트를 생성하고 관리하려면 [CreateDataset](API_CreateDataset.md) 및 [DescribeDataset](API_DescribeDataset.md) 작업을 포함하여 Forecast API를 사용할 수 있습니다. Forecast API 전체 목록은 [API 참조](api-reference.md)를 참조하세요.

데이터 세트를 생성할 때는 다음과 같은 정보가 필요합니다.
+ 데이터 기록 빈도/간격입니다. 예를 들어 매주 소매 품목 판매를 집계하여 기록할 수도 있습니다. [시작하기](getting-started.md) 연습에서는 시간당 평균 전기 사용량을 사용합니다.
+ 예측 형식(*도메인*)과 데이터 세트 유형(도메인 내). 데이터 세트 도메인은 수행할 예측 유형을 지정하는 반면 데이터 세트 유형은 훈련 데이터를 Forecast 친화적인 범주로 구성하는 데 유용합니다.
+ 데이터 세트 *스키마*입니다. 스키마는 데이터 세트의 열 헤더를 매핑합니다. 예를 들어 수요를 모니터링하면서 여러 매장의 상품 매출에 대한 시간당 데이터를 수집하였다고 가정하겠습니다. 이러한 경우 스키마는 타임스탬프, 위치 및 시간당 매출이 왼쪽에서 오른쪽으로 훈련 데이터 파일에 표시되는 순서를 정의합니다. `string` 또는 `integer` 같이 각 열의 데이터 유형을 정의하기도 합니다.
+ 지리적 위치 및 시간대 정보. 지리적 위치 속성은 속성 유형 `geolocation`과 함께 스키마 내에 정의됩니다. 시간대 정보는 [CreateDatasetImportJob](API_CreateDatasetImportJob.md) 작업을 통해 정의됩니다. [날씨 지수](weather.md)를 사용하려면 지리적 위치와 시간대 데이터가 모두 포함되어야 합니다.

Forecast 데이터 세트의 각 열은 예측 *차원* 또는 *특성*을 나타냅니다. 예측 차원은 시간 경과에 따라 변경되지 않는 데이터의 측면을 설명합니다(예: `store` 또는 `location`). 예측 특징에는 시간 경과에 따라 변경되는 데이터의 모든 파라미터가 포함됩니다(예: `price` 또는 `promotion`). 이러한 차원(예: `timestamp` 또는 `itemId`)은 대상 시계열 및 관련 시계열 데이터 세트에 필요합니다.

### 데이터 세트 도메인 및 데이터 세트 유형
<a name="howitworks-dataset-domainstypes"></a>

Forecast 데이터 세트를 생성할 때 도메인과 데이터 세트 유형을 선택합니다. Forecast는 소매 수요 또는 웹 트래픽 예측과 같은 다양한 사용 사례를 위한 도메인을 제공합니다. 또한 사용자 지정 도메인을 생성할 수도 있습니다. 전체 Forecast 도메인 목록은 [미리 정의된 데이터 세트 도메인 및 데이터 세트 유형](howitworks-domains-ds-types.md)를 참조하세요.

Forecast 사용자는 각 도메인에서 다음과 같은 데이터 세트 유형을 지정할 수 있습니다.
+ 대상 시계열 데이터 세트(필수) - 훈련 데이터가 시계열이고** 예측을 생성하려는 필드를 포함하는 경우 이 데이터 세트 유형을 사용합니다. 이러한 필드를 *타겟 필드*라고 합니다.
+ 관련 시계열 데이터 세트(선택 사항) - 훈련 데이터가 시계열이지만 대상 필드를 포함하지 않는 경우** 이 데이터 세트 유형을 선택합니다. 예를 들어 상품 수요를 예측하는 경우에는 관련 시계열 데이터 세트에 `price` 필드만 있고, `demand` 필드는 없는 경우도 있습니다.
+ 항목 메타데이터 데이터 세트(선택 사항) - 훈련 데이터가 시계열 데이터가 아니지만 **대상 시계열 또는 관련 시계열 데이터 세트의 항목에 대한 메타데이터 정보를 포함하는 경우 이 데이터 세트 유형을 선택합니다. 예를 들어 항목 수요를 예측하는 경우 항목 메타데이터 데이터 세트는 `color` 또는 `brand`를 차원으로 포함할 수 있습니다.

  [CNN-QR](aws-forecast-algo-cnnqr.md) 또는 [DeepAr\$1](aws-forecast-recipe-deeparplus.md) 알고리즘을 사용하는 경우 Forecast는 항목 메타데이터 데이터 세트 유형이 제공하는 데이터만 고려합니다.

  항목 메타데이터는 예측을 수행할 직접적인 과거 데이터가 거의 없지만 유사한 메타데이터 속성을 가진 항목에 대한 과거 데이터가 있는 콜드 부팅 예측 시나리오에 특히 유용합니다. 항목 메타데이터를 포함하면 Forecast는 유사한 시계열을 기반으로 콜드 스타트 예측을 생성하므로 더 정확한 예측을 생성할 수 있습니다.

훈련 데이터의 정보와 예측할 타겟에 따라 데이터 세트를 1개 이상 생성할 수 있습니다.

예를 들어 신발 및 양말과 같은 소매 품목에 대한 수요 예측을 생성한다고 가정하겠습니다. RETAIL 도메인에 다음 데이터 세트를 생성할 수 있습니다.
+ 대상 시계열 데이터 세트 - 소매 항목의 이전 시계열 수요 데이터(`item_id`, `timestamp` 및 대상 필드 `demand`)가 포함됩니다. 예측하려는 타겟 필드를 지정하기 때문에 데이터 세트 그룹에 대상 시계열 데이터 세트가 1개 이상 있어야 합니다.

  그 밖에 다른 차원을 최대 10개까지 대상 시계열 데이터 세트에 추가할 수 있습니다. 데이터 세트 그룹에 대상 시계열 데이터 세트만 있다면 상품 수준 또는 세부적인 예측 차원 수준에서만 예측을 생성할 수 있습니다. 자세한 내용은 [CreatePredictor](API_CreatePredictor.md) 단원을 참조하십시오.
+ 관련 시계열 데이터 세트 - `price` 또는 `revenue` 같이 대상 필드가 아닌 이전 시계열 데이터가 포함됩니다. 관련 시계열 데이터는 대상 시계열 데이터로 매핑될 수 있어야 하기 때문에 각 관련 시계열 데이터 세트에는 식별할 수 있는 필드가 동일하게 포함되어야 합니다. RETAIL 도메인에서는 `item_id`와 `timestamp`가 여기에 해당합니다.

  관련 시계열 데이터 세트에는 대상 시계열 데이터 세트를 사용한 예측을 구체화하는 데이터가 포함될 수 있습니다. 예를 들어 관련 시계열 데이터 세트에 향후 날짜를 기준으로 예측을 생성하려고 하는 `price` 데이터가 포함되기도 합니다. 이를 통해 Forecast가 추가 컨텍스트 차원을 사용하여 예측할 수 있습니다. 자세한 내용은 [관련 시계열 데이터 세트 사용](related-time-series-datasets.md) 단원을 참조하십시오.
+ 항목 메타데이터 데이터 세트 - 소매 항목의 메타데이터를 포함합니다. 메타데이터의 예로는 `brand`, `category`,`color`, `genre` 등이 있습니다.

**예측 차원이 포함된 데이터 세트 예**

위의 예에 이어서 매장의 이전 매출을 기준으로 신발과 양말에 대한 수요를 예측한다고 가정하겠습니다. 아래 대상 시계열 데이터 세트에서 `store`는 시계열 예측 차원인 반면 `demand`는 타겟 필드입니다. 양말은 매장 두 곳(NYC, SFO)에서 판매되지만 신발은 ORD에서만 판매됩니다.

아래 표에서 처음 행 3개에는 NYC, SFO 및 ORD 매장의 첫 유효 매출 데이터가 포함되어 있습니다. 마지막 행 3개에는 각 매장마다 마지막으로 기록된 매출 데이터가 포함되어 있습니다. `...` 행은 첫 번째 항목과 마지막 항목 사이에 기록된 모든 상품 매출 데이터를 나타냅니다.


| `timestamp` | `item_id` | `store` | `demand` | 
| --- | --- | --- | --- | 
| 2019-01-01 | socks | NYC |  25  | 
| 2019-01-05 | socks | SFO | 45 | 
| 2019-02-01 | shoes | ORD | 10 | 
| ... | 
| 2019-06-01 | socks | NYC | 100 | 
| 2019-06-05 | socks | SFO | 5 | 
| 2019-07-01 | shoes | ORD | 50 | 

### 데이터 세트 스키마
<a name="howitworks-dataset-schema"></a>

각 데이터 세트는 스키마가 필요합니다. 여기에서 스키마란 교육 데이터에서 사용자가 입력하는 JSON 매핑을 말합니다. 여기에 데이터 세트에 반드시 추가할 차원 및 특징과 선택적으로 추가할 차원 및 특징이 모두 나열됩니다.

데이터 세트에 지리적 위치 속성이 포함된 경우 속성 유형 `geolocation`을 사용하여 스키마 내에서 속성을 정의하세요. 자세한 내용은 [지리적 위치 정보 추가](weather.md#adding-geolocation)를 참조하세요. [날씨 지수](weather.md)를 적용하려면 대상 시계열 및 모든 관련 시계열 데이터 세트에 지리적 위치 속성을 포함해야 합니다.

일부 도메인에는 선택 사항이지만 추가를 권장하는 차원이 있습니다. 선택적 차원은 본 안내서 후반부에 있는 각 도메인 설명에서 확인할 수 있습니다. 예제는 [RETAIL 도메인](retail-domain.md) 섹션을 참조하세요. 선택적 모든 차원은 데이터 유형 `string`을 사용합니다.

스키마는 모든 데이터 세트에서 필수입니다. 다음은 위의 예제 대상 시계열 데이터 세트에 함께 제공되는 스키마입니다.

```
{
     "attributes": [
        {
           "AttributeName": "timestamp",
           "AttributeType": "timestamp"
        },
        {
           "AttributeName": "item_id",
           "AttributeType": "string"
        },
        {
           "AttributeName": "store",
           "AttributeType": "string"
        },
        {
           "AttributeName": "demand",
           "AttributeType": "float"
        }
    ]
}
```

이 스키마를 사용하는 데이터 세트에 훈련 데이터를 업로드하면 Forecast는 `timestamp` 필드가 열 1, `item_id` 필드가 열 2, `store` 필드가 열 3, `demand` 필드(**대상 필드)가 열 4라고 가정합니다.

관련 시계열 데이터 세트 유형에서는 관련 특징이 모두 부동 소수점 또는 정수 속성 유형을 가져야 합니다. 항목 메타데이터 데이터 세트 유형에서는 모든 특징이 문자열 속성 유형을 가져야 합니다. 자세한 내용은 [SchemaAttribute](API_SchemaAttribute.md) 단원을 참조하십시오.

**참고**  
데이터 세트의 모든 열에 `attributeName` 및 `attributeType` 쌍이 필요합니다. Forecast는 스키마 속성의 이름으로 사용할 수 없는 많은 이름을 예약합니다. 예약된 이름의 목록은 [예약된 필드 이름](reserved-field-names.md) 단원을 참조하십시오.

## 데이터 세트 그룹
<a name="howitworks-datasetgroup"></a>

*데이터 세트 그룹*은 각각 데이터 세트 유형 중 하나인 1\$13개의 무료 데이터 세트 컬렉션입니다. 데이터 세트를 데이터 세트 그룹으로 가져온 후 데이터 세트 그룹을 사용해 예측기를 훈련시킵니다.

Forecast는 데이터 세트 그룹을 생성하고 여기에 데이터 세트를 추가하는 다음 작업을 포함합니다.
+ [CreateDatasetGroup](API_CreateDatasetGroup.md)
+ [UpdateDatasetGroup](API_UpdateDatasetGroup.md)

## 데이터 수집 빈도의 충돌 해결
<a name="howitworks-data-alignment"></a>

Forecast는 [CreateDataset](API_CreateDataset.md) 작업에서 지정한 데이터 빈도에 맞지 않는 데이터로 예측기를 훈련할 수 있습니다. 예를 들어 데이터 일부가 정시 타임스탬프가 지정되어 있지 않았더라도(02:20, 02:45) 시간 간격으로 기록된 데이터를 가져올 수 있습니다. Forecast는 사용자가 지정한 데이터 빈도를 사용하여 데이터에 대해 학습합니다. 그런 다음 Forecast는 예측기 훈련 중에 데이터를 집계합니다. 자세한 내용은 [다양한 예측 빈도의 데이터 집계](data-aggregation.md)을 참조하세요.

# 관련 시계열 데이터 세트 사용
<a name="related-time-series-datasets"></a>

관련 시계열 데이터 세트에는 대상 시계열 데이터 세트에 없지만 예측기의 정확성을 개선할 수 있는 시계열 데이터가 추가됩니다.

예를 들어 수요 예측 도메인의 경우 대상 시계열 데이터 세트에 `timestamp` 및 `item_id` 차원이 포함될 수 있지만 보완적 데이터 세트인 관련 시계열에도 보충 특징인 `item price`, `promotion` 및 `weather`가 포함됩니다.

관련 시계열 데이터 세트에는 최대 10개의 예측 차원(대상 시계열 데이터 세트와 동일)과 최대 13개의 관련 시계열 특징이 포함될 수 있습니다.

**Python 노트북**  
관련 시계열 데이터 세트를 사용하는 방법에 대한 단계별 안내는 [관련 시계열 통합](https://github.com/aws-samples/amazon-forecast-samples/blob/master/notebooks/advanced/Incorporating_Related_Time_Series_dataset_to_your_Predictor/Incorporating_Related_Time_Series_dataset_to_your_Predictor.ipynb)을 참조하세요.

**Topics**
+ [과거 및 미래 예측 관련 시계열](#related-time-series-historical-futurelooking)
+ [관련 시계열 데이터 세트 검증](#related-time-series-dataset-validation)
+ [예: 미래 예측 관련 시계열 파일](#related-time-series-example)
+ [예: 예측 세부 수준](#related-time-series-granularity)
+ [레거시 예측기 및 관련 시계열](#related-time-series-legacy)

## 과거 및 미래 예측 관련 시계열
<a name="related-time-series-historical-futurelooking"></a>

**참고**  
 예측 기간 내의 값을 포함하는 관련 시계열은 미래 예측 시계열로 취급됩니다.

 관련 시계열의 형식은 다음 두 가지입니다.
+  **과거 시계열**: 예측 기간 내에 데이터 포인트가 **없는 시계열.
+  **미래 예측 시계열**: 예측 기간 내에 데이터 포인트가 **있는 시계열.

과거 관련 시계열에는 예측 기간까지의 데이터 포인트가 포함되며, 예측 기간 내의 데이터 포인트는 포함되지 않습니다. 미래 예측 관련 시계열에는 예측 기간까지의 데이터 포인트와 **예측 기간 내의 데이터 포인트가 포함됩니다.

![\[Time series graph showing target, forward-looking, and historical related data with forecast window.\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/short-long-rts.png)


## 관련 시계열 데이터 세트 검증
<a name="related-time-series-dataset-validation"></a>

관련 시계열 데이터 세트는 다음과 같은 제약이 따릅니다.
+ 대상 시계열의 타겟 값을 추가할 수 없습니다.
+ `item_id` 및 `timestamp` 차원과 하나 이상의 관련 기능(예: `price`)을 포함해야 합니다.
+ 관련 시계열 기능 데이터의 데이터 형식은 `int` 또는 `float`여야 합니다.
+ 전체 대상 시계열을 사용하려면 대상 시계열 데이터 세트의 모든 항목도 관련 시계열 데이터 세트에 포함되어야 합니다. 관련 시계열에 대상 시계열의 하위 집합만 포함된 경우 모델 생성과 예측 생성은 해당 특정 항목 하위 집합으로 제한됩니다.

   예를 들어 대상 시계열에 1,000개의 항목이 있고 관련 시계열 데이터 세트에 100개 항목만 포함된 경우, 모델 및 예측은 이 100개 항목만 기반으로 합니다.
+ 관련 시계열 데이터 세트에서 데이터가 기록되는 빈도는 예측을 생성할 간격(예측 세부 수준**)과 일치해야 합니다.

  예를 들어 주 단위의 세부 수준으로 예측을 생성하려는 경우 대상 시계열의 데이터 기록 빈도가 일 단위라고 해도 관련 시계열의 데이터 기록 빈도 역시 주 단위가 되어야 합니다.
+ 관련 시계열 데이터 세트의 각 상품 데이터는 대상 시계열 데이터 세트에서 해당하는 `item_id`의 시작 `timestamp`와 동일하게, 혹은 그 이전에 시작되어야 합니다.

  예를 들어 `socks`의 대상 시계열 데이터가 2019-01-01에, 그리고 `shoes`의 대상 시계열 데이터가 2019-02-01에 시작된다고 가정한다면 `socks`의 관련 시계열 데이터는 2019-01-01 또는 그 이전에, 그리고 `shoes`의 데이터는 2019-02-01 또는 그 이전에 시작되어야 합니다.
+ 미래 예측 관련 시계열 데이터 세트의 경우, 모든 항목의 마지막 타임스탬프는 사용자가 지정하는 예측 구간(*예측 기간*이라고 함)의 마지막 타임스탬프여야 합니다.

  아래 관련 시계열 파일 예에서 양말과 신발의 `timestamp` 데이터는 2019-07-01(마지막에 기록된 타임스탬프) \$1** 예측 구간 또는 그 이후에 종료되어야 합니다. 대상 시계열의 데이터 빈도가 일 단위이고, 예측 구간이 10일이라고 가정할 경우 미래 예측 관련 시계열 파일에서 일별 데이터 포인트를 2019-07-11까지 제공해야 합니다.
+ 과거 관련 시계열 데이터 세트의 경우 모든 항목의 마지막 타임스탬프가 대상 시계열의 마지막 타임스탬프와 일치해야 합니다.

  아래 관련 시계열 파일 예에서 양말과 신발의 `timestamp` 데이터는 2019-07-01(마지막으로 기록된 타임스탬프)에 끝나야 합니다.
+ 관련 시계열 데이터 세트에서 제공되는 Forecast 차원 수는 대상 시계열 데이터 세트에서 지정되는 차원의 하위 집합보다 작거나 같아야 합니다.
+  관련 시계열에 누락된 값이 있으면 안 됩니다. 관련 시계열 데이터 세트에서 누락된 값에 대한 자세한 내용은 [누락 값 처리](howitworks-missing-values.md)를 참조하세요.

## 예: 미래 예측 관련 시계열 파일
<a name="related-time-series-example"></a>

다음 표는 올바르게 구성된 관련 시계열 데이터 세트 파일을 나타낸 것입니다. 이번 예에서는 다음과 같이 가정합니다.
+ 마지막 데이터 포인트는 2019-07-01에 대상 시계열 데이터 세트에 기록되었습니다.
+  예측 구간은 10일입니다.
+ 예측 세부 수준은 일 단위(`D`)입니다.

"`…`" 행은 이전 행과 이후 행 사이에 존재하는 모든 데이터 포인트를 가리킵니다.


| `timestamp` | `item_id` | `store` | `price` | 
| --- | --- | --- | --- | 
| 2019-01-01 | 양말 | NYC | 10 | 
| 2019-01-02 | 양말 | NYC | 10 | 
| 2019-01-03 | 양말 | NYC | 15 | 
| ... | 
| 2019-06-01 | 양말 | NYC | 10 | 
| ... | 
| 2019-07-01 | 양말 | NYC | 10 | 
| ... | 
| 2019-07-11 | 양말 | NYC | 20 | 
| 2019-01-05 | 양말 | SFO | 45 | 
| ... | 
| 2019-06-05 | 양말 | SFO | 10 | 
| ... | 
| 2019-07-01 | 양말 | SFO | 10 | 
| ... | 
| 2019-07-11 | 양말 | SFO | 30 | 
| 2019-02-01 | 신발 | ORD | 50 | 
| ... | 
| 2019-07-01 | 신발 | ORD | 75 | 
| ... | 
| 2019-07-11 | 신발 | ORD | 60 | 

## 예: 예측 세부 수준
<a name="related-time-series-granularity"></a>

다음 표는 주 단위로 예측을 생성할 때 대상 시계열과 관련 시계열의 데이터 기록 빈도가 서로 양립 가능한 것을 나타냅니다. 이때 Forecast는 관련 시계열 데이터 세트의 데이터를 집계할 수 없기 때문에 선택한 예측 세분 수준과 동일한 관련 시계열 데이터 빈도만 허용합니다.


| 대상 입력 데이터 빈도 | 관련 시계열 빈도 | 예측 세부 수준 | Forecast에서 지원? | 
| --- | --- | --- | --- | 
| 일별 | 주별 | 주별 | 예 | 
| 주별 | 주별 | 주별 | 예 | 
| 해당 사항 없음 | 주별 | 주별 | 예 | 
| 일별 | 일별 | 주별 | 아니요 | 

## 레거시 예측기 및 관련 시계열
<a name="related-time-series-legacy"></a>

**참고**  
기존 예측기를 AutoPredictor로 업그레이드하려면 [AutoPredictor로 업그레이드](howitworks-predictor.md#upgrading-autopredictor)를 참조하세요.

레거시 예측기를 사용하는 경우 [CNN-QR](aws-forecast-algo-cnnqr.md), [DeepAR\$1](aws-forecast-recipe-deeparplus.md), [Prophet](aws-forecast-recipe-prophet.md) 알고리즘을 사용하여 예측기를 훈련할 때 관련 시계열 데이터 세트를 사용할 수 있습니다. [NPTS](aws-forecast-recipe-npts.md), [ARIMA](aws-forecast-recipe-arima.md), [ETS](aws-forecast-recipe-ets.md)는 관련 시계열 데이터를 허용하지 않습니다.

다음 표는 각 Amazon Forecast 알고리즘이 허용하는 관련 시계열 유형을 보여줍니다.


|  | CNN-QR | DeepAR\$1 | Prophet | NPTS | ARIMA | ETS | 
| --- | --- | --- | --- | --- | --- | --- | 
|  과거 관련 시계열  | ![\[Yes\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-yes.png)  | ![\[No\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-no.png)  | 
|  미래 예측 관련 시계열  | ![\[Yes\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-yes.png)  | ![\[Yes\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-yes.png)  | ![\[Yes\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-yes.png)  | ![\[No\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/icon-no.png)  | 

 AutoML을 사용하는 경우 과거 관련 시계열 데이터와 미래 예측 관련 시계열 데이터를 모두 제공할 수 있으며, Forecast는 해당하는 경우에만 해당 시계열을 사용합니다.

 *미래 예측* 관련 시계열 데이터를 제공하는 경우 Forecast는 CNN-QR, DeepAR\$1, Prophet에서 관련 데이터를 사용하고 NPTS, ARIMA, ETS에서는 관련 데이터를 사용하지 않습니다. *과거* 관련 시계열 데이터를 제공하는 경우 Forecast는 CNN-QR에서 관련 데이터를 사용하고, DeepAr\$1, Prophet, NPTS, ARIMA, ETS에서는 관련 데이터를 사용하지 않습니다.

# 항목 메타데이터 데이터 세트 사용
<a name="item-metadata-datasets"></a>

*항목 메타데이터 데이터 세트*에는 대상 시계열 데이터 세트의 항목에 대한 중요한 컨텍스트를 제공하는 범주형 데이터가 포함됩니다. 관련 시계열 데이터 세트와 달리 항목 메타데이터 데이터 세트는 정적 정보를 제공합니다. 즉, 데이터 값은 항목의 색상이나 브랜드와 같이 시간이 지남에 따라 일정하게 유지됩니다. 항목 메타데이터 데이터 세트는 데이터 세트 그룹에 선택적으로 추가할 수 있습니다. 대상 시계열 데이터 세트의 모든 항목이 해당 항목 메타데이터 데이터 세트에 있는 경우에만 항목 메타데이터를 사용할 수 있습니다.

항목 메타데이터에는 특정 항목의 브랜드, 색상, 모델, 범주, 출처 또는 기타 보충 기능이 포함될 수 있습니다. 예를 들어, 항목 메타데이터 데이터 세트는 32GB의 스토리지를 갖춘 블랙 Amazon e-리더의 판매를 나타내는 대상 시계열 데이터 세트에 있는 일부 수요 데이터에 대한 컨텍스트를 제공할 수 있습니다. 이러한 특성은 매일 또는 매시간마다 변경되지 않으므로 항목 메타데이터 데이터 세트에 속합니다.

항목 메타데이터는 시계열 데이터에서 설명 패턴을 검색하고 추적하는 데 유용합니다. 데이터 세트 그룹에 항목 메타데이터 데이터 세트를 포함하는 경우 Forecast는 항목 간의 유사성을 기반으로 더욱 정확한 예측을 하도록 모델을 훈련할 수 있습니다. 예를 들어, Amazon에서 만든 가상 보조 제품이 다른 회사에서 만든 제품보다 매진될 가능성이 더 높으며 이에 따라 공급망을 계획할 수 있습니다.

항목 메타데이터는 예측을 수행할 직접적인 과거 데이터가 없지만 유사한 메타데이터 속성을 가진 항목에 대한 과거 데이터가 있는 콜드 스타트 예측 시나리오에 특히 유용합니다. 항목 메타데이터를 사용하면 Forecast는 콜드 스타트 항목과 유사한 항목을 활용하여 예측을 생성할 수 있습니다.

항목 메타데이터를 포함하면 Forecast는 유사한 시계열을 기반으로 콜드 스타트 예측을 생성하므로 더 정확한 예측을 생성할 수 있습니다. 콜드 스타트 예측은 항목 메타데이터 데이터 세트에는 있지만 후행 시계열에는 없는 항목에 대해 생성됩니다. 먼저 Forecast는 콜드 스타트가 아닌 항목, 즉 후행 시계열에 과거 데이터가 있는 항목에 대한 예측을 생성합니다. 그런 다음 항목 메타데이터 데이터 세트를 사용하여 각 콜드 스타트 항목의 가장 가까운 이웃을 찾습니다. 그런 다음 이러한 가장 가까운 이웃을 사용하여 콜드 스타트 예측을 생성합니다.

항목 메타데이터 데이터 세트의 각 행에는 최대 10개의 메타데이터 필드가 포함될 수 있으며, 그 중 하나는 메타데이터를 대상 시계열의 항목과 일치시키기 위한 식별 필드여야 합니다. 모든 데이터 세트 유형과 마찬가지로 각 필드의 값은 데이터 세트 스키마에 의해 지정됩니다.

**Python 노트북**  
항목 메타데이터 사용에 대한 단계별 안내는 [항목 메타데이터 통합](https://github.com/aws-samples/amazon-forecast-samples/blob/master/notebooks/advanced/Incorporating_Item_Metadata_Dataset_to_your_Predictor/Incorporating_Item_Metadata_Dataset_to_your_Predictor.ipynb)을 참조하세요.

**Topics**
+ [예: 항목 메타데이터 파일 및 스키마](#item-metadata-example)
+ [레거시 예측기 및 항목 메타데이터](#item-metadata-legacy)
+ [참고](#item-metadata-see-also)

## 예: 항목 메타데이터 파일 및 스키마
<a name="item-metadata-example"></a>

다음 표에는 Amazon e-리더를 설명하는 올바르게 구성된 항목 메타데이터 데이터 세트 파일의 섹션이 나와 있습니다. 이 예에서는 헤더 행이 데이터 세트의 스키마를 나타내고, 나열된 각 항목이 해당 대상 시계열 데이터 세트에 있다고 가정합니다.


| `item_id` | `brand` | `model` | `color` | `waterproof` | 
| --- | --- | --- | --- | --- | 
| 1 | Amazon | paperwhite | black | yes | 
| 2 | Amazon | paperwhite | .blue | yes | 
| 3 | Amazon | base\$1model | black | 아니요 | 
| 4 | Amazon | base\$1model | white | 아니요 | 
| ... | 

다음은 CSV 형식으로 표시되는 것과 동일한 정보입니다.

```
1,amazon,paperwhite,black,yes
2,amazon,paperwhite,blue,yes
3,amazon,base_model,black,no
4,amazon,base_model,white,no
...
```

다음은 이 데이터 세트 예제에 대한 스키마입니다.

```
{
     "attributes": [
        {
           "AttributeName": "item_id",
           "AttributeType": "string"
        },
        {
           "AttributeName": "brand",
           "AttributeType": "string"
        },
        {
           "AttributeName": "model",
           "AttributeType": "string"
        },
        {
           "AttributeName": "color",
           "AttributeType": "string"
        },
        {
           "AttributeName": "waterproof",
           "AttributeType": "string"
        }
    ]
}
```

## 레거시 예측기 및 항목 메타데이터
<a name="item-metadata-legacy"></a>

**참고**  
기존 예측기를 AutoPredictor로 업그레이드하려면 [AutoPredictor로 업그레이드](howitworks-predictor.md#upgrading-autopredictor)를 참조하세요.

레거시 예측기를 사용하는 경우 [CNN-QR](aws-forecast-algo-cnnqr.md) 또는 [DeepAR\$1](aws-forecast-recipe-deeparplus.md) 알고리즘으로 예측기를 훈련할 때 항목 메타데이터를 사용할 수 있습니다. AutoML을 사용하는 경우 항목 메타데이터를 제공할 수 있으며, Forecast는 해당하는 경우에만 해당 시계열을 사용합니다.

## 참고
<a name="item-metadata-see-also"></a>

항목 메타데이터 데이터 세트 사용에 대한 자세한 내용은 [Amazon Forecast Samples GitHub 리포지토리](https://github.com/aws-samples/amazon-forecast-samples)의 [예측기에 항목 메타데이터 데이터 세트 통합](https://github.com/aws-samples/amazon-forecast-samples/blob/master/notebooks/advanced/Incorporating_Item_Metadata_Dataset_to_your_Predictor/Incorporating_Item_Metadata_Dataset_to_your_Predictor.ipynb)을 참조하세요.

# 미리 정의된 데이터 세트 도메인 및 데이터 세트 유형
<a name="howitworks-domains-ds-types"></a>

예측기를 교육하려면 하나 이상의 데이터 세트를 생성하여 데이터 세트 그룹에 추가하고 교육용 데이터 세트를 제공하십시오.

생성한 각 데이터 세트에 대해 데이터 세트 도메인과 데이터 세트 유형을 연결합니다. *데이터 세트 도메인*은 일반 사용 사례에 대해 미리 정의된 데이터 세트 스키마를 지정하며 모델 알고리즘 또는 하이퍼파라미터에는 영향을 주지 않습니다.

Amazon Forecast는 다음 데이터 세트 도메인을 지원합니다.
+ [RETAIL 도메인](retail-domain.md) - 소매 수요 예측
+ [INVENTORY\$1PLANNING 도메인](inv-planning-domain.md) - 공급망 및 재고 계획 수립
+ [EC2 CAPACITY 도메인](ec2-capacity-domain.md) - Amazon Elastic Compute Cloud(Amazon EC2) 용량 예측 
+ [WORK\$1FORCE 도메인](workforce-domain.md) - 인력 계획 
+ [WEB\$1TRAFFIC 도메인](webtraffic-domain.md) - 향후 웹 트래픽 예측 
+ [METRICS 도메인](metrics-domain.md) - 수익 및 현금 흐름과 같은 지표 예측
+ [CUSTOM 도메인](custom-domain.md) - 기타 모든 유형의 시계열 예측

각 도메인에 대해 1 - 3개의 *데이터 세트 유형*이 있습니다. 도메인용으로 생성하는 데이터 세트 유형은 보유한 데이터 유형과 교육에 포함하려는 유형에 따라 다릅니다.

각 도메인에는 대상 시계열 데이터 세트가 필요하며 선택적으로 관련 시계열 및 항목 메타데이터 세트 데이터 세트 유형을 지원합니다.

데이터 세트 유형은 다음과 같습니다.
+ 대상 시계열 - 유일한 필수 데이터 세트 유형입니다. 이 유형은 예측을 생성하려는 *대상* 필드입니다. 예를 들어 일련의 제품에 대한 판매량을 예상하려면 각 제품에 대한 과거 시계열 데이터의 데이터 세트를 생성해야 합니다. 이와 마찬가지로 예측할 수익, 현금 흐름, 판매 같은 지표에 대해 대상 시계열 데이터 세트를 생성할 수 있습니다.
+ 관련 시계열 - 대상 시계열 데이터와 관련된 시계열 데이터입니다. 예를 들어, 가격은 제품 판매 데이터와 관련되어 있으므로 관련 시계열로 제공할 수 있습니다.
+ 항목 메타데이터 - 대상 시계열 데이터에 적용할 수 있는 메타데이터입니다. 예를 들어 특정 제품의 판매를 예측하는 경우 브랜드, 색상, 장르와 같은 제품의 속성이 항목 메타데이터의 일부가 됩니다. EC2 인스턴스의 EC2 용량을 예측할 때 메타데이터에는 인스턴스 유형의 CPU 및 메모리가 포함될 수 있습니다.

각 데이터 세트 유형에 대해 입력 데이터에는 일정한 필수 필드가 포함되어야 합니다. Amazon Forecast에서 제안하는 선택적 필드를 포함할 수도 있습니다.

다음 예제에서는 데이터 세트 도메인 및 해당 데이터 세트 유형을 선택하는 방법을 보여줍니다.

**Example 예제 1: RETAIL 도메인의 데이터 세트 유형**  
품목에 대한 수요 예측에 관심이 있는 소매업체인 경우 RETAIL 도메인에 다음 데이터 세트를 생성할 수 있습니다.  
+ 대상 시계열은 각 항목(소매업체가 판매하는 각 제품)에 대한 과거 시계열 수요(판매) 데이터의 필수 데이터 세트입니다. RETAIL 도메인에서 이 데이터 세트 유형은 데이터 세트에 `item_id`, `timestamp` 및 `demand` 필드가 포함되어야 합니다. `demand` 필드는 예측 대상이며 일반적으로 특정 주 또는 요일에 소매업체가 판매하는 품목의 수입니다.
+ 선택적으로 관련 시계열 유형의 데이터 세트입니다. RETAIL 도메인에서 이 유형은 `price`, `inventory_onhand` 및, `webpage_hits`와 같이 선택적이지만 제안하는 시계열 정보를 포함할 수 있습니다.
+ 선택적으로 항목 메타데이터 유형의 데이터 세트입니다. RETAIL 도메인에서 Amazon Forecast는 대상 시계열에서 제공한 항목(예: `brand`, `color`, `category` 및 `genre`)과 관련된 메타데이터 정보를 제공할 것을 제안합니다.

**Example 예제 2: METRICS 도메인의 데이터 세트 유형**  
수익, 판매, 현금 흐름과 같은 조직의 주요 지표를 예측하려는 경우 Amazon Forecast에 다음 데이터 세트를 제공할 수 있습니다.  
+ 예측하려는 지표에 대한 과거 시계열 데이터를 제공하는 대상 시계열 데이터 세트입니다. 조직의 모든 비즈니스 단위의 수익을 예상하려는 경우 `metric`, `business unit` 및 `metric_value` 필드로 `target time series` 데이터 세트를 생성할 수 있습니다.
+ `category` 또는 `location`와 같이 각 지표에 대해 메타데이터가 필요하지 않은 경우 관련 시계열 및 항목 메타데이터 유형의 데이터 세트를 제공할 수 있습니다.
Forecast가 대상 지표에 대한 예측을 생성하려면 최소한 대상 시계열 데이터 세트를 제공해야 합니다.

**Example 예제 3: CUSTOM 도메인의 데이터 세트 유형**  
예상 애플리케이션의 교육 데이터는 Amazon Forecast 도메인에 적합하지 않을 수도 있습니다. 이 경우 CUSTOM 도메인을 선택하십시오. 대상 시계열 데이터 세트를 제공해야 하지만 자신만의 사용자 지정 필드를 추가할 수 있습니다.  
[시작하기](getting-started.md) 연습에서는 클라이언트의 전기 사용량을 예상합니다. 전기 사용량 교육 데이터는 데이터 세트 도메인에 맞지 않으므로 CUSTOM 도메인을 사용했습니다. 이 연습에서는 대상 시계열 유형의 데이터 세트 유형 하나만 사용합니다. 데이터 필드를 데이터 세트 유형에 필요한 최소 필드에 매핑합니다.

# RETAIL 도메인
<a name="retail-domain"></a>

RETAIL 도메인이 지원하는 데이터 세트 유형은 다음과 같습니다. 각 데이터 세트 유형에 대해 필수 필드와 선택 사항 필드를 나열합니다. 교육 데이터의 열에 필드를 매핑하는 방법에 대한 자세한 내용은 [데이터 세트 도메인 및 데이터 세트 유형](howitworks-datasets-groups.md#howitworks-dataset-domainstypes)를 참조하십시오.

**Topics**
+ [대상 시계열 데이터 세트 유형](#target-time-series-type-retail-domain)
+ [관련 시계열 데이터 세트 유형](#related-time-series-type-retail-domain)
+ [항목 메타데이터 데이터 세트 유형](#item-metadata-type-retail-domain)

## 대상 시계열 데이터 세트 유형
<a name="target-time-series-type-retail-domain"></a>

대상 시계열은 소매 조직에서 판매하는 각 품목 또는 제품에 대한 과거 시계열 데이터입니다. 필수 필드는 다음과 같습니다.
+ `item_id `(string) - 수요를 예상하려는 항목이나 제품의 고유 식별자.
+ `timestamp`(timestamp)
+ `demand`(float) - 타임스탬프 때 해당 항목의 판매 수. 이는 Amazon Forecast가 예상을 발생하는 *대상* 필드이기도 합니다.

다음 차원은 선택 사항이며 예측 세부 수준을 변경하는 데 사용할 수 있습니다.
+ `location`(string) - 항목이 판매된 스토어의 위치. 이는 스토어/위치가 여러 개인 경우에만 사용해야 합니다.

이러한 필수 필드와 선택적 차원만 포함되는 것이 이상적입니다. 다른 추가 시계열 정보는 관련 시계열 데이터 세트에 포함되어야 합니다.

## 관련 시계열 데이터 세트 유형
<a name="related-time-series-type-retail-domain"></a>

특정 날짜에 받은 가격이나 웹 조회 수와 같은 관련 시계열 데이터 세트를 Amazon Forecast에 제공할 수 있습니다. 제공하는 정보가 많을수록 예상이 정확해집니다. 필수 필드는 다음과 같습니다.
+ `item_id `(문자열)
+ `timestamp `(타임스탬프)

다음 필드는 선택 사항이며 예측 결과를 개선하는 데 유용할 수 있습니다.
+ `price`(float) - 타임스탬프 때 해당 항목의 가격.
+ `promotion_applied`(integer; 1=true, 0=false) - 타임스탬프 때 해당 항목에 대한 마케팅 홍보가 있었는지 여부를 명시하는 플래그.

필수 필드와 권장 선택 사항 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

## 항목 메타데이터 데이터 세트 유형
<a name="item-metadata-type-retail-domain"></a>

이 데이터 세트는 Amazon Forecast에 수요를 예상 중인 항목의 메타데이터(속성)에 대한 정보를 제공합니다. 필수 필드는 다음과 같습니다.
+ `item_id ` (문자열)

다음 필드는 선택 사항이며 예측 결과를 개선하는 데 유용할 수 있습니다.
+ `category`(문자열)
+ `brand`(문자열)
+ `color`(문자열)
+ `genre`(문자열)

필수 필드와 권장 선택 사항 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

# CUSTOM 도메인
<a name="custom-domain"></a>

CUSTOM 도메인이 지원하는 데이터 세트 유형은 다음과 같습니다. 각 데이터 세트 유형에 대해 필수 필드와 선택 사항 필드를 나열합니다. 교육 데이터의 열에 필드를 매핑하는 방법에 대한 자세한 내용은 [데이터 세트 도메인 및 데이터 세트 유형](howitworks-datasets-groups.md#howitworks-dataset-domainstypes)를 참조하십시오.

**Topics**
+ [대상 시계열 데이터 세트 유형](#target-time-series-type-custom-domain)
+ [관련 시계열 데이터 세트 유형](#related-time-series-type-custom-domain)
+ [항목 메타데이터 데이터 세트 유형](#item-metadata-type-custom-domain)

## 대상 시계열 데이터 세트 유형
<a name="target-time-series-type-custom-domain"></a>

필수 필드는 다음과 같습니다.
+ `item_id `(문자열)
+ `timestamp`(timestamp)
+ `target_value`(floating-point integer) - Amazon Forecast가 예측을 생성하는 `target` 필드입니다.

이상적으로는 필수 필드만 포함되어야 합니다. 다른 추가 시계열 정보는 관련 시계열 데이터 세트에 포함되어야 합니다.

## 관련 시계열 데이터 세트 유형
<a name="related-time-series-type-custom-domain"></a>

필수 필드는 다음과 같습니다.
+ `item_id`(문자열)
+ `timestamp`(timestamp)

필수 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

## 항목 메타데이터 데이터 세트 유형
<a name="item-metadata-type-custom-domain"></a>

필수 필드는 다음과 같습니다.
+ `item_id`(문자열)

다음 필드는 선택 사항이며 예측 결과를 개선하는 데 유용할 수 있습니다.
+ `category`(문자열)

필수 필드와 권장 선택 사항 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

# INVENTORY\$1PLANNING 도메인
<a name="inv-planning-domain"></a>

원자재에 대한 수요를 예상하고 특정 품목의 재고 물량을 결정하려면 INVENTORY\$1PLANNING 도메인을 사용하십시오. 지원하는 데이터 세트 유형은 다음과 같습니다. 각 데이터 세트 유형에 대해 필수 필드와 선택 사항 필드를 나열합니다. 교육 데이터의 열에 필드를 매핑하는 방법에 대한 자세한 내용은 [데이터 세트 도메인 및 데이터 세트 유형](howitworks-datasets-groups.md#howitworks-dataset-domainstypes)를 참조하십시오.

**Topics**
+ [대상 시계열 데이터 세트 유형](#target-time-series-type-inv-planning-domain)
+ [관련 시계열 데이터 세트 유형](#related-time-series-type-related-time-series-domain)
+ [항목 메타데이터 데이터 세트 유형](#item-metadata-type-related-time-series-domain)

## 대상 시계열 데이터 세트 유형
<a name="target-time-series-type-inv-planning-domain"></a>

필수 필드는 다음과 같습니다.
+ `item_id`(문자열)
+ `timestamp`(timestamp)
+ `demand`(float) - Amazon Forecast가 예측을 생성하는 `target` 필드입니다.

다음 차원은 선택 사항이며 예측 세부 수준을 변경하는 데 사용할 수 있습니다.
+ `location`(string) - 항목의 재고가 있는 유통 센터의 위치입니다. 이는 스토어/위치가 여러 개인 경우에만 사용해야 합니다.

이러한 필수 필드와 선택적 차원만 포함되는 것이 이상적입니다. 다른 추가 시계열 정보는 관련 시계열 데이터 세트에 포함되어야 합니다.

## 관련 시계열 데이터 세트 유형
<a name="related-time-series-type-related-time-series-domain"></a>

필수 필드는 다음과 같습니다.
+ `item_id`(문자열)
+ `timestamp`(timestamp)

다음 필드는 선택 사항이며 예측 결과를 개선하는 데 유용할 수 있습니다.
+ `price`(float) - 항목의 가격 

필수 필드와 권장 선택 사항 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

## 항목 메타데이터 데이터 세트 유형
<a name="item-metadata-type-related-time-series-domain"></a>

필수 필드는 다음과 같습니다.
+ `item_id`(문자열)

다음 필드는 선택 사항이며 예측 결과를 개선하는 데 유용할 수 있습니다.
+ `category`(string) - 항목의 범주.
+ `brand`(string) - 항목의 브랜드.
+ `lead_time`(string) - 항목을 제조하기 위한 리드 타임(일).
+ `order_cycle`(string) - 주문 주기는 작업이 시작될 때 시작되고 항목의 배송 준비가 완료되면 끝납니다.
+ `safety_stock`(string) - 해당 항목에 대해 보유할 최소 재고량.

필수 필드와 권장 선택 사항 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

# EC2 CAPACITY 도메인
<a name="ec2-capacity-domain"></a>

Amazon EC2 용량을 예측하려면 EC2 CAPACITY 도메인을 사용하세요. 지원하는 데이터 세트 유형은 다음과 같습니다. 각 데이터 세트 유형에 대해 필수 필드와 선택 사항 필드를 나열합니다. 교육 데이터의 열에 필드를 매핑하는 방법에 대한 자세한 내용은 [데이터 세트 도메인 및 데이터 세트 유형](howitworks-datasets-groups.md#howitworks-dataset-domainstypes)를 참조하십시오.

## 대상 시계열 데이터 세트 유형
<a name="target-time-series-type-ec2-capacity-domain"></a>

필수 필드는 다음과 같습니다.
+ `instance_type`(string) - 인스턴스의 유형(예: c5.xlarge).
+ `timestamp`(timestamp)
+ `number_of_instances`(integer) - 타임스탬프 때 사용된 해당 특정 인스턴스 유형의 인스턴스 수. 이는 Amazon Forecast가 예상을 발생하는 `target` 필드입니다.

다음 차원은 선택 사항이며 예측 세부 수준을 변경하는 데 사용할 수 있습니다.
+ `location` (문자열) - us-west-2 또는 us-east-1 AWS 리전과 같은를 제공할 수 있습니다. 이는 여러 리전을 모델링하는 경우에만 사용해야 합니다.

이러한 필수 및 제안된 필드만 포함되는 것이 이상적입니다. 다른 추가 시계열 정보는 관련 시계열 데이터 세트에 포함되어야 합니다.

## 관련 시계열 데이터 세트 유형
<a name="related-time-series-type-ec2-capacity-domain"></a>

필수 필드는 다음과 같습니다.
+ `instance_type`(문자열)
+ `timestamp`(timestamp)

필수 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

# WORK\$1FORCE 도메인
<a name="workforce-domain"></a>

인력 수요를 예상하려면 WORK\$1FORCE 도메인을 사용하십시오. 지원하는 데이터 세트 유형은 다음과 같습니다. 각 데이터 세트 유형에 대해 필수 필드와 선택 사항 필드를 나열합니다. 교육 데이터의 열에 필드를 매핑하는 방법에 대한 자세한 내용은 [데이터 세트 도메인 및 데이터 세트 유형](howitworks-datasets-groups.md#howitworks-dataset-domainstypes)를 참조하십시오.

**Topics**
+ [대상 시계열 데이터 세트 유형](#target-time-series-type-workforce-domain)
+ [관련 시계열 데이터 세트 유형](#related-time-series-type-workforce-domain)
+ [항목 메타데이터 데이터 세트 유형](#item-metadata-type-workforce-domain)

## 대상 시계열 데이터 세트 유형
<a name="target-time-series-type-workforce-domain"></a>

필수 필드는 다음과 같습니다.
+ `workforce_type`(string) - 예측되는 노동력의 유형. 예를 들어 콜 센터 수요 또는 주문 처리 센터 노동 수요가 해당됩니다.
+ `timestamp`(timestamp)
+ `workforce_demand`(floating-point integer) - Amazon Forecast가 예측을 생성하는 `target` 필드입니다.

다음 차원은 선택 사항이며 예측 세부 수준을 변경하는 데 사용할 수 있습니다.
+ `location`(string) - 인력 리소스가 요구되는 위치. 이는 스토어/위치가 여러 개인 경우에 사용해야 합니다.

이러한 필수 필드와 선택적 차원만 포함되는 것이 이상적입니다. 다른 추가 시계열 정보는 관련 시계열 데이터 세트에 포함되어야 합니다.

## 관련 시계열 데이터 세트 유형
<a name="related-time-series-type-workforce-domain"></a>

필수 필드는 다음과 같습니다.
+ `workforce_type`(문자열)
+ `timestamp`(timestamp)

필수 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

## 항목 메타데이터 데이터 세트 유형
<a name="item-metadata-type-workforce-domain"></a>

필수 필드는 다음과 같습니다.
+ `workforce_type`(문자열)

다음 필드는 선택 사항이며 예측 결과를 개선하는 데 유용할 수 있습니다.
+ `wages`(float) - 특정 인력 유형의 평균 임금.
+ `shift_length`(string) - 근무 교대 길이.
+ `location`(string) - 인력의 위치.

필수 필드와 권장 선택 사항 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

# WEB\$1TRAFFIC 도메인
<a name="webtraffic-domain"></a>

웹 속성 또는 웹 속성 집합을 예상하려면 WEB\$1TRAFFIC 도메인을 사용하십시오. 지원하는 데이터 세트 유형은 다음과 같습니다. 관련 항목에서는 데이터 세트 유형이 지원하는 필수 및 선택 사항 필드를 설명합니다. 교육 데이터의 열에 이러한 필드를 매핑하는 방법에 대한 자세한 내용은 [데이터 세트 도메인 및 데이터 세트 유형](howitworks-datasets-groups.md#howitworks-dataset-domainstypes)를 참조하십시오.

**Topics**
+ [대상 시계열 데이터 세트 유형](#target-time-series-type-webtraffic-domain)
+ [관련 시계열 데이터 세트 유형](#related-time-series-type-webtraffic-domain)

## 대상 시계열 데이터 세트 유형
<a name="target-time-series-type-webtraffic-domain"></a>

필수 필드는 다음과 같습니다.
+ `item_id`(string) - 예측되는 각 웹 속성의 고유 식별자.
+ `timestamp`(timestamp)
+ `value`(float) - Amazon Forecast가 예측을 생성하는 `target` 필드입니다.

이상적으로는 필수 필드만 포함되어야 합니다. 다른 추가 시계열 정보는 관련 시계열 데이터 세트에 포함되어야 합니다.

## 관련 시계열 데이터 세트 유형
<a name="related-time-series-type-webtraffic-domain"></a>

필수 필드는 다음과 같습니다.
+ `item_id`(문자열)
+ `timestamp`(timestamp)

필수 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

### 항목 메타데이터 데이터 세트 유형
<a name="idem-metadata-type-webtraffic-domain"></a>

필수 필드는 다음과 같습니다.
+ `item_id`(문자열)

다음 필드는 선택 사항이며 예측 결과를 개선하는 데 유용할 수 있습니다.
+ `category`(문자열)

필수 필드와 권장 선택 사항 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

# METRICS 도메인
<a name="metrics-domain"></a>

수익, 판매 및 현금 흐름과 같은 지표를 예상할 경우 METRICS 도메인을 사용하십시오. 지원하는 데이터 세트 유형은 다음과 같습니다. 각 데이터 세트 유형에 대해 필수 필드와 선택 사항 필드를 나열합니다. 교육 데이터의 열에 필드를 매핑하는 방법에 대한 자세한 내용은 [데이터 세트 도메인 및 데이터 세트 유형](howitworks-datasets-groups.md#howitworks-dataset-domainstypes)를 참조하십시오.

**Topics**
+ [대상 시계열 데이터 세트 유형](#target-time-series-type-metrics-domain)
+ [관련 시계열 데이터 세트 유형](#related-time-series-type-metrics-domain)
+ [항목 메타데이터 데이터 세트 유형](#item-metadata-type-metrics-domain)

## 대상 시계열 데이터 세트 유형
<a name="target-time-series-type-metrics-domain"></a>

필수 필드는 다음과 같습니다.
+ `metric_name`(문자열)
+ `timestamp`(timestamp)
+ `metric_value`(floating-point integer) - Amazon Forecast가 예측을 생성하는 `target` 필드(예: 특정 날짜에 발생한 수익 금액).

이상적으로는 필수 필드만 포함되어야 합니다. 다른 추가 시계열 정보는 관련 시계열 데이터 세트에 포함되어야 합니다.

## 관련 시계열 데이터 세트 유형
<a name="related-time-series-type-metrics-domain"></a>

필수 필드는 다음과 같습니다.
+ `metric_name`(문자열)
+ `timestamp`(timestamp)

필수 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

## 항목 메타데이터 데이터 세트 유형
<a name="item-metadata-type-metrics-domain"></a>

필수 필드는 다음과 같습니다.
+ `metric_name`(문자열)

다음 필드는 선택 사항이며 예측 결과를 개선하는 데 유용할 수 있습니다.
+ `category`(문자열)

필수 필드와 권장 선택 사항 필드 외에도 교육 데이터에는 기타 필드가 포함될 수 있습니다. 데이터 세트에 다른 필드를 추가하려면 데이터 세트를 생성할 때 원하는 필드를 스키마에 입력하십시오.

# 데이터 업데이트
<a name="updating-data"></a>

새 데이터를 수집하면 Forecast로 가져오고 싶을 것입니다. 이렇게 하는 데는 대체 업데이트와 증분 업데이트라는 두 가지 옵션이 있습니다. 대체 데이터 세트 가져오기 작업은 모든 기존 데이터를 새로 가져온 데이터로 덮어씁니다. 증분 업데이트는 새로 가져온 데이터를 데이터 세트에 추가합니다.

새 데이터를 가져온 후 기존 예측기를 사용하여 해당 데이터에 대한 예측을 생성할 수 있습니다.

**Topics**
+ [가져오기 모드](#idsi)
+ [기존 데이터 세트 업데이트](#idsi-console)
+ [예측 업데이트](#update-data-new-forecasts)

## 가져오기 모드
<a name="idsi"></a>

Amazon Forecast가 기존 데이터 세트에 새 데이터를 추가하는 방법을 구성하려면 데이터 세트 가져오기 작업의 가져오기 모드를 지정합니다. 기본 가져오기 모드는 `FULL`입니다. 가져오기 모드는 Amazon Forecast API를 사용해야만 구성할 수 있습니다.
+ 데이터 세트의 기존 데이터를 모두 덮어쓰려면 [CreateDatasetImportJob](API_CreateDatasetImportJob.md) API 작업에서 `FULL`을 지정합니다.
+ 데이터 세트의 기존 데이터에 레코드를 추가하려면 [CreateDatasetImportJob](API_CreateDatasetImportJob.md) API 작업에서 `INCREMENTAL`을 지정합니다. 기존 레코드와 가져온 레코드의 시계열 ID(항목 ID, 차원, 타임스탬프)가 동일한 경우 기존 레코드가 새로 가져온 레코드로 대체됩니다. Amazon Forecast는 항상 가장 최근의 타임스탬프가 있는 레코드를 사용합니다.

데이터 세트를 가져오지 않은 경우 증분 옵션을 사용할 수 없습니다. 기본 가져오기 모드는 전체 대체입니다.

### 증분 가져오기 모드 지침
<a name="idsi-incremental"></a>

증분 데이터 세트 가져오기를 수행할 때는 타임스탬프 형식, 데이터 형식 또는 지리적 위치 데이터를 변경할 수 없습니다. 이러한 항목을 변경하려면 전체 데이터 데이터 세트 가져오기를 수행해야 합니다.

## 기존 데이터 세트 업데이트
<a name="idsi-console"></a>

**중요**  
기본적으로 데이터 세트 가져오기 작업은 가져온 데이터 세트의 모든 기존 데이터를 대체합니다. 데이터 세트 가져오기 작업의 [가져오기 모드](#idsi)를 지정하여 이를 변경할 수 있습니다.

데이터 세트를 업데이트하려면 해당 데이터 세트의 데이터 세트 가져오기 작업을 생성하고 가져오기 모드를 지정하세요.

------
#### [ CLI ]

데이터 세트를 업데이트하려면 `create-dataset-import-job` 명령을 사용합니다. `import-mode`의 경우 기존 데이터를 대체하려면 `FULL`를 지정하고 기존 데이터에 추가하려면 `INCREMENTAL`을 지정합니다. 자세한 내용은 [가져오기 모드](#idsi) 단원을 참조하십시오.

다음 코드는 새 데이터를 데이터 세트에 증분적으로 가져오는 데이터 세트 가져오기 작업을 생성하는 방법을 보여줍니다.

```
aws forecast create-dataset-import-job \
                        --dataset-import-job-name dataset import job name \
                        --dataset-arn dataset arn \
                        --data-source "S3Config":{"KMSKeyArn":"string", "Path":"string", "RoleArn":"string"} \
                        --import-mode INCREMENTAL
```

------
#### [ Python ]

데이터 세트를 업데이트하려면 `create_dataset_import_job` 메서드를 사용하세요. `import-mode`의 경우 기존 데이터를 대체하려면 `FULL`를 지정하고 기존 데이터에 추가하려면 `INCREMENTAL`을 지정합니다. 자세한 내용은 [가져오기 모드](#idsi) 단원을 참조하십시오.

```
import boto3

forecast = boto3.client('forecast')

response = forecast.create_dataset_import_job(
    datasetImportJobName = 'YourImportJob',
    datasetArn = 'dataset_arn',
    dataSource = {"S3Config":{"KMSKeyArn":"string", "Path":"string", "RoleArn":"string"}},
    importMode = 'INCREMENTAL'
)
```

------

## 예측 업데이트
<a name="update-data-new-forecasts"></a>

새 데이터를 수집하면 이를 사용하여 새 예측을 생성하는 것이 좋습니다. 업데이트된 데이터 세트를 가져와도 Forecast가 예측기를 자동으로 재훈련하지는 않지만 업데이트된 데이터로 새 예측을 생성하도록 예측기를 수동으로 재훈련할 수는 있습니다. 예를 들어 일일 판매 데이터를 수집하고 예측에 새 데이터 포인트를 포함하려는 경우 업데이트된 데이터를 가져와서 새 예측기를 훈련하지 않고도 이 데이터를 사용하여 예측을 생성할 수 있습니다. 새로 가져온 데이터가 예측에 영향을 미치려면 예측기를 다시 훈련해야 합니다.

**새 데이터에서 예측을 생성하려면:**

1. Amazon S3 버킷에 새 데이터를 업로드합니다. 새 데이터에는 마지막 데이터 세트 가져오기 이후에 추가된 데이터만 포함되어야 합니다.

1. 새 데이터를 사용하여 **증분** 데이터 세트 가져오기 작업을 생성합니다. 새 데이터가 기존 데이터에 추가되고 업데이트된 데이터에서 예측이 생성됩니다. 새 데이터 파일에 이전에 가져온 데이터와 새 데이터가 모두 포함되어 있는 경우 **전체** 데이터 세트 가져오기 작업을 생성하세요.

1. 기존 예측기를 사용하여 새 예측을 생성합니다.

1. 일반적인 방법으로 예측을 가져옵니다.

# 누락 값 처리
<a name="howitworks-missing-values"></a>

시계열 예측 데이터의 일반적인 문제는 누락된 값이 있다는 것입니다. 측정 실패, 서식 문제, 인적 오류 또는 기록할 정보 부족 등 여러 가지 이유로 데이터에 누락된 값이 포함될 수 있습니다. 예를 들어 소매점 제품 수요를 예측할 때 품목이 매진되었거나 공급되지 않는 경우 해당 품목이 품절된 동안에는 기록할 판매 데이터가 없습니다. 누락된 값은 충분히 많을 경우 모델의 정확도에 큰 영향을 미칠 수 있습니다.

Amazon Forecast는 대상 시계열 및 관련 시계열 데이터 세트에서 누락된 값을 처리하기 위한 여러 가지 채우기 방법을 제공합니다. 채우기는 데이터세트에서 누락된 항목에 표준화된 값을 추가하는 프로세스입니다.

Forecast는 다음과 같은 채우기 방법을 지원합니다.
+ **중간 채우기** - 데이터 세트의 항목 시작 날짜와 항목 종료 날짜 사이에 누락된 값을 채웁니다.
+ **뒤로 채우기** - 데이터 세트의 마지막으로 기록된 데이터 포인트와 글로벌 종료 날짜 사이에 누락된 값을 채웁니다.
+ **앞으로 채우기(관련 시계열에만 해당)** - 데이터 세트의 글로벌 종료 날짜와 예측 기간 종료 사이에 누락된 값을 채웁니다.

다음 이미지는 다양한 채우기 방법을 시각적으로 나타냅니다.

![\[Timeline showing three items with varying durations and fill methods between global start and end dates.\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/Filling_types.PNG)


## 채우기 로직 선택
<a name="choosing-missing-values"></a>

채우기 로직을 선택할 때 모델에서 로직을 해석하는 방법을 고려해야 합니다. 예를 들어, 소매 시나리오에서 재고 품목의 판매량이 0을 기록하는 것은 품절 품목의 판매량이 0을 기록하는 것과 다릅니다. 후자가 해당 품목에 대한 고객의 관심 부족을 의미하지는 않습니다. 이 때문에 대상 시계열에서 `0` 채우기는 예측에서 예측기를 과소 편향시킬 수 있는 반면, `NaN` 채우기는 실제 발생한 재고 품목 판매량 0을 무시하고 예측기를 과다 편향시킬 수 있습니다.

다음 시계열 그래프는 잘못된 채우기 값 선택이 모형의 정확도에 어떤 영향을 미치는지 보여줍니다. 그래프 A 및 B는 부분적으로 품절된 품목에 대한 수요를 표시하며 검은색 선은 실제 판매량 데이터를 나타냅니다. A1의 누락된 값은 `0`으로 채워져 A2에서 상대적으로 과소 편향된 예측(점선 표시)을 초래합니다. 마찬가지로 B1의 누락된 값은 `NaN`으로 채워져 B2에서 보다 정확한 예측으로 이어집니다.

![\[Time-series graphs comparing item demand predictions with different filling values for missing data.\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/images/filling_values.PNG)


지원되는 채우기 로직의 목록은 다음 단원을 참조하십시오.

## 대상 시계열 및 관련 시계열 채우기 로직
<a name="filling-restrictions"></a>

대상 시계열 및 관련 시계열 데이터 세트 모두에 채우기를 수행할 수 있습니다. 각 데이터 세트 유형에는 서로 다른 채우기 지침과 제한 사항이 있습니다.


**채우기 지침**  

| 데이터세트 유형 | 기본적으로 채우기? | 지원되는 채우기 방법 | 기본 채우기 로직 | 허용되는 채우기 로직 | 
| --- | --- | --- | --- | --- | 
| 대상 시계열 | 예 | 중간 및 뒤로 채우기 | 0 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/howitworks-missing-values.html)  | 
| 관련 시계열 | 아니요 | 중간, 뒤로 및 앞으로 채우기 | 기본값 없음 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/forecast/latest/dg/howitworks-missing-values.html)  | 

**중요**  
대상 및 관련 시계열 데이터 세트 모두 `mean`, `median`, `min`, `max`는 누락된 값 이전의 최근 데이터 항목 64개가 포함된 이동 구간을 기반으로 계산됩니다.

## 누락 값 구문
<a name="filling-syntax"></a>

누락 값 채우기를 수행하려면 [CreatePredictor](API_CreatePredictor.md) 작업을 직접적으로 호출할 때 구현할 채우기 유형을 지정합니다. 채우기 로직은 [FeaturizationMethod](API_FeaturizationMethod.md) 객체에서 지정됩니다.

다음 발췌 내용은 대상 시계열 속성 및 관련 시계열 속성(각각 `target_value` 및 `price`)에 대해 올바른 형식의 `FeaturizationMethod` 개체를 보여 줍니다.

 채우기 메서드를 특정 값으로 설정하려면 채우기 파라미터를 `value`로 설정하고 해당 `_value` 파라미터에서 값을 정의하세요. 아래 그림과 같이 관련 시계열의 뒤로 채우기는 `"backfill": "value"` 및 `"backfill_value":"2"`를 사용하여 값 2로 설정됩니다.

```
[
    {
        "AttributeName": "target_value",
        "FeaturizationPipeline": [
            {
                "FeaturizationMethodName": "filling",
                "FeaturizationMethodParameters": {
                    "aggregation": "sum",
                    "middlefill": "zero",
                    "backfill": "zero"
                }
            }
        ]
    },
    {
        "AttributeName": "price",
        "FeaturizationPipeline": [
            {
                "FeaturizationMethodName": "filling",
                "FeaturizationMethodParameters": {
                    "middlefill": "median",
                    "backfill": "value",
                    "backfill_value": "2",
                    "futurefill": "max"               
                    }
            }
        ]
    }
]
```

# Forecast 데이터 세트 지침
<a name="dataset-import-guidelines-troubleshooting"></a>

Amazon Forecast가 데이터 세트를 가져오지 못하거나 데이터 세트가 예상대로 작동하지 않는 경우 다음 지침을 참조하세요.

**타임스탬프 형식**  
Forecast는 수집 빈도 단위가 년(`Y`), 월(`M`), 주(`W`), 일(`D`)일 경우 `yyyy-MM-dd` 타임스탬프 형식(예: `2019-08-21`)과 선택적으로 `HH:mm:ss` 형식(예: `2019-08-21 15:00:00`)을 지원합니다.  
수집 빈도 단위가 시간(`H`) 및 분(`M`)일 경우에는 Forecast가 `yyyy-MM-dd HH:mm:ss` 형식(예: `2019-08-21 15:00:00`)만 지원합니다.  
지침: 데이터 세트의 수집 빈도에 따른 타임스탬프 형식을 지원되는 형식으로 변경하십시오.

**Amazon S3 파일 또는 버킷**  
데이터 세트를 가져올 때 데이터가 포함된 Amazon Simple Storage Service(S3) 버킷의 CSV 또는 Parquet 파일 경로 또는 데이터가 포함된 S3 버킷의 이름을 지정할 수 있습니다. CSV 또는 Parquet 파일을 지정하는 경우 Forecast는 해당 파일만 가져옵니다. 그렇지 않고 S3 버킷을 지정하면 Forecast는 버킷의 CSV 또는 Parquet 파일을 최대 10,000개까지 모두 가져옵니다. 버킷 이름을 지정하여 다수의 파일을 가져올 때는 모든 CSV 파일이 지정된 스키마를 따라야 합니다.  
지침: 특정 파일 또는 S3 버킷을 지정할 때 사용하는 구문은 다음과 같습니다.  
`s3://bucket-name/example-object.csv`  
`s3://bucket-name/example-object.parquet`  
`s3://bucket-name/prefix/`  
`s3://bucket-name`  
Parquet 파일의 확장자는.parquet, .parq, .pqt이거나 확장자가 전혀 없을 수도 있습니다.

**전체 데이터 세트 업데이트**  
첫 번째 데이터 세트 가져오기는 항상 전체 가져오기이며, 이후 가져오기는 전체 또는 증분 업데이트일 수 있습니다. 가져오기 모드를 지정하려면 Forecast API를 사용해야 합니다.  
전체 업데이트에서는 기존 데이터가 모두 새로 가져온 데이터로 대체됩니다. 전체 데이터 세트 가져오기 작업은 집계되지 않으므로 예측기를 훈련하거나 예측을 생성할 때 가장 최근 데이터 세트 가져오기가 사용됩니다.  
지침: 증분 데이터 세트 업데이트를 생성하여 새 데이터를 기존 데이터에 추가하세요. 그렇지 않다면 가장 최근 데이터 세트 가져오기에 이전 가져오기 이후 수집된 새 데이터뿐만 아니라 모델링하려는 모든 데이터가 포함되어 있는지 확인합니다.

**증분 데이터 세트 업데이트**  
타임스탬프, 데이터 형식, 지리적 위치 등과 같은 필드는 현재 활성 데이터 세트에서 읽습니다. 증분 데이터 세트 가져오기에 이 정보를 포함할 필요는 없습니다. 포함된 경우 원래 제공된 값과 일치해야 합니다.  
지침: 이러한 값을 변경하려면 전체 데이터 세트 가져오기를 수행하세요.

**속성 순서**  
스키마 정의에 지정된 속성의 순서는 가져오는 CSV 또는 Parquet 파일의 열 순서와 일치해야 합니다. 예를 들어, `timestamp`를 첫 번째 속성으로 정의한 경우 `timestamp`는 입력 파일에서도 첫 번째 열이어야 합니다.  
지침: 입력 파일에서 열의 순서가 생성한 스키마 속성과 동일한지 확인합니다.

**날씨 지수**  
날씨 지수를 적용하려면 대상 시계열 및 모든 관련 시계열 데이터 세트에 [지리적 위치 속성](weather.md#adding-geolocation)을 포함해야 합니다. 또한 대상 시계열 타임스탬프의 [시간대](weather.md#specifying-timezones)를 지정해야 합니다.  
지침: 데이터 세트에 지리적 위치 속성이 포함되고 타임스탬프에 시간대가 할당되었는지 확인하세요. 자세한 내용은 날씨 지수 [조건 및 제한](weather.md#weather-conditions-restrictions)을 참조하세요.

**데이터 세트 헤더**  
입력 CSV의 데이터 세트 헤더로 인해 검증 오류가 발생할 수 있습니다. CSV 파일의 헤더를 생략하는 것이 좋습니다.  
지침: 데이터 세트 헤더를 삭제하고 가져오기를 다시 시도합니다.  
Parquet 파일에는 데이터 세트 헤더가 필요합니다.

**데이터 세트 상태**  
[CreateDatasetImportJob](API_CreateDatasetImportJob.md) 작업으로 훈련 데이터를 가져오려면 데이터 세트의 `Status`가 `ACTIVE`여야 합니다.  
지침: 데이터 세트의 상태를 가져올 때는 [DescribeDataset](API_DescribeDataset.md) 작업을 사용하십시오. 데이터 세트를 생성 또는 업데이트하지 못했다면 데이터 세트 파일의 형식을 확인한 후 다시 생성하십시오.

**기본 파일 형식**  
기본 파일 형식은 CSV입니다.

**파일 형식 및 구분 기호**  
Forecast는 CSV(쉼표로 구분된 값) 및 Parquet 파일 형식만 지원합니다. 탭, 공백, 콜론 또는 기타 문자를 사용해도 값을 서로 구분할 수는 없습니다.  
지침: 데이터 세트를 CSV 형식(쉼표만 구분 기호로 사용) 또는 Parquet 형식으로 변환한 후 파일 가져오기를 다시 시도합니다.

**파일 이름**  
파일 이름에는 알파벳이 1개 이상 포함되어야 합니다. 이름에 숫자만 있는 파일은 가져올 수 없습니다.  
지침: 최소 하나의 영문자가 포함되도록 입력 파일의 이름을 바꾼 후 파일 가져오기를 다시 시도합니다.

**파티션된 Parquet 데이터**  
Forecast는 파티션된 Parquet 파일을 읽지 않습니다.

**what-if 분석 데이터 세트 요구 사항**  
what-if 분석에는 CSV 데이터 세트가 필요합니다. [CreateWhatIfAnalysis](API_CreateWhatIfAnalysis.md) 작업의 TimeSeriesSelector 작업과 [CreateWhatIfForecast](API_CreateWhatIfForecast.md)의 TimeSeriesReplacementDataSource 작업은 Parquet 파일을 허용하지 않습니다.