기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 시계열 데이터
<a name="clarify-processing-job-data-format-time-series"></a>

시계열 데이터란 3차원의 데이터 프레임에 로드할 수 있는 데이터를 말합니다. 프레임에서 타임스탬프마다 각 행은 대상 레코드를 나타내며, 각 대상 레코드에는 하나 이상의 관련 열이 포함되어 있습니다. 데이터 프레임 셀 각각의 값은 숫자, 범주 또는 텍스트 데이터 유형일 수 있습니다.

## 시계열 데이터세트 사전 조건
<a name="clarify-processing-job-data-format-time-series-prereq"></a>

분석 전에 데이터 정리 또는 특성 엔지니어링과 같이 데이터를 준비하는 데 필요한 사전 처리 단계를 완료합니다. 데이터세트는 하나 또는 여러 개 제공할 수 있습니다. 여러 데이터세트를 제공하는 경우, 다음 방법 중 하나를 사용하여 SageMaker Clarify 처리 작업에 데이터세트를 제공하세요.
+ `dataset`로 이름이 지정된 [ProcessingInput](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProcessingInput.html) 또는 분석 구성 `dataset_uri`를 사용하여 기본 데이터세트를 지정합니다. `dataset_uri`에 대한 자세한 내용은 [분석 구성 파일](clarify-processing-job-configure-analysis.md)의 파라미터 목록을 참조하세요.
+ 분석 구성 파일에서 제공된 `baseline`매개변수를 사용합니다. `static_covariates`가 있는 경우 기준 데이터세트가 필요합니다. 예시가 포함된 분석 구성 파일에 대한 자세한 내용은 [분석 구성 파일](clarify-processing-job-configure-analysis.md) 섹션을 참조하세요.

다음 표에는 지원되는 데이터 형식, 해당 파일 확장명 및 MIME 유형이 나열되어 있습니다.


| 데이터 형식 | 파일 확장명 | MIME 유형 | 
| --- | --- | --- | 
| `item_records` | json | `application/json` | 
| `timestamp_records` | json | `application/json` | 
| `columns` | json | `application/json` | 

JSON은 정형 데이터에서 모든 수준의 복잡성을 표현할 수 있는 유연한 형식입니다. 표에 표시된 대로 SageMaker Clarify는 `item_records`, `timestamp_records`, `columns` 형식을 지원합니다.

## 시계열 데이터세트 구성 예시
<a name="clarify-processing-job-data-format-time-series-ex"></a>

이 섹션에서는 JSON 형식의 시계열 데이터에 `time_series_data_config`를 사용하여 분석 구성을 설정하는 방법을 보여줍니다. 다음과 같이 각각 타임스탬프(t), 대상 시계열(x), 관련 시계열(r) 2개, 정적 공변량(u) 2개가 각각 포함된 항목 2개로 구성된 데이터세트가 있다고 가정해 보겠습니다.

 t1 = [0,1,2], t2 = [2,3]

x1 = [5,6,4], x2 = [0,4]

r1 = [0,1,0], r 21 = [1,1]

r 12 = [0,0,0], r 22 = [1,0]

u 11 = -1, u 21 = 0

u 12 = 1, u 22 = 2

`dataset_format`에 따라 세 가지 방법으로 `time_series_data_config`를 사용하여 데이터세트를 인코딩할 수 있습니다. 다음 섹션에서 각 방법에 대해 설명합니다.

### `dataset_format`이 `columns`인 경우 시계열 데이터 구성
<a name="clarify-processing-job-data-format-time-series-columns"></a>

다음 예시에서는 `dataset_format`에 `columns` 값을 사용합니다. 다음 JSON 파일은 이전 데이터세트를 나타냅니다.

```
{
    "ids": [1, 1, 1, 2, 2],
    "timestamps": [0, 1, 2, 2, 3], # t
    "target_ts": [5, 6, 4, 0, 4], # x
    "rts1": [0, 1, 0, 1, 1], # r1
    "rts2": [0, 0, 0, 1, 0], # r2
    "scv1": [-1, -1, -1, 0, 0], # u1
    "scv2": [1, 1, 1, 2, 2], # u2
}
```

항목 ID는 `ids` 필드에서 반복됩니다. `time_series_data_config`의 올바른 구현은 다음과 같습니다.

```
"time_series_data_config": {
    "item_id": "ids",
    "timestamp": "timestamps",
    "target_time_series": "target_ts",
    "related_time_series": ["rts1", "rts2"],
    "static_covariates": ["scv1", "scv2"],
    "dataset_format": "columns"
}
```

### `dataset_format`이 `item_records`인 경우 시계열 데이터 구성
<a name="clarify-processing-job-data-format-time-series-itemrec"></a>

다음 예시에서는 `dataset_format`에 `item_records` 값을 사용합니다. 다음 JSON 파일은 데이터세트를 나타냅니다.

```
[
    {
        "id": 1,
        "scv1": -1,
        "scv2": 1,
        "timeseries": [
            {"timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0},
            {"timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0},
            {"timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0}
        ]
    },
    {
        "id": 2,
        "scv1": 0,
        "scv2": 2,
        "timeseries": [
            {"timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1},
            {"timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0}
        ]
    }
]
```

각 항목은 JSON에서 별도의 항목으로 표시됩니다. 다음 코드 조각은 해당 `time_series_data_config`를 보여줍니다(JMESPath 사용).

```
"time_series_data_config": {
    "item_id": "[*].id",
    "timestamp": "[*].timeseries[].timestamp",
    "target_time_series": "[*].timeseries[].target_ts",
    "related_time_series": ["[*].timeseries[].rts1", "[*].timeseries[].rts2"],
    "static_covariates": ["[*].scv1", "[*].scv2"],
    "dataset_format": "item_records"
}
```

### `dataset_format`이 `timestamp_record`인 경우 시계열 데이터 구성
<a name="clarify-processing-job-data-format-time-series-tsrec"></a>

다음 예시에서는 `dataset_format`에 `timestamp_record` 값을 사용합니다. 다음 JSON 파일은 이전 데이터세트를 나타냅니다.

```
[
    {"id": 1, "timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1},
    {"id": 1, "timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0, "svc1": -1, "svc2": 1},
    {"id": 1, "timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1},
    {"id": 2, "timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1, "svc1": 0, "svc2": 2},
    {"id": 2, "timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0, "svc1": 0, "svc2": 2},
]
```

JSON의 각 항목은 단일 타임스탬프를 나타내며 단일 항목에 해당합니다. 구현 `time_series_data_config`는 다음과 같이 표시됩니다.

```
{
    "item_id": "[*].id",
    "timestamp": "[*].timestamp",
    "target_time_series": "[*].target_ts",
    "related_time_series": ["[*].rts1"],
    "static_covariates": ["[*].scv1"],
    "dataset_format": "timestamp_records"
}
```