

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 학습을 위한 항목 메타데이터 준비
<a name="items-datasets"></a>

 항목 메타데이터에는 사용자가 상호 작용하는 항목에 대한 숫자 및 범주형 데이터가 포함됩니다. 항목 메타데이터의 예로는 생성 타임스탬프, 가격, 장르, 설명 및 가용성이 있습니다. 항목에 대한 메타데이터를 Personalize 항목 데이터세트로 가져옵니다.**

도메인 사용 사례 또는 사용자 지정 레시피에 따라 항목 메타데이터는 Amazon Personalize가 사용자에게 더 관련성이 높은 항목을 추천하거나, 유사한 항목을 더 정확하게 예측하거나, 더 의미 있는 사용자 세그먼트를 추천하는 데 도움이 될 수 있습니다. 또한 Amazon Personalize가 추천에 새 항목을 추가하는 데 도움이 될 수 있습니다. 항목 메타데이터는 일부 도메인 사용 사례에 필요하며 모든 사용자 지정 레시피에는 선택 사항입니다. 자세한 내용은 [사용 사례를 Amazon Personalize 리소스와 일치시킵니까?](use-cases-and-recipes.md)의 도메인 사용 사례 또는 레시피에 대한 데이터 요구 사항을 참조하세요.

 Amazon Personalize는 학습 시 항목 제목 또는 작성자 데이터와 같은 비범주형 문자열 항목 데이터를 사용하지 않습니다. 그러나 이 데이터를 가져오면 추천 사항이 향상될 수 있습니다. 자세한 내용은 [비범주형 문자열 데이터](#item-string-data) 섹션을 참조하세요.

Amazon Personalize가 학습 중에 고려하는 최대 항목 수는 사용 사례 또는 레시피에 따라 달라집니다. 학습 중에 고려된 항목만 추천 사항에 표시될 수 있습니다.
+ User-Personalization-v2 또는 Personalized-Ranking-v2의 경우 학습 중에 모델이 고려하는 최대 항목 수는 5백만 개입니다. 이 개수에는 항목 및 항목 상호 작용 데이터세트가 모두 포함됩니다.
+ User-Personalization-v2 및 Personalized-Ranking-v2를 제외한 모든 도메인 사용 사례 및 사용자 지정 레시피의 경우, 학습 및 추천 사항 생성 중에 모델이 고려하는 최대 항목 수는 750,000개입니다.

모든 도메인 사용 사례 및 사용자 지정 레시피의 경우 대량 항목 데이터는 CSV 파일 형식이어야 합니다. 파일의 각 행은 고유한 항목을 나타내야 합니다. 데이터 준비를 마치면 스키마 JSON 파일을 생성할 준비가 된 것입니다. 이 파일은 Amazon Personalize에 데이터 구조에 대해 알려줍니다. 자세한 내용은 [Amazon Personalize 스키마에 대한 스키마 JSON 파일 생성](how-it-works-dataset-schema.md) 섹션을 참조하세요.

다음 섹션에서는 Amazon Personalize를 위한 항목 메타데이터를 준비하는 방법에 대한 자세한 정보를 제공합니다. 모든 유형의 데이터에 대한 대량 데이터 형식 지침은 [대량 데이터 형식 지침](preparing-training-data.md#general-formatting-guidelines)을 참조하세요.

**Topics**
+ [항목 데이터 요구 사항](#item-data-requirements)
+ [생성 타임스탬프 데이터](#creation-timestamp-data)
+ [범주형 메타데이터](#item-categorical-data)
+ [비정형 텍스트 메타데이터](#text-data)
+ [숫자 데이터](#item-numerical-data)
+ [비범주형 문자열 데이터](#item-string-data)
+ [항목 메타데이터 예제](#items-data-example)

## 항목 데이터 요구 사항
<a name="item-data-requirements"></a>

 다음은 Amazon Personalize에 대한 항목 메타데이터 요구 사항입니다.

충분한 데이터가 있는지 확실하지 않거나 품질에 대한 의문이 있는 경우 데이터를 Amazon Personalize 데이터세트로 가져와서 Amazon Personalize를 사용하여 분석할 수 있습니다. 자세한 내용은 [Amazon Personalize 데이터세트에서 데이터의 품질 및 양 분석](analyzing-data.md) 섹션을 참조하세요.
+ 모든 도메인 사용 사례 및 사용자 지정 레시피의 경우 각 항목의 고유 식별자를 저장하는 ITEM\_ID 열이 있어야 합니다. 모든 항목에는 항목 ID가 있어야 합니다. 최대 길이가 256자인 `string`이어야 합니다.
+ 사용자 지정 레시피의 경우 데이터에 범주형 문자열 또는 숫자 메타데이터 열이 하나 이상 있어야 합니다. 항목 메타데이터 열에는 빈 값/널 값이 포함될 수 있습니다. 이러한 열은 최소 70% 이상 완성하는 것이 좋습니다.
+ 도메인 사용 사례의 경우 필수 열은 도메인에 따라 다릅니다. 자세한 내용은 [VIDEO\_ON\_DEMAND 도메인 요구 사항](#vod-item-data-req) 또는 [ECOMMERCE 도메인 요구 사항](#retail-item-data-req)을 참조하세요.
+ 최대 메타데이터 열 수는 100개입니다.

### VIDEO\_ON\_DEMAND 도메인 요구 사항
<a name="vod-item-data-req"></a>

일부 사용 사례에는 항목 데이터세트가 필요합니다([VIDEO\_ON\_DEMAND 사용 사례](VIDEO_ON_DEMAND-use-cases.md) 참조). 선택 사항인 경우에도 가장 관련성이 높은 추천을 받으려면 항목 메타데이터를 가져오는 것이 좋습니다. 항목 메타데이터를 가져오는 경우 데이터에 다음 열이 포함되어야 합니다.
+ ITEM\_ID
+ GENRES(범주형 `string`)
+ CREATION\_TIMESTAMP(Unix 에포크 타임 형식으로)

 다음은 추가 추천 열과 필요한 유형을 나열합니다. `null` 유형은 열에 누락된 값이 있을 수 있음을 나타냅니다. 이러한 열은 최소 70% 이상 완성하는 것이 좋습니다. 이러한 열을 포함하면 추천 사항을 개선할 수 있습니다.
+ PRICE(float)
+ DURATION(float)
+ GENRE\_L2(범주형 `string`, `null`)
+ GENRE\_L3(범주형 `string`, `null`)
+ AVERAGE\_RATING(`float`, `null`)
+ PRODUCT\_DESCRIPTION(텍스트형 `string`, `null`)
+ CONTENT\_OWNER(범주형`string`, `null`) – 동영상을 소유한 회사입니다. 예를 들어, 값은 HBO, 파라마운트, NBC일 수 있습니다.
+ CONTENT\_CLASSIFICATION(범주형 `string`, `null`) – 콘텐츠의 등급입니다. 예를 들어, 값은 G, PG, PG-13, R, NC-17 및 등급보류일 수 있습니다.

### ECOMMERCE 도메인 요구 사항
<a name="retail-item-data-req"></a>

 항목 메타데이터는 모든 ECOMMERCE 사용 사례에 대해 선택 사항입니다. 항목 데이터가 있는 경우, 가장 관련성이 높은 추천을 받을 수 있도록 가져오는 것이 좋습니다.. 항목 메타데이터를 가져오는 경우 데이터에 다음 열이 있어야 합니다.
+ ITEM\_ID
+ PRICE(`float`)
+ CATEGORY\_L1(범주형 `string`) - 범주형 데이터 형식 지정에 대한 자세한 내용은 [범주형 메타데이터](#item-categorical-data) 섹션을 참조하세요.

 다음은 추가 추천 열과 필요한 유형을 나열합니다. `null` 유형은 열에 누락된 값이 있을 수 있음을 나타냅니다. 이러한 열은 최소 70% 이상 완성하는 것이 좋습니다. 이러한 열을 포함하면 추천 사항을 개선할 수 있습니다.
+ CATEGORY\_L2(범주형`string`,`null`)
+ CATEGORY\_L3(범주형`string`,`null`)
+ PRODUCT\_DESCRIPTION(텍스트형 `string`, `null`)
+ CREATION\_TIMESTAMP(`float`)
+ AGE\_GROUP(범주형`string`, `null`) – 항목의 대상 연령대입니다. 값은 신생아, 유아, 어린이, 성인일 수 있습니다.
+ ADULT(범주형 `string`, `null`) – 항목이 알코올과 같이 성인으로만 제한되는지 여부입니다. 값은 예 또는 아니오일 수 있습니다.
+ GENDER(범주형`string`, `null`) – 항목의 성별입니다. 값은 남성, 여성, 남녀공용일 수 있습니다.

## 생성 타임스탬프 데이터
<a name="creation-timestamp-data"></a>

생성 타임스탬프 날짜는 Unix epoch 시간 형식(초)이어야 합니다. 예를 들어, 2020년 7월 31일 날짜의 에포크 타임스탬프(초)는 1596238243입니다. 날짜를 Unix epoch 타임스탬프로 변환하려면 [Epoch 변환기 - Unix 타임스탬프 변환기](https://www.epochconverter.com)를 사용합니다.

Personalize는 생성 타임스탬프 데이터(Unix epoch 시간 형식, 초 단위)를 사용하여 항목의 수명을 계산하고 그에 따라 추천을 조정합니다.

하나 이상의 항목에 대한 생성 타임스탬프 데이터가 누락된 경우, Personalize는 상호작용 데이터(있는 경우)에서 이 정보를 유추하고 항목에서 가장 오래된 상호작용 데이터의 타임스탬프를 항목 생성 타임스탬프로 사용합니다. 항목에 상호작용 데이터가 없는 경우, 생성 타임스탬프는 교육 세트에 있는 최신 상호작용의 타임스탬프로 설정되며 Personalize는 이를 새 항목으로 간주합니다.

## 범주형 메타데이터
<a name="item-categorical-data"></a>

 특정 레시피와 모든 도메인 사용 사례를 통해 Amazon Personalize는 사용자에게 가장 관련성이 높은 항목을 나타내는 기본 패턴을 식별할 때 항목의 장르 또는 색상과 같은 범주형 메타데이터를 사용합니다. 사용 사례를 기반으로 자체 값 범위를 직접 정의합니다. 범주형 메타데이터는 어떤 언어로든 사용할 수 있습니다.

 여러 범주를 갖는 항목의 경우, 세로 막대 '\|'로 각 값을 구분합니다. 예를 들어, GENRES 필드의 경우 항목에 대한 데이터가 `Action|Crime|Biopic`이 될 수 있습니다. 여러 수준의 범주형 데이터가 있고 일부 항목에 계층의 각 수준에 대해 여러 범주가 있는 경우, 각 수준에 대해 별도의 열을 사용하고 각 필드 이름 뒤에 GENRES, GENRE\_L2, GENRE\_L3 등의 수준 지표를 추가합니다. 이렇게 하면 항목이 여러 멀티 레벨 범주에 속하더라도 하위 범주를 기준으로 추천을 필터링할 수 있습니다(필터 생성 및 사용에 대한 자세한 내용은 [추천 및 사용자 세그먼트 필터링](filter.md) 섹션을 참조하세요). 예를 들어, 동영상에는 각 범주 수준에 대해 다음과 같은 데이터가 있을 수 있습니다.
+ GENRES: 액션\|어드벤처
+ GENRE\_L2: 범죄\|서부영화
+ GENRE\_L3: 일대기 영화

이 예제에서는 동영상이 액션 > 범죄 > 일대기 영화 계층 및 모험 > 서부 영화 > 일대기 영화 계층 구조로 되어 있습니다.** L3까지만 사용하는 것이 좋지만, 필요한 경우 더 많은 레벨을 사용할 수 있습니다.

범주형 값은 최대 1000자까지 입력할 수 있습니다. 범주형 값이 1000자를 초과하는 항목이 있는 경우, 데이터세트 가져오기 작업이 실패합니다. 범주형 열에는 가능한 값이 1,000개를 초과하지 않는 것이 좋습니다. 값이 더 많은 범주형 데이터를 가져오면 추천 사항에 부정적인 영향을 미칠 수 있습니다. 다음은 범주형 열의 가능한 값 수를 줄이는 데 도움이 될 수 있습니다.
+ 값이 일관된 명명 규칙을 따르고 오타가 없는지 확인합니다. 예를 들어 "남성의 신발", "남성 신발", "남성 신발류"를 혼합하지 말고 "남성 신발"을 사용합니다.
+ "신발" 및 "스니커"와 같이 동일한 기본 범주를 가리키는 약간 다른 용어를 사용하는 유사한 범주를 통합합니다.
+ 데이터에 더 넓은 범주(예: "신발")에 더 구체적인 하위 범주(예: "남성 신발", "여성 신발", "어린이 신발")가 포함된 계층 구조가 있는 경우 각 수준에 대해 별도의 열을 사용하고 각 필드 이름 뒤에 수준 표시기를 추가합니다. 예: CATEGORY\_1, CATEGORY\_2 및 CATEGORY\_3. 이렇게 하면 모호하거나 중복되는 범주가 줄어들 수 있습니다.

모든 레시피와 도메인을 통해 범주형 데이터를 가져와서 항목의 속성에 따라 추천을 필터링하는 데 사용할 수 있습니다. 추천 필터링에 대한 자세한 내용은 [추천 및 사용자 세그먼트 필터링](filter.md)단원을 참조하세요.

## 비정형 텍스트 메타데이터
<a name="text-data"></a>

특정 레시피와 도메인을 통해 Personalize는 제품 설명, 제품 리뷰 또는 영화 시놉시스와 같은 비정형 텍스트 메타데이터에서 중요한 정보를 추출할 수 있습니다. Personalize는 특히 새 항목이거나 상호작용 데이터가 적은 항목의 경우 구조화되지 않은 텍스트를 사용하여 사용자와 관련된 항목을 식별합니다. 최대 1개의 텍스트 필드를 추가할 수 있습니다. 아이템 데이터세트에 구조화되지 않은 텍스트 데이터를 포함하여 카탈로그의 새 항목에 대한 클릭률과 전환률을 높이세요.

구조화되지 않은 텍스트 메타데이터를 준비할 때 텍스트를 큰따옴표로 묶고 새 줄 문자를 제거합니다. `\` 문자를 사용하여 데이터에 있는 큰따옴표 또는 \\ 문자를 이스케이프처리합니다. Personalize는 텍스트 필드를 글자 수 제한으로 잘라냅니다. 텍스트에서 가장 관련성이 높은 정보가 필드 시작 부분에 있는지 확인하세요.

구조화되지 않은 텍스트 값은 중국어와 일본어를 제외한 모든 언어에서 최대 20,000자를 포함할 수 있습니다. 중국어와 일본어의 경우, 최대 7,000자까지 입력할 수 있습니다. Personalize는 문자 제한을 초과하는 값을 문자 제한까지 잘라냅니다.

구조화되지 않은 텍스트 항목을 여러 언어로 제출할 수 있지만, 각 항목의 텍스트는 한 가지 언어로만 작성해야 합니다. 텍스트는 다음 언어로 제공될 수 있습니다.
+ 중국어 간체
+ 중국어 번체
+ 영어
+ 프랑스어
+ 독일어
+ 일본어
+ 포르투갈어
+ 스페인어

## 숫자 데이터
<a name="item-numerical-data"></a>

 Amazon Personalize는 가격 또는 비디오 기간과 같은 숫자 항목 메타데이터를 사용하여 사용자에게 더 관련성이 높은 추천 사항을 생성할 수 있습니다. 이 숫자 데이터는 정수 또는 십진수 값으로 표시할 수 있습니다.

[사용자-개인 맞춤](native-recipe-new-item-USER_PERSONALIZATION.md) 또는 [개인 맞춤형-순위](native-recipe-search.md) 사용자 지정 레시피를 사용하는 경우 수익 극대화와 같은 최대 관련성 외에도 항목 메타데이터 관련 목표에 대해 Amazon Personalize 솔루션을 최적화할 수 있습니다. 솔루션을 구성할 때 항목 데이터세트에서 목표와 관련된 숫자 메타데이터 열을 선택합니다. 예를 들어 스트리밍 시간을 최대화하려면 VIDEO\_LENGTH 열을 선택하고 수익을 극대화하기 위해 PRICE 열을 선택할 수 있습니다.

자세한 내용은 [추가 목표에 맞게 솔루션 최적화](optimizing-solution-for-objective.md) 섹션을 참조하세요.

## 비범주형 문자열 데이터
<a name="item-string-data"></a>

 항목 ID를 제외하고 Amazon Personalize는 학습 시 항목 제목 또는 작성자 데이터와 같은 비범주형 비텍스트 문자열 데이터를 사용하지 않습니다. 하지만 Amazon Personalize는 이를 다음과 같은 기능과 함께 사용할 수 있습니다. 비범주형 값은 최대 1000자까지 입력할 수 있습니다.
+ Amazon Personalize는 추천에 비범주형 문자열 값을 비롯한 항목 메타데이터를 포함할 수 있습니다. 메타데이터를 통해 사용자 인터페이스에서 추천을 강화할 수 있습니다(예: 영화 추천 캐러셀에 감독 이름 추가). 자세한 내용은 [추천에서 항목 메타데이터](campaigns.md#create-campaign-return-metadata) 섹션을 참조하세요.
+  [유사-항목](native-recipe-similar-items.md)를 사용하면 테마가 포함된 배치 추천을 생성할 수 있습니다. 테마가 포함된 배치 추천을 생성할 때는 배치 추론 작업에서 항목 이름 열을 지정해야 합니다. 자세한 내용은 [콘텐츠 생성기에서 테마가 있는 배치 추천](themed-batch-recommendations.md) 섹션을 참조하세요.
+  필터를 생성하여 비범주형 문자열 데이터를 기반으로 항목을 추천에 포함하거나 추천에서 제거할 수 있습니다. 필터에 대한 자세한 내용은 섹션을 참조하세요[추천 및 사용자 세그먼트 필터링](filter.md) 

## 항목 메타데이터 예제
<a name="items-data-example"></a>

CSV 파일의 영화 메타데이터의 처음 몇 줄은 다음과 같을 수 있습니다.

```
ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION
1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004."
2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010."
3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women."
4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020."
...
...
```

`ITEM_ID` 열은 필수이며 각 개별 항목에 대한 고유 식별자를 저장합니다. `GENRE` 열에는 각 영화에 대한 범주형 메타데이터가 저장되고 `DESCRIPTION` 열은 비정형 텍스트 메타데이터입니다. `CREATION_TIMESTAMP` 열은 각 항목 생성 시간을 Unix epoch 시간 형식으로 초 단위로 저장합니다.

데이터 준비를 마치면 스키마 JSON 파일을 생성할 준비가 된 것입니다. 이 파일은 Amazon Personalize에 데이터 구조에 대해 알려줍니다. 자세한 내용은 [Amazon Personalize 스키마에 대한 스키마 JSON 파일 생성](how-it-works-dataset-schema.md) 섹션을 참조하세요. 위 샘플 데이터에 대한 스키마 JSON 파일은 다음과 같습니다.

```
{
  "type": "record",
  "name": "Items",
  "namespace": "com.amazonaws.personalize.schema",
  "fields": [
    {
      "name": "ITEM_ID",
      "type": "string"
    },
    {
      "name": "GENRES",
      "type": [
        "null",
        "string"
      ],
      "categorical": true
    },
    {
      "name": "CREATION_TIMESTAMP",
      "type": "long"
    },
    {
      "name": "DESCRIPTION",
      "type": [
        "null",
        "string"
      ],
      "textual": true
    }
  ],
  "version": "1.0"
}
```