

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 設定資料集
<a name="datasets-config"></a>

若要將標記的訓練或測試資料新增至飛輪，請使用 Amazon Comprehend 主控台或 API 來建立資料集。

您可以將每個資料集設定為訓練資料或測試資料。您可以將資料集與特定飛輪和自訂模型建立關聯。當您建立資料集時，Amazon Comprehend 會將資料上傳至飛輪的資料湖。如需訓練資料的檔案格式詳細資訊，請參閱 [準備分類器訓練資料](prep-classifier-data.md)或 [準備實體辨識器訓練資料](prep-training-data-cer.md)。

當您刪除飛輪時，Amazon Comprehend 會刪除資料集。上傳的資料在資料湖中仍然可用。

## 建立資料集 （主控台）
<a name="datasets-create-console"></a>

**建立資料集**

1. 登入 AWS 管理主控台 並開啟 [Amazon Comprehend 主控台](https://console.aws.amazon.com/comprehend/)。

1. 從左側選單中，選擇**飛輪**，然後選擇您要新增資料的飛輪。

1. 選擇**資料集**索引標籤。

1. 在**訓練資料集**或**測試資料集**表格中，選擇**建立資料集**。

1. 在**資料集詳細資訊**下，輸入資料集的名稱和選用的描述。

1. 在**資料規格**下，選擇**資料格式**和**資料集類型**組態欄位。

1. （選用） 在**輸入格式**下，選擇輸入文件的格式。

1. 在 ** S3 的註釋位置**下，輸入註釋檔案的 Amazon S3 位置。

1. 在 ** S3 的訓練資料位置**下，輸入文件檔案的 Amazon S3 位置。

1. 選擇**建立**。

## 建立資料集 (API)
<a name="datasets-api-create"></a>

您可以使用 [CreateDataset](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDataset.html) 操作來建立資料集。

**Example**  

```
aws comprehend create-dataset \
    --flywheel-arn "myFlywheel2" \
    --dataset-name "my-training-dataset"
    --dataset-type "TRAIN"
    --description "my training dataset"
    --cli-input-json file://inputConfig.json 
}
```
`inputConfig.json` 檔案包含下列內容。  

```
{
    "DataFormat": "COMPREHEND_CSV",
    "DocumentClassifierInputDataConfig": {
        "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv"
    }
}
```

若要在資料集上新增或移除標籤，請使用 [TagResource](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_TagResource.html) 和 [UntagResource](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_UntagResource.html) 操作。

## 描述資料集
<a name="datasets-api-desc"></a>

使用 Amazon Comprehend [DescribeDataset](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDataset.html) 操作擷取有關飛輪的設定資訊。

```
aws comprehend describe-dataset \
    --dataset-arn  "datasetARN"
```

回應包含下列內容。

```
{
   "DatasetProperties": {
      "DatasetArn": "arn:aws::comprehend:{{aws-region}}:111122223333:flywheel/myTestFlywheel/dataset/train-dataset",
      "DatasetName": "train-dataset",
      "DatasetType": "TRAIN",
      "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z",
      "Description": "Good Dataset",
      "Status": "COMPLETED",
      "NumberOfDocuments": 90,
      "CreationTime": 1659383324.297
  }
}
```