

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 配置数据集
<a name="datasets-config"></a>

要将带标签的训练或测试数据添加到飞轮中，请使用 Amazon Comprehend 控制台或 API 创建数据集。

您可以将每个数据集配置为训练数据或测试数据。您可以将数据集与特定的飞轮和自定义模型相关联。创建数据集时，Amazon Comprehend 会将数据上传到飞轮的数据湖。有关训练数据文件格式的详细信息，请参阅 [准备分类器训练数据](prep-classifier-data.md) 或 [准备实体识别器训练数据](prep-training-data-cer.md)。

当您删除飞轮时，Amazon Comprehend 会删除数据集。上传的数据在数据湖中仍然可用。

## 创建数据集（控制台）
<a name="datasets-create-console"></a>

**创建数据集**

1. 登录 AWS 管理控制台 并打开 [Amazon Comprehend 控制台](https://console.aws.amazon.com/comprehend/)。

1. 从左侧菜单中选择**飞轮**，然后选择要在其中添加数据的飞轮。

1. 选择**数据集**选项卡。

1. 在**训练数据集**或**测试数据集**表中，选择**创建数据集**。

1. 在**数据集详细信息**下，输入数据集的名称和可选描述。

1. 在**数据规范**下，选择**数据格式**和**数据集类型**配置字段。

1. （可选）在**输入格式**下，选择输入文档的格式。

1. 在 **S3 上的注释位置**下，输入注释文件的 Amazon S3 位置。

1. 在 **S3 上的训练数据位置**下，输入文档文件的 Amazon S3 位置。

1. 选择**创建**。

## 创建数据集 (API)
<a name="datasets-api-create"></a>

您可以使用该[CreateDataset](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDataset.html)操作来创建数据集。

**Example**  

```
aws comprehend create-dataset \
    --flywheel-arn "myFlywheel2" \
    --dataset-name "my-training-dataset"
    --dataset-type "TRAIN"
    --description "my training dataset"
    --cli-input-json file://inputConfig.json 
}
```
`inputConfig.json` 文件包含以下代码。  

```
{
    "DataFormat": "COMPREHEND_CSV",
    "DocumentClassifierInputDataConfig": {
        "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv"
    }
}
```

要在数据集中添加或移除标签，请使用[TagResource](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_TagResource.html)和[UntagResource](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_UntagResource.html)操作。

## 描述数据集
<a name="datasets-api-desc"></a>

使用 Amazon Compreh [DescribeDataset](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDataset.html)end 操作检索有关飞轮的配置信息。

```
aws comprehend describe-dataset \
    --dataset-arn  "datasetARN"
```

响应包含以下内容。

```
{
   "DatasetProperties": {
      "DatasetArn": "arn:aws::comprehend:{{aws-region}}:111122223333:flywheel/myTestFlywheel/dataset/train-dataset",
      "DatasetName": "train-dataset",
      "DatasetType": "TRAIN",
      "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z",
      "Description": "Good Dataset",
      "Status": "COMPLETED",
      "NumberOfDocuments": 90,
      "CreationTime": 1659383324.297
  }
}
```