

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 文本分类的数据集格式和目标指标
<a name="text-classification-data-format-and-metric"></a>

在此部分中，我们将了解文本分类中可以使用的数据集格式，以及用于评估机器学习候选模型预测质量的指标。为候选人计算的指标是使用一系列[MetricDatum](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_MetricDatum.html)类型指定的。

## 数据集格式
<a name="text-classification-data-format"></a>

Autopilot 支持格式化为 CSV 文件或 Parquet 文件的表格数据。对于表格数据，每列都包含一个具有特定数据类型的特征，每行都包含一个观察数据。这两种文件格式的属性差异很大。
+ **CSV** (comma-separated-values) 是一种基于行的文件格式，它以人类可读的纯文本存储数据，这是数据交换的热门选择，因为它们受到各种应用程序的支持。
+ **Parquet** 是一种基于列的文件格式，相比基于行的文件格式，数据的存储和处理更高效。这使它们成为解决大数据问题的更好选择。

列接受的**数据类型**包括数字、分类、文本。

Autopilot 支持在多达数百个的大型数据集上构建机器学习模型。 GBs有关输入数据集的默认资源限制以及如何提高这些限制的详细信息，请参阅 [Amazon A SageMaker utopilot 配额](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-quotas.html)。

## 目标指标
<a name="text-classification-objective-metric"></a>

以下列表包含当前可用于衡量文本分类模型性能的指标名称。

**`Accuracy`**  
 正确分类的项目数，相比所分类项目总数（正确和错误）的比率。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零 (0) 和壹 (1) 之间变化。值为 1 表示完全准确，0 表示完全不准确。