

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 标签
<a name="labeling"></a>

## 提供清晰的标签说明
<a name="instructions"></a>

数据集可能包含模棱两可的样本，从而导致整个数据集的标签不一致。例如，考虑为包含狗的图像添加标签的任务。有些样本可能只包含动物的一瞥。这些标签应该标上正面还是负面标签？ 这类问题可以通过向贴标商提供清晰客观的说明来解决。

## 使用多数票
<a name="voting"></a>

**现在考虑一个问题，即使用语音与其他词语相似或相同的单词来标记包含嘈杂音频 speech-to-text的数据集，例如 kno *w* and go、shoe and tw *o*、c *r* y and hig *h* 或 right and *w* rite 或 right and wr *it* e。**在这种情况下，贴标员可能会给这些样本加上不一致的标签。

为了保持标签的高度正确性，一种常见的方法是使用多数投票，即向多名工作人员提供相同的数据样本，然后汇总他们的结果。博客文章中描述了这种方法及其更复杂的变体。在 M AWS achine Learning 博客上[利用人群的智慧和 SageMaker Amazon AI Ground Truth 更准确地注释数据](https://aws.amazon.com/blogs/machine-learning/use-the-wisdom-of-crowds-with-amazon-sagemaker-ground-truth-to-annotate-data-more-accurately/)。