

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 選取要標籤的資料
<a name="sms-data-filtering"></a>

您可以透過 Amazon SageMaker AI 主控台來選取資料集的某部分進行標籤。資料必須儲存於 Amazon S3 儲存貯體。您有三種選項：
+ 使用完整資料集。
+ 選擇隨機選取的資料集範例。
+ 使用查詢指定資料集的子集。

在選取**建立標籤工作**之後，[SageMaker AI 主控台](https://console.aws.amazon.com/sagemaker/groundtruth)的**標籤工作**區段提供下列選項。若要了解如何在主控台中建立標籤工作，請參閱[入門：使用 Ground Truth 建立週框方塊標籤工作](sms-getting-started.md)。若要配置用於標籤的資料集，請在 **Job overview (工作概觀)** 區段中選擇 **Additional configuration (其他組態)**。

## 使用完整資料集
<a name="sms-full-dataset"></a>

當您選擇使用**完整資料集**時，您必須為資料物件提供資訊清單檔案。您可以提供資訊清單檔案所在的 Amazon S3 儲存貯體路徑，也可以使用 SageMaker AI 主控台建立檔案。若要了解如何使用主控台建立資訊清單檔案，請參閱[自動化標籤工作的資料設定](sms-console-create-manifest-file.md)。

## 選擇隨機範例
<a name="sms-random-dataset"></a>

當您想要標籤資料的隨機子集時，請選取 **Random sample (隨機樣本)**。資料集儲存在 Amazon S3 儲存貯體 (已於**輸入資料集的位置**欄位指定)。

在您指定您希望包含在範例的資料物件百分比後，請選擇 **Create subset** (建立子集)。SageMaker AI 主控台會為您的標籤工作隨機挑選資料物件。選取物件後，請選擇 **Use this subset** (使用此子集)。

SageMaker AI 為所選資料物件建立資訊清單檔案。也會修改 **Input dataset location** (輸入資料集的位置) 欄位中的值，以指向新的資訊清單檔案。

## 指定子集
<a name="sms-select-dataset"></a>

**Amazon S3 Select**  
Amazon S3 Select 不再提供給新客戶。Amazon S3 Select 的現有客戶可以繼續照常使用此功能。若要進一步了解，請參閱[如何在 Amazon S3 中最佳化您的資料查詢](https://aws.amazon.com/blogs/storage/how-to-optimize-querying-your-data-in-amazon-s3/)

您可以對物件檔案名稱使用 Amazon S3 `SELECT` 查詢來指定資料物件的子集。

會為您定義 SQL 查詢的 `SELECT` 陳述式。由您提供 `WHERE` 子句來指定應傳回哪些資料物件。

如需 Amazon S3 `SELECT` 陳述式的更多相關資訊，請參閱[從物件中選取內容](https://docs.aws.amazon.com/AmazonS3/latest/dev/selecting-content-from-objects.html)。

選擇 **Create subset** (建立子集) 開始選取，然後選擇 **Use this subset** (使用此子集) 來使用所選的資料。

SageMaker AI 為所選資料物件建立資訊清單檔案。也會更新 **Input dataset location** (輸入資料集的位置) 欄位中的值，以指向新的資訊清單檔案。