

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 建立資料集
<a name="canvas-import-dataset"></a>

**注意**  
如果您要將大於 5 GB 的資料集匯入至 Amazon SageMaker Canvas，我們建議您使用 Canvas 中的 [Data Wrangler 功能](canvas-data-prep.md)來建立資料流程。Data Wrangler 支援進階資料準備功能，例如[聯結](canvas-transform.md#canvas-transform-join)和[串聯](canvas-transform.md#canvas-transform-concatenate)資料。建立資料流程後，您可以將資料流程匯出為 Canvas 資料集，並開始建置模型。如需詳細資訊，請參閱[匯出以建立模型](canvas-processing-export-model.md)。

下列各節描述如何在 Amazon SageMaker Canvas 中建立資料集。針對自訂模型，您可以為表格式和影像資料建立資料集。對於即用型模型，您可以使用表格式和影像資料集以及文件資料集。根據下列資訊選擇您的工作流程：
+ 如需分類、數值、文字和時間序列資料，請參閱[匯入表格式資料](#canvas-import-dataset-tabular)。
+ 如需影像資料，請參閱[匯入影像資料](#canvas-import-dataset-image)。
+ 如需文件資料，請參閱[匯入文件資料](#canvas-ready-to-use-import-document)。

資料集可以由多個檔案組成。例如您可能有多個 CSV 格式的庫存資料檔案。只要檔案的結構描述 (或資料欄名稱和資料類型) 相符，您就可以將這些檔案作為資料集上傳。

Canvas 也支援管理資料集的多個版本。當您建立資料集時，第一版會標籤為 `V1`。您可以透過更新您的資料集來建立新版本的資料集。您可以進行手動更新，或者設定自動以新資料更新資料集的排程。如需詳細資訊，請參閱[更新資料集](canvas-update-dataset.md)。

將您的資料匯入至 Canvas 時，必須確保其符合下列資料表中的 要求。此為您要建置的模型類型特定限制。


| 限制 | 2 個類別、3 個以上類別、數值和時間序列模型 | 文字預測模型 | 影像預測模型 | \$1即用型模型的文件資料 | 
| --- | --- | --- | --- | --- | 
| 支援的檔案類型 |  CSV 和 Parquet (本機上傳、Amazon S3 或資料庫) JSON (資料庫)  |  CSV 和 Parquet (本機上傳、Amazon S3 或資料庫) JSON (資料庫)  | JPG、PNG | PDF、JPG、PNG、TIFF | 
| 檔案大小上限 |  本機上傳：5 GB 資料來源：PBs  |  本機上傳：5 GB 資料來源：PBs  | 每個影像 30 MB | 每份文件 5 MB | 
| 您可以一次上傳的檔案數量上限 | 30 | 30 | N/A | N/A | 
| 欄數上限 | 1,000 | 1,000 | N/A | N/A | 
| **快速建置**的項目數上限 (列、影像或文件) | N/A | 7500 列 | 5000 張影像 | N/A | 
| **標準建置**的項目數上限 (列、影像或文件) | N/A | 150,000 列 | 180,000 張影像 | N/A | 
| **快速建置**的項目數下限 (列) |  2 個類別：500 列 3 個以上類別、數值、時間序列：N/A  | N/A | N/A | N/A | 
| **標準建置**的項目數下限 (列、影像或文件) | 250 列 | 50 列 | 50 張影像 | N/A | 
|  每個標籤的項目數下限 (列或影像) | N/A | 25 列 | 25 列 | N/A | 
| 標籤數量下限 |  2 個類別：2 3 個以上類別：3 數值、時間序列：N/A  | 2 | 2 | N/A | 
|  隨機採樣的範例大小下限 | 500 | N/A | N/A | N/A | 
|  隨機採樣的範例大小上限 | 200,000 | N/A | N/A | N/A | 
| 標籤數量上限 |  2 個類別：2 3 個以上類別、數值、時間序列：N/A  | 1000 | 1000 | N/A | 

\$1文件資料目前僅支援接受文件資料的[即用型模型](canvas-ready-to-use-models.md)。您無法使用文件資料建立自訂模型。

也請注意以下限制：
+ 從 Amazon S3 儲存貯體匯入資料時，請確定您的 Amazon S3 儲存貯體名稱不包含 `.`。如果您的儲存貯體名稱包含 `.`，您可能會在嘗試將資料匯入至 Canvas 時遇到錯誤。
+ 針對表格式資料，Canvas 不允許針對本機上傳和 Amazon S3 匯入選取副檔名為 .csv、.parquet、.parq 和 .pqt 以外的任何副檔名的檔案。CSV 檔案可以使用任何常用或自訂分隔符號，但除了表示新列時，它們不得具有換行字元。
+ 針對使用 Parquet 檔案的表格式資料，請注意下列事項：
  + Parquet 檔案不能包含例如地圖和清單等複雜類型。
  + Parquet 檔案的欄位名稱不可含有空格。
  + 如果使用壓縮，則 Parquet 檔案必須使用 gzip 或 Snappy 壓縮類型。如需有關前面壓縮類型的更多相關資訊，請參閱 [gzip 文件](https://www.gzip.org/)和 [snappy 文件](https://github.com/google/snappy)。
+ 針對影像資料，如果您有任何未標籤的影像，則必須在建置模型之前加以標籤。如需如何在 Canvas 應用程式中為影像指派標籤的詳細資訊，請參閱[編輯影像資料集](canvas-edit-image.md)。
+ 如果您設定了自動資料集更新或自動批次預測組態，您只能在 Canvas 應用程式中建立總共 20 個組態。如需更多更多資訊，請參閱[如何管理自動化](canvas-manage-automations.md)。

匯入資料集之後，您可以隨時在**資料集**頁面上檢視您的資料集。

## 匯入表格式資料
<a name="canvas-import-dataset-tabular"></a>

使用表格式資料集，您可以建立分類、數值、時間序列預測和文字預測模型。檢閱上述**匯入資料集**一節中的限制表，以確定您的資料集符合表格式資料的要求。

請遵循下列程序將表格式資料集匯入 Canvas：

1. 開啟您的 SageMaker Canvas 應用程式。

1. 在左側的導覽窗格中，選擇**資料集**。

1. 選擇**匯入資料**。

1. 從下拉式清單中，選擇**表格式**。

1. 在快顯對話方塊的**資料集名稱**欄位中，輸入資料集的名稱，然後選擇**建立**。

1. 在**建立表格式資料集**頁面上，開啟**資料來源**下拉式功能表。

1. 選擇您的資料來源：
   + 若要從您的電腦上傳檔案，請選擇**本機上傳**。
   + 若要從其他來源，例如 Amazon S3 儲存貯體或 Snowflake 資料庫等匯入資料，請在**搜尋資料來源列**中搜尋您的資料來源。然後，選擇所需的資料來源圖磚。
**注意**  
您只能從具有作用中連線的圖磚匯入資料。如果您要連線至無法使用的資料來源，請聯絡您的管理員。如果您是管理員，請參閱[連線至資料來源](canvas-connecting-external.md)。

   下列螢幕擷取畫面顯示**資料來源**下拉式清單。  
![\[顯示資料來源下拉式清單，以及搜尋列中資料來源搜尋的螢幕擷取畫面。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/import-data-choose-source.png)

1. (選項) 如果您是第一次連線至 Amazon Redshift 或 Snowflake 資料庫，則會出現一個對話方塊來建立連線。使用您的憑證填寫對話方塊，然後選擇**建立連線**。如果您已有連線，請選擇您的連線。

1. 從資料來源中，選取要匯入的檔案。針對從本機上傳和 Amazon S3 匯入，您可以選取檔案。僅針對 Amazon S3，您也可以選擇直接在**輸入 S3 端點**欄位中輸入儲存貯體或 S3 存取點的 S3 URI、別名或 ARN，然後選擇要匯入的檔案。針對資料庫來源，您可以從左側導覽窗格拖放資料表。

1. (選用) 針對支援 SQL 查詢的表格式資料來源 (例如 Amazon Redshift、Amazon Athena 或 Snowflake)，您可以選擇**在 SQL 中編輯**，在匯入 SQL 之前進行 SQL 查詢。

   下列螢幕擷取畫面顯示 Amazon Athena 資料來源的**編輯 SQL** 檢視。  
![\[顯示 Amazon Athena 資料的編輯 SQL 檢視中的 SQL 查詢的螢幕擷取畫面。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/import-data-edit-sql.png)

1. (選用) 選擇**預覽資料集**，在匯入前預覽您的資料集。

1. 在**匯入設定**中，輸入**資料集名稱**或使用預設資料集名稱。

1. (選用) 對於您從 Amazon S3 匯入的資料，會為您顯示**進階**設定，而且您可以填寫下列欄位：

   1. 如果您想要使用資料集的第一列做為資料欄名稱，請開啟**使用第一列做為標頭**選項。如果您選取了多個檔案，這適用於每個檔案。

   1. 如果您要匯入 CSV 檔案，針對**檔案編碼 (CSV)** 下拉式清單，選取資料集檔案的編碼。`UTF-8` 是預設值。

   1. 針對**分隔符號**下拉式清單，選取分隔資料中每個儲存格的分隔符號。預設分隔符號為 `,`。您也可以指定自訂分隔符號。

   1. 如果您想要 Canvas 手動剖析整個資料集找出多行儲存格，請選取**多行偵測**。根據預設，不會選取此選項，而且 Canvas 會透過取得資料範例來判斷是否使用多行支援。不過，Canvas 可能不會偵測範例中的任何多行儲存格。如果您有多行儲存格，建議您選取**多行偵測**選項，強制 Canvas 檢查整個資料集找出多行儲存格。

1. 當您準備好匯入資料時，請選擇**建立資料集**。

將資料集匯入 Canvas 時，您可以在**資料集**頁面上看到您的資料集清單。在此頁面上，您可以[檢視資料集詳細資訊](#canvas-view-dataset-details)。

當您的資料集**狀態**顯示為 `Ready` 時，Canvas 已成功匯入資料，您可以繼續[建置模型](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)。

如果您有資料來源 (例如 Amazon Redshift 資料庫或 SaaS 連接器) 的連線，則您可以返回該連線。針對 Amazon Redshift 和 Snowflake，您可以建立另一個資料集、返回至**匯入資料**頁面，然後選擇該連線的**資料來源**圖磚，以新增另一個連線。從下拉式清單中，您可以開啟先前的連線或選擇**新增連線**。

**注意**  
針對 SaaS 平台，每個資料來源只能有一個連線。

## 匯入影像資料
<a name="canvas-import-dataset-image"></a>

您可以透過影像資料集建置單一標籤影像預測自訂模型，以預測影像的標籤。請檢閱前面**匯入資料集**章節中的限制，以確定您的影像資料集符合影像資料的需求。

**注意**  
您只能從本機檔案上傳或 Amazon S3 儲存貯體匯入影像資料集。此外，針對影像資料集，每個標籤至少必須有 25 個影像。

請使用下列程序將影像資料集匯入 Canvas：

1. 開啟您的 SageMaker Canvas 應用程式。

1. 在左側的導覽窗格中，選擇**資料集**。

1. 選擇**匯入資料**。

1. 從下拉式清單中選擇**影像**。

1. 在快顯對話方塊的**資料集名稱**欄位中，輸入資料集的名稱，然後選擇**建立**。

1. 在**匯入**頁面上，開啟**資料來源**下拉式清單。

1. 選擇您的資料來源。若要從您的電腦上傳檔案，請選擇**本機上傳**。若要從 Amazon S3 匯入檔案，請選擇 **Amazon S3**。

1. 從電腦或 Amazon S3 儲存貯體中，選取您要上傳的影像或影像資料夾。

1. 當您準備好匯入您的資料時，請選擇**匯入資料**。

將資料集匯入 Canvas 時，您可以在**資料集**頁面上看到您的資料集清單。在此頁面上，您可以[檢視資料集詳細資訊](#canvas-view-dataset-details)。

當您的資料集**狀態**顯示為 `Ready` 時，Canvas 已成功匯入資料，您可以繼續[建置模型](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)。

建置模型時您可以編輯影像資料集，也可以指派或重新指派標籤、新增影像或刪除資料集中的影像。如需編輯影像資料集的更多相關資訊，請參閱[編輯影像資料集](canvas-edit-image.md)。

## 匯入文件資料
<a name="canvas-ready-to-use-import-document"></a>

用於費用分析、身分文件分析、文件分析和文件查詢的即用型模型支援文件資料。您無法使用文件資料建立自訂模型。

透過文件資料即，您可以產生費用分析、身分文件分析、文件分析和文件查詢即用型模型的預測。請檢閱[建立資料集](#canvas-import-dataset)章節中的限制表格，以確定您的文件資料集符合文件資料的需求。

**注意**  
您只能從本機檔案上傳或 Amazon S3 儲存貯體匯入文件資料集。

請遵循下列程序將文件資料集匯入 Canvas：

1. 開啟您的 SageMaker Canvas 應用程式。

1. 在左側的導覽窗格中，選擇**資料集**。

1. 選擇**匯入資料**。

1. 在下拉式清單中選擇**文件**。

1. 在快顯對話方塊的**資料集名稱**欄位中，輸入資料集的名稱，然後選擇**建立**。

1. 在**匯入**頁面上，開啟**資料來源**下拉式清單。

1. 選擇您的資料來源。若要從您的電腦上傳檔案，請選擇**本機上傳**。若要從 Amazon S3 匯入檔案，請選擇 **Amazon S3**。

1. 從電腦或 Amazon S3 儲存貯體中，選取您要上傳的文件檔案。

1. 當您準備好匯入您的資料時，請選擇**匯入資料**。

將資料集匯入 Canvas 時，您可以在**資料集**頁面上看到您的資料集清單。在此頁面上，您可以[檢視資料集詳細資訊](#canvas-view-dataset-details)。

當您的資料集的**狀態**顯示為時 `Ready`，Canvas 已成功匯入您的資料。

在**資料集**頁面上，您可以選擇要預覽的資料集，最多可顯示您的資料集的前 100 個文件。

## 檢視資料集詳細資訊
<a name="canvas-view-dataset-details"></a>



針對每個資料集，您可以檢視資料集中的所有檔案、資料集的版本歷史記錄，以及資料集的任何自動更新組態。您也可以從**資料集**頁面啟動動作，例如[更新資料集](canvas-update-dataset.md)或[自訂模型的運作方式](canvas-build-model.md)。

若要檢視資料集的詳細資訊，請執行下列動作：

1. 開啟 SageMaker Canvas 應用程式。

1. 在左側的導覽窗格中，選擇** Datasets** (資料集)。

1. 從資料集清單中，選擇您的資料集。

在**資料**索引標籤上，您可以檢視資料的預覽。如果您選擇**資料集詳細資訊**，您可以檢視屬於您的資料集的所有檔案。選擇檔案以在預覽中僅查看該檔案中的資料。針對影像資料集，預覽只會顯示資料集的前 100 個影像。

在**版本歷史記錄**索引標籤上，您可以看到資料集所有版本的清單。每當您更新資料集時就會建立新版本。若要進一步了解如何更新資料集，請參閱[更新資料集](canvas-update-dataset.md)。下面的螢幕擷取畫面顯示了 Canvas 應用程式的**版本歷史記錄**索引標籤。

![\[資料集版本歷史記錄索引標籤螢幕擷取畫面，以及資料集版本清單。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-version-history.png)


在**自動更新**索引標籤上，您可以啟用資料集的自動更新，並設定定期更新資料集的排程組態。若要進一步了解如何設定資料集的自動更新，請參閱[設定資料集的自動更新](canvas-update-dataset-auto.md)。下列螢幕擷取畫面顯示已開啟自動更新的**自動更新**索引標籤，以及已在資料集上執行的自動更新工作清單。

![\[資料集的自動更新索引標籤，其中顯示自動更新已開啟以及列出自動更新任務。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-auto-updates.png)
