

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 資料匯入
<a name="canvas-importing-data"></a>

Amazon SageMaker Canvas 支援匯入表格式、影像和文件資料。您可以從本機電腦、Amazon S3 和 Amazon Redshift 等 Amazon 服務，以及外部資料來源匯入資料集。從 Amazon S3 匯入資料集時，您可以攜帶任何大小的資料集。使用您匯入的資料集來建置模型並預測其他資料集。

您可以建立自訂模型的每個使用案例都接受不同類型的輸入。例如，如果您要建置單一標籤影像分類模型，則應匯入影像資料。如需有關不同模型類型及其接受資料的更多相關資訊，請參閱[自訂模型的運作方式](canvas-build-model.md)。您可以針對下列資料類型，在 SageMaker Canvas 中匯入資料並建立自訂模型：
+ **表格式** (CSV、Parquet 或資料表)
  + 分類 — 使用分類資料建置 2 和 3 個以上類別預測的自訂分類預測模型。
  + 數字 — 使用數值資料建置自訂的數值預測模型。
  + 文字 — 使用文字資料建置自訂的多類別文字預測模型。
  + 時間序列 — 使用時間序列資料來建置自訂時間序列預測模型。
+ **映像** (JPG 或 PNG) — 使用映像資料建置自訂的單一標籤影像預測模型。
+ **文件** (PDF、JPG、PNG、TIFF) — 僅支援 SageMaker Canvas 即用型模型的文件資料。若要進一步了解可針對文件資料進行預測的即用型模型，請參閱[即用型模型](canvas-ready-to-use-models.md)。

您可以從下列資料來源將資料匯入 Canvas：
+ 本機電腦上的檔案
+ Amazon S3 儲存貯體
+ Amazon Redshift 佈建叢集 (非 Amazon Redshift Serverless)
+ AWS Glue Data Catalog 透過 Amazon Athena
+ Amazon Aurora
+ Amazon Relational Database Service (Amazon RDS)
+ Salesforce Data Cloud
+ Snowflake
+ Databricks、SQLServer、MariaDB 和其他透過 JDBC 連接器的 熱門資料庫
+ 超過 40 個外部軟體 SaaS 平台，例如 SAP OData

如需您可以從中匯入的資料來源完整清單，請參閱下表：


| 來源 | Type | 支援的資料類型 | 
| --- | --- | --- | 
| 本機檔案上傳 | 區域 | 表格式、影像、文件 | 
| Amazon Aurora | Amazon 內部 | 表格式 | 
| Amazon S3 儲存貯體 | Amazon 內部 | 表格式、影像、文件 | 
| Amazon RDS | Amazon 內部 | 表格式 | 
| Amazon Redshift 佈建叢集 (非 Redshift Serverless) | Amazon 內部 | 表格式 | 
| AWS Glue Data Catalog （透過 Amazon Athena) | Amazon 內部 | 表格式 | 
| [Databricks](https://www.databricks.com/) | 外部 | 表格式 | 
| Snowflake | 外部 | 表格式 | 
| [Salesforce Data Cloud](https://www.salesforce.com/products/genie/overview/) | 外部 | 表格式 | 
| sqlserver | 外部 | 表格式 | 
| MySQL | 外部 | 表格式 | 
| PostgreSQL | 外部 | 表格式 | 
| MariaDB | 外部 | 表格式 | 
| [Amplitude](https://docs.aws.amazon.com/appflow/latest/userguide/amplitude.html) | 外部 SaaS 平台 | 表格式 | 
| [CircleCI](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-circleci.html) | 外部 SaaS 平台 | 表格式 | 
| [DocuSign 監控](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-docusign-monitor.html) | 外部 SaaS 平台 | 表格式 | 
| [Domo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-domo.html) | 外部 SaaS 平台 | 表格式 | 
| [Datadog](https://docs.aws.amazon.com/appflow/latest/userguide/datadog.html) | 外部 SaaS 平台 | 表格式 | 
| [Dynatrace](https://docs.aws.amazon.com/appflow/latest/userguide/dynatrace.html) | 外部 SaaS 平台 | 表格式 | 
| [Facebook 廣告](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-ads.html) | 外部 SaaS 平台 | 表格式 | 
| [Facebook 粉絲專頁洞察](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-page-insights.html) | 外部 SaaS 平台 | 表格式 | 
| [Google Ads](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-ads.html) | 外部 SaaS 平台 | 表格式 | 
| [Google Analytics 4](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-analytics-4.html) | 外部 SaaS 平台 | 表格式 | 
| [Google 網站管理員](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-search-console.html) | 外部 SaaS 平台 | 表格式 | 
| [GitHub](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-github.html) | 外部 SaaS 平台 | 表格式 | 
| [GitLab](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-gitlab.html) | 外部 SaaS 平台 | 表格式 | 
| [Infor Nexus](https://docs.aws.amazon.com/appflow/latest/userguide/infor-nexus.html) | 外部 SaaS 平台 | 表格式 | 
| [Instagram 廣告](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-instagram-ads.html) | 外部 SaaS 平台 | 表格式 | 
| [Jira Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jira-cloud.html) | 外部 SaaS 平台 | 表格式 | 
| [LinkedIn 廣告](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-linkedin-ads.html) | 外部 SaaS 平台 | 表格式 | 
| [LinkedIn 廣告](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-linkedin-ads.html) | 外部 SaaS 平台 | 表格式 | 
| [Mailchimp](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mailchimp.html) | 外部 SaaS 平台 | 表格式 | 
| [Marketo](https://docs.aws.amazon.com/appflow/latest/userguide/marketo.html) | 外部 SaaS 平台 | 表格式 | 
| [Microsoft Teams](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-teams.html) | 外部 SaaS 平台 | 表格式 | 
| [Mixpanel](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mixpanel.html) | 外部 SaaS 平台 | 表格式 | 
| [Okta](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-okta.html) | 外部 SaaS 平台 | 表格式 | 
| [Salesforce](https://docs.aws.amazon.com/appflow/latest/userguide/salesforce.html) | 外部 SaaS 平台 | 表格式 | 
| [Salesforce Marketing Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-salesforce-marketing-cloud.html) | 外部 SaaS 平台 | 表格式 | 
| [Salesforce Pardot](https://docs.aws.amazon.com/appflow/latest/userguide/pardot.html) | 外部 SaaS 平台 | 表格式 | 
| [SAP OData](https://docs.aws.amazon.com/appflow/latest/userguide/sapodata.html) | 外部 SaaS 平台 | 表格式 | 
| [SendGrid](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-sendgrid.html) | 外部 SaaS 平台 | 表格式 | 
| [ServiceNow](https://docs.aws.amazon.com/appflow/latest/userguide/servicenow.html) | 外部 SaaS 平台 | 表格式 | 
| [Singular](https://docs.aws.amazon.com/appflow/latest/userguide/singular.html) | 外部 SaaS 平台 | 表格式 | 
| [Slack](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html) | 外部 SaaS 平台 | 表格式 | 
| [Stripe](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-stripe.html) | 外部 SaaS 平台 | 表格式 | 
| [Trend Micro](https://docs.aws.amazon.com/appflow/latest/userguide/trend-micro.html) | 外部 SaaS 平台 | 表格式 | 
| [Typeform](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-typeform.html) | 外部 SaaS 平台 | 表格式 | 
| [Veeva](https://docs.aws.amazon.com/appflow/latest/userguide/veeva.html) | 外部 SaaS 平台 | 表格式 | 
| [Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/zendesk.html) | 外部 SaaS 平台 | 表格式 | 
| [Zendesk Chat](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-chat.html) | 外部 SaaS 平台 | 表格式 | 
| [Zendesk Sell](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sell.html) | 外部 SaaS 平台 | 表格式 | 
| [Zendesk Sunshine](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sunshine.html) | 外部 SaaS 平台 | 表格式 | 
| [Zoom Meetings](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoom.html) | 外部 SaaS 平台 | 表格式 | 

如需有關如何匯入資料和輸入資料需求的資訊，例如影像的檔案大小上限等的指示，請參閱[建立資料集](canvas-import-dataset.md)。

Canvas 也在您的應用程式中提供多個範例資料集，協助您快速入門。若要進一步了解您可以試驗的 SageMaker AI 提供的範例資料集，請參閱[使用範例資料集](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-sample-datasets.html)。

將資料集匯入 Canvas 之後，您可以隨時更新資料集。您可以進行手動更新，也可以設定自動更新資料集的排程。如需詳細資訊，請參閱[更新資料集](canvas-update-dataset.md)。

如需各個資料集類型的更多資訊，請參閱下列章節：

**表格式**

若要從外部資料來源 (例如 Snowflake 資料庫或 SaaS 平台) 匯入資料，您必須在 Canvas 應用程式中驗證並連線至資料來源。如需詳細資訊，請參閱[連線至資料來源](canvas-connecting-external.md)。

如果您想要將大於 5 GB 的資料集從 Amazon S3 匯入至 Canvas，您可以使用 Amazon Athena 從 Amazon S3 查詢和取樣資料，以實現更快的取樣。

在 Canvas 中建立資料集之後，您可以使用 Data Wrangler 的資料準備功能來準備和轉換資料。您可以使用 Data Wrangler 來處理缺失值、轉換您的功能、將多個資料集聯結為單一資料集等。如需詳細資訊，請參閱[資料準備](canvas-data-prep.md)。

**提示**  
只要將資料排列到資料表中，就可以聯結來自各種來源的資料集，例如 Amazon Redshift、Amazon Athena 或 Snowflake。

**影像**

如需有關如何編輯影像資料集和執行指派或重新指派標籤、新增影像或刪除圖片等任務的資訊，請參閱[編輯影像資料集](canvas-edit-image.md)。

# 建立資料集
<a name="canvas-import-dataset"></a>

**注意**  
如果您要將大於 5 GB 的資料集匯入至 Amazon SageMaker Canvas，我們建議您使用 Canvas 中的 [Data Wrangler 功能](canvas-data-prep.md)來建立資料流程。Data Wrangler 支援進階資料準備功能，例如[聯結](canvas-transform.md#canvas-transform-join)和[串聯](canvas-transform.md#canvas-transform-concatenate)資料。建立資料流程後，您可以將資料流程匯出為 Canvas 資料集，並開始建置模型。如需詳細資訊，請參閱[匯出以建立模型](canvas-processing-export-model.md)。

下列各節描述如何在 Amazon SageMaker Canvas 中建立資料集。針對自訂模型，您可以為表格式和影像資料建立資料集。對於即用型模型，您可以使用表格式和影像資料集以及文件資料集。根據下列資訊選擇您的工作流程：
+ 如需分類、數值、文字和時間序列資料，請參閱[匯入表格式資料](#canvas-import-dataset-tabular)。
+ 如需影像資料，請參閱[匯入影像資料](#canvas-import-dataset-image)。
+ 如需文件資料，請參閱[匯入文件資料](#canvas-ready-to-use-import-document)。

資料集可以由多個檔案組成。例如您可能有多個 CSV 格式的庫存資料檔案。只要檔案的結構描述 (或資料欄名稱和資料類型) 相符，您就可以將這些檔案作為資料集上傳。

Canvas 也支援管理資料集的多個版本。當您建立資料集時，第一版會標籤為 `V1`。您可以透過更新您的資料集來建立新版本的資料集。您可以進行手動更新，或者設定自動以新資料更新資料集的排程。如需詳細資訊，請參閱[更新資料集](canvas-update-dataset.md)。

將您的資料匯入至 Canvas 時，必須確保其符合下列資料表中的 要求。此為您要建置的模型類型特定限制。


| 限制 | 2 個類別、3 個以上類別、數值和時間序列模型 | 文字預測模型 | 影像預測模型 | \$1即用型模型的文件資料 | 
| --- | --- | --- | --- | --- | 
| 支援的檔案類型 |  CSV 和 Parquet (本機上傳、Amazon S3 或資料庫) JSON (資料庫)  |  CSV 和 Parquet (本機上傳、Amazon S3 或資料庫) JSON (資料庫)  | JPG、PNG | PDF、JPG、PNG、TIFF | 
| 檔案大小上限 |  本機上傳：5 GB 資料來源：PBs  |  本機上傳：5 GB 資料來源：PBs  | 每個影像 30 MB | 每份文件 5 MB | 
| 您可以一次上傳的檔案數量上限 | 30 | 30 | N/A | N/A | 
| 欄數上限 | 1,000 | 1,000 | N/A | N/A | 
| **快速建置**的項目數上限 (列、影像或文件) | N/A | 7500 列 | 5000 張影像 | N/A | 
| **標準建置**的項目數上限 (列、影像或文件) | N/A | 150,000 列 | 180,000 張影像 | N/A | 
| **快速建置**的項目數下限 (列) |  2 個類別：500 列 3 個以上類別、數值、時間序列：N/A  | N/A | N/A | N/A | 
| **標準建置**的項目數下限 (列、影像或文件) | 250 列 | 50 列 | 50 張影像 | N/A | 
|  每個標籤的項目數下限 (列或影像) | N/A | 25 列 | 25 列 | N/A | 
| 標籤數量下限 |  2 個類別：2 3 個以上類別：3 數值、時間序列：N/A  | 2 | 2 | N/A | 
|  隨機採樣的範例大小下限 | 500 | N/A | N/A | N/A | 
|  隨機採樣的範例大小上限 | 200,000 | N/A | N/A | N/A | 
| 標籤數量上限 |  2 個類別：2 3 個以上類別、數值、時間序列：N/A  | 1000 | 1000 | N/A | 

\$1文件資料目前僅支援接受文件資料的[即用型模型](canvas-ready-to-use-models.md)。您無法使用文件資料建立自訂模型。

也請注意以下限制：
+ 從 Amazon S3 儲存貯體匯入資料時，請確定您的 Amazon S3 儲存貯體名稱不包含 `.`。如果您的儲存貯體名稱包含 `.`，您可能會在嘗試將資料匯入至 Canvas 時遇到錯誤。
+ 針對表格式資料，Canvas 不允許針對本機上傳和 Amazon S3 匯入選取副檔名為 .csv、.parquet、.parq 和 .pqt 以外的任何副檔名的檔案。CSV 檔案可以使用任何常用或自訂分隔符號，但除了表示新列時，它們不得具有換行字元。
+ 針對使用 Parquet 檔案的表格式資料，請注意下列事項：
  + Parquet 檔案不能包含例如地圖和清單等複雜類型。
  + Parquet 檔案的欄位名稱不可含有空格。
  + 如果使用壓縮，則 Parquet 檔案必須使用 gzip 或 Snappy 壓縮類型。如需有關前面壓縮類型的更多相關資訊，請參閱 [gzip 文件](https://www.gzip.org/)和 [snappy 文件](https://github.com/google/snappy)。
+ 針對影像資料，如果您有任何未標籤的影像，則必須在建置模型之前加以標籤。如需如何在 Canvas 應用程式中為影像指派標籤的詳細資訊，請參閱[編輯影像資料集](canvas-edit-image.md)。
+ 如果您設定了自動資料集更新或自動批次預測組態，您只能在 Canvas 應用程式中建立總共 20 個組態。如需更多更多資訊，請參閱[如何管理自動化](canvas-manage-automations.md)。

匯入資料集之後，您可以隨時在**資料集**頁面上檢視您的資料集。

## 匯入表格式資料
<a name="canvas-import-dataset-tabular"></a>

使用表格式資料集，您可以建立分類、數值、時間序列預測和文字預測模型。檢閱上述**匯入資料集**一節中的限制表，以確定您的資料集符合表格式資料的要求。

請遵循下列程序將表格式資料集匯入 Canvas：

1. 開啟您的 SageMaker Canvas 應用程式。

1. 在左側的導覽窗格中，選擇**資料集**。

1. 選擇**匯入資料**。

1. 從下拉式清單中，選擇**表格式**。

1. 在快顯對話方塊的**資料集名稱**欄位中，輸入資料集的名稱，然後選擇**建立**。

1. 在**建立表格式資料集**頁面上，開啟**資料來源**下拉式功能表。

1. 選擇您的資料來源：
   + 若要從您的電腦上傳檔案，請選擇**本機上傳**。
   + 若要從其他來源，例如 Amazon S3 儲存貯體或 Snowflake 資料庫等匯入資料，請在**搜尋資料來源列**中搜尋您的資料來源。然後，選擇所需的資料來源圖磚。
**注意**  
您只能從具有作用中連線的圖磚匯入資料。如果您要連線至無法使用的資料來源，請聯絡您的管理員。如果您是管理員，請參閱[連線至資料來源](canvas-connecting-external.md)。

   下列螢幕擷取畫面顯示**資料來源**下拉式清單。  
![\[顯示資料來源下拉式清單，以及搜尋列中資料來源搜尋的螢幕擷取畫面。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/import-data-choose-source.png)

1. (選項) 如果您是第一次連線至 Amazon Redshift 或 Snowflake 資料庫，則會出現一個對話方塊來建立連線。使用您的憑證填寫對話方塊，然後選擇**建立連線**。如果您已有連線，請選擇您的連線。

1. 從資料來源中，選取要匯入的檔案。針對從本機上傳和 Amazon S3 匯入，您可以選取檔案。僅針對 Amazon S3，您也可以選擇直接在**輸入 S3 端點**欄位中輸入儲存貯體或 S3 存取點的 S3 URI、別名或 ARN，然後選擇要匯入的檔案。針對資料庫來源，您可以從左側導覽窗格拖放資料表。

1. (選用) 針對支援 SQL 查詢的表格式資料來源 (例如 Amazon Redshift、Amazon Athena 或 Snowflake)，您可以選擇**在 SQL 中編輯**，在匯入 SQL 之前進行 SQL 查詢。

   下列螢幕擷取畫面顯示 Amazon Athena 資料來源的**編輯 SQL** 檢視。  
![\[顯示 Amazon Athena 資料的編輯 SQL 檢視中的 SQL 查詢的螢幕擷取畫面。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/import-data-edit-sql.png)

1. (選用) 選擇**預覽資料集**，在匯入前預覽您的資料集。

1. 在**匯入設定**中，輸入**資料集名稱**或使用預設資料集名稱。

1. (選用) 對於您從 Amazon S3 匯入的資料，會為您顯示**進階**設定，而且您可以填寫下列欄位：

   1. 如果您想要使用資料集的第一列做為資料欄名稱，請開啟**使用第一列做為標頭**選項。如果您選取了多個檔案，這適用於每個檔案。

   1. 如果您要匯入 CSV 檔案，針對**檔案編碼 (CSV)** 下拉式清單，選取資料集檔案的編碼。`UTF-8` 是預設值。

   1. 針對**分隔符號**下拉式清單，選取分隔資料中每個儲存格的分隔符號。預設分隔符號為 `,`。您也可以指定自訂分隔符號。

   1. 如果您想要 Canvas 手動剖析整個資料集找出多行儲存格，請選取**多行偵測**。根據預設，不會選取此選項，而且 Canvas 會透過取得資料範例來判斷是否使用多行支援。不過，Canvas 可能不會偵測範例中的任何多行儲存格。如果您有多行儲存格，建議您選取**多行偵測**選項，強制 Canvas 檢查整個資料集找出多行儲存格。

1. 當您準備好匯入資料時，請選擇**建立資料集**。

將資料集匯入 Canvas 時，您可以在**資料集**頁面上看到您的資料集清單。在此頁面上，您可以[檢視資料集詳細資訊](#canvas-view-dataset-details)。

當您的資料集**狀態**顯示為 `Ready` 時，Canvas 已成功匯入資料，您可以繼續[建置模型](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)。

如果您有資料來源 (例如 Amazon Redshift 資料庫或 SaaS 連接器) 的連線，則您可以返回該連線。針對 Amazon Redshift 和 Snowflake，您可以建立另一個資料集、返回至**匯入資料**頁面，然後選擇該連線的**資料來源**圖磚，以新增另一個連線。從下拉式清單中，您可以開啟先前的連線或選擇**新增連線**。

**注意**  
針對 SaaS 平台，每個資料來源只能有一個連線。

## 匯入影像資料
<a name="canvas-import-dataset-image"></a>

您可以透過影像資料集建置單一標籤影像預測自訂模型，以預測影像的標籤。請檢閱前面**匯入資料集**章節中的限制，以確定您的影像資料集符合影像資料的需求。

**注意**  
您只能從本機檔案上傳或 Amazon S3 儲存貯體匯入影像資料集。此外，針對影像資料集，每個標籤至少必須有 25 個影像。

請使用下列程序將影像資料集匯入 Canvas：

1. 開啟您的 SageMaker Canvas 應用程式。

1. 在左側的導覽窗格中，選擇**資料集**。

1. 選擇**匯入資料**。

1. 從下拉式清單中選擇**影像**。

1. 在快顯對話方塊的**資料集名稱**欄位中，輸入資料集的名稱，然後選擇**建立**。

1. 在**匯入**頁面上，開啟**資料來源**下拉式清單。

1. 選擇您的資料來源。若要從您的電腦上傳檔案，請選擇**本機上傳**。若要從 Amazon S3 匯入檔案，請選擇 **Amazon S3**。

1. 從電腦或 Amazon S3 儲存貯體中，選取您要上傳的影像或影像資料夾。

1. 當您準備好匯入您的資料時，請選擇**匯入資料**。

將資料集匯入 Canvas 時，您可以在**資料集**頁面上看到您的資料集清單。在此頁面上，您可以[檢視資料集詳細資訊](#canvas-view-dataset-details)。

當您的資料集**狀態**顯示為 `Ready` 時，Canvas 已成功匯入資料，您可以繼續[建置模型](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)。

建置模型時您可以編輯影像資料集，也可以指派或重新指派標籤、新增影像或刪除資料集中的影像。如需編輯影像資料集的更多相關資訊，請參閱[編輯影像資料集](canvas-edit-image.md)。

## 匯入文件資料
<a name="canvas-ready-to-use-import-document"></a>

用於費用分析、身分文件分析、文件分析和文件查詢的即用型模型支援文件資料。您無法使用文件資料建立自訂模型。

透過文件資料即，您可以產生費用分析、身分文件分析、文件分析和文件查詢即用型模型的預測。請檢閱[建立資料集](#canvas-import-dataset)章節中的限制表格，以確定您的文件資料集符合文件資料的需求。

**注意**  
您只能從本機檔案上傳或 Amazon S3 儲存貯體匯入文件資料集。

請遵循下列程序將文件資料集匯入 Canvas：

1. 開啟您的 SageMaker Canvas 應用程式。

1. 在左側的導覽窗格中，選擇**資料集**。

1. 選擇**匯入資料**。

1. 在下拉式清單中選擇**文件**。

1. 在快顯對話方塊的**資料集名稱**欄位中，輸入資料集的名稱，然後選擇**建立**。

1. 在**匯入**頁面上，開啟**資料來源**下拉式清單。

1. 選擇您的資料來源。若要從您的電腦上傳檔案，請選擇**本機上傳**。若要從 Amazon S3 匯入檔案，請選擇 **Amazon S3**。

1. 從電腦或 Amazon S3 儲存貯體中，選取您要上傳的文件檔案。

1. 當您準備好匯入您的資料時，請選擇**匯入資料**。

將資料集匯入 Canvas 時，您可以在**資料集**頁面上看到您的資料集清單。在此頁面上，您可以[檢視資料集詳細資訊](#canvas-view-dataset-details)。

當您的資料集的**狀態**顯示為時 `Ready`，Canvas 已成功匯入您的資料。

在**資料集**頁面上，您可以選擇要預覽的資料集，最多可顯示您的資料集的前 100 個文件。

## 檢視資料集詳細資訊
<a name="canvas-view-dataset-details"></a>



針對每個資料集，您可以檢視資料集中的所有檔案、資料集的版本歷史記錄，以及資料集的任何自動更新組態。您也可以從**資料集**頁面啟動動作，例如[更新資料集](canvas-update-dataset.md)或[自訂模型的運作方式](canvas-build-model.md)。

若要檢視資料集的詳細資訊，請執行下列動作：

1. 開啟 SageMaker Canvas 應用程式。

1. 在左側的導覽窗格中，選擇** Datasets** (資料集)。

1. 從資料集清單中，選擇您的資料集。

在**資料**索引標籤上，您可以檢視資料的預覽。如果您選擇**資料集詳細資訊**，您可以檢視屬於您的資料集的所有檔案。選擇檔案以在預覽中僅查看該檔案中的資料。針對影像資料集，預覽只會顯示資料集的前 100 個影像。

在**版本歷史記錄**索引標籤上，您可以看到資料集所有版本的清單。每當您更新資料集時就會建立新版本。若要進一步了解如何更新資料集，請參閱[更新資料集](canvas-update-dataset.md)。下面的螢幕擷取畫面顯示了 Canvas 應用程式的**版本歷史記錄**索引標籤。

![\[資料集版本歷史記錄索引標籤螢幕擷取畫面，以及資料集版本清單。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-version-history.png)


在**自動更新**索引標籤上，您可以啟用資料集的自動更新，並設定定期更新資料集的排程組態。若要進一步了解如何設定資料集的自動更新，請參閱[設定資料集的自動更新](canvas-update-dataset-auto.md)。下列螢幕擷取畫面顯示已開啟自動更新的**自動更新**索引標籤，以及已在資料集上執行的自動更新工作清單。

![\[資料集的自動更新索引標籤，其中顯示自動更新已開啟以及列出自動更新任務。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-auto-updates.png)


# 更新資料集
<a name="canvas-update-dataset"></a>

將初始資料集匯入 Amazon SageMaker Canvas 之後，您可能還有其他要新增到資料集的資料。例如，您可能會在每週結束時取得要新增至資料集的庫存資料。您可以更新現有的資料集，並在其中新增或移除檔案，而不必多次匯入資料。

**注意**  
您只能更新透過本機上傳或 Amazon S3 匯入的資料集。

您可以手動或自動更新您的資料集。如需自動資料集更新的詳細資訊，請參閱[設定資料集的自動更新](canvas-update-dataset-auto.md)。

每次更新您的資料集時，Canvas 就會建立新版本的資料集。您只能使用最新版本的資料集來建立模型或產生預測。如需檢視資料集的版本歷史記錄的更多相關資訊，請參閱[檢視資料集詳細資訊](canvas-import-dataset.md#canvas-view-dataset-details)。

您也可以將資料集更新與自動批次預測搭配使用，這會在每次您更新資料集時啟動批次預測工作。如需詳細資訊，請參閱[SageMaker Canvas 中的批次預測](canvas-make-predictions-batch.md)。

下節描述如何對您的資料集執行手動更新。

## 手動更新資料集
<a name="canvas-update-dataset-manual"></a>

若要手動更新，請執行下列動作：

1. 開啟 SageMaker Canvas 應用程式。

1. 在左側的導覽窗格中，選擇**資料集**。

1. 從資料集清單中，選擇您要更新的資料集。

1. 選擇**更新資料集**下拉式選單，然後選擇**手動更新**。系統會將您轉移至匯入資料工作流程。

1. 從**資料來源**下拉式清單中選擇**本機上傳**或 **Amazon S3**。

1. 此頁面會顯示資料的預覽。您可以在此處新增或移除資料集中的檔案。如果您要匯入表格式資料，則新檔案的結構描述 (欄位名稱和資料類型) 必須與現有檔案的結構描述相符。此外，您的新檔案不得超過資料集大小或檔案大小上限。如需這些限制的更多相關資訊，請參閱[匯入資料集](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-import-dataset.html)。
**注意**  
如果您在資料集中新增與現有檔案名稱相同的檔案，則新檔案會覆寫舊版本的檔案。

1. 當您準備好儲存變更時，請選擇**更新資料集**。

現在您應已擁有資料集的新版本。

在**資料集**頁面上，您可以選擇**版本歷史記錄**索引標籤，查看資料集的所有版本，以及您所做的手動和自動更新歷史記錄。

# 設定資料集的自動更新
<a name="canvas-update-dataset-auto"></a>

將初始資料集匯入 Amazon SageMaker Canvas 之後，您可能還有其他要新增到資料集的資料。例如，您可能會在每週結束時取得要新增至資料集的庫存資料。您可以更新現有的資料集，並在其中新增或移除檔案，而不必多次匯入資料。

**注意**  
您只能更新透過本機上傳或 Amazon S3 匯入的資料集。

透過自動資料集更新，您可以指定 Canvas 以您指定的頻率檢查檔案的位置。如果您在更新期間匯入新檔案，則檔案的結構描述必須與現有資料集完全相符。

每次更新您的資料集時，Canvas 就會建立新版本的資料集。您只能使用最新版本的資料集來建立模型或產生預測。如需檢視資料集的版本歷史記錄的更多相關資訊，請參閱[檢視資料集詳細資訊](canvas-import-dataset.md#canvas-view-dataset-details)。

您也可以將資料集更新與自動批次預測搭配使用，這會在每次您更新資料集時啟動批次預測工作。如需詳細資訊，請參閱[SageMaker Canvas 中的批次預測](canvas-make-predictions-batch.md)。

下節描述如何對您的資料集執行自動更新。

自動更新是指設定 Canvas 組態，使其以指定頻率更新資料集。如果您定期獲得要新增至資料集的新資料檔案，建議您使用此選項。

設定自動更新組態時，您可以指定上傳檔案的 Amazon S3 位置，以及 Canvas 檢查位置和匯入檔案的頻率。每個 Canvas 更新資料集的執行個體都稱為*工作*。Canvas 會針對各個工作匯入 Amazon S3 位置中的所有檔案。如果您在資料集中擁有與現有檔案名稱相同的檔案，則 Canvas 會用新檔案覆寫舊檔案。

針對自動更新資料集，Canvas 不會執行結構描述驗證。如果在自動更新期間匯入的檔案結構描述與現有檔案的結構描述不符，或超過大小限制 (請參閱[匯入資料集](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-import-dataset.html)以取得檔案大小限制的資料表)，則在工作執行時會發生錯誤。

**注意**  
您最多只能在 Canvas 應用程式中設定 20 個自動組態。此外，Canvas 只會在您登入 Canvas 應用程式時執行自動更新。如果您登出 Canvas 應用程式，自動更新會暫停，直到您重新登入為止。

若要設定資料集的自動更新，請執行下列動作：

1. 開啟 SageMaker Canvas 應用程式。

1. 在左側的導覽窗格中，選擇**資料集**。

1. 從資料集清單中，選擇您要更新的資料集。

1. 選擇**更新資料集**下拉式清單，然後選擇**自動更新**。您會被導向至資料集的**自動更新**索引標籤。

1. 開啟**啟用自動更新**切換。

1. 針對**指定資料來源**，輸入您計劃定期上傳檔案的資料夾 Amazon S3 路徑。

1. 在**選擇頻率**，選取**每小時**、**每週**或**每天**。

1. 針對**指定開始時間**，請使用行事曆和時間選擇器來選取您希望第一次自動更新工作開始的時間。

1. 當您準備好建立自動更新組態時，請選擇**儲存**。

Canvas 會在指定開始時間開始自動更新節奏的第一個工作。

# 檢視自動資料集更新工作
<a name="canvas-update-dataset-auto-view"></a>

若要在 Amazon SageMaker Canvas 中檢視自動資料集更新的任務歷程記錄，請在資料集詳細資訊頁面上選擇**自動更新**索引標籤。

資料集的每個自動更新都會在**工作歷史記錄**區段下的**自動更新**索引標籤中顯示為工作。您可以在每個工作中看到下列各項：
+ **已建立工作** - Canvas 開始更新資料集的時間戳記。
+ **檔案** - 資料集中的檔案數量。
+ **儲存格 (欄 x 列)** - 資料集中的欄數和列數。
+ **狀態** - 更新之後的資料集狀態。如果工作成功，則狀態為**就緒**。如果工作因任何原因而失敗，則狀態為**失敗**，您可以將游標暫留在狀態上以獲得更多詳細資訊。

# 編輯自動資料集更新組態
<a name="canvas-update-dataset-auto-edit"></a>

您可能想要變更資料集的自動更新組態，例如變更更新頻率。您也可能希望關閉自動更新組態，以暫停資料集的更新。

若要變更資料集的自動更新組態，請前往資料集的**自動更新**索引標籤，然後選擇**編輯**以變更組態。

若要暫停資料集更新，請關閉自動組態。您可以前往資料集的**自動更新**索引標籤，然後關閉**啟用自動更新**以關閉自動更新。您可以隨時重新開啟此切換，以繼續更新排程。

若要了解如何刪除組態，請參閱[刪除自動組態](canvas-manage-automations-delete.md)。

# 連線至資料來源
<a name="canvas-connecting-external"></a>

在 Amazon SageMaker Canvas 中，您可以透過 AWS 服務、SaaS 平台或其他使用 JDBC 連接器的資料庫，從本機檔案系統外部的位置匯入資料。例如您可能想要從 Amazon Redshift 中的資料倉儲匯入資料表，或者您可能想要匯入 Google Analytics (分析) 資料。

當您在 Canvas 應用程式中執行**匯入**工作流程來 匯入資料時，您可以選擇資料來源，然後選取要匯入的資料。針對某些資料來源，例如 Snowflake 和 Amazon Redshift，您必須指定憑證並新增至資料來源的連線。

下列螢幕擷取畫面顯示**匯入**工作流程中的資料來源工具列，並重點標示所有可用的資料來源。您只能從可用的資料來源匯入資料。如果您想要的資料來源無法使用，請聯絡您的管理員。

![\[在 Canvas 匯入資料頁面上，開啟 資料來源下拉式清單。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/data-sources.png)


以下各節提供有關建立與外部資料來源的連線以及從外部資料來源匯入資料的資訊。請先檢閱下一節，以確定從資料來源匯入資料所需的許可。

## 許可
<a name="canvas-connecting-external-permissions"></a>

請檢閱下列資訊，以確保您具有從資料來源匯入資料的必要許可：
+ **Amazon S3：**只要您的使用者有存取儲存貯體的許可，就可以從任何 Amazon S3 儲存貯體匯入資料。如需使用 AWS IAM 控制 Amazon S3 儲存貯體存取的詳細資訊，請參閱《[Amazon S3 使用者指南》中的 Amazon S3 中的身分和存取管理](https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-access-control.html)。 *Amazon S3 *
+ **Amazon Athena：**如果您將 [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html) 政策和 [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) 政策連接到使用者的執行角色，則可以 AWS Glue Data Catalog 使用 Amazon Athena 查詢您的 。如果您是 Athena 工作群組的一員，請確定 Canvas 使用者擁有對資料執行 Athena 查詢的許可。如需更多資訊，請參閱 *Amazon Athena 使用者指南*中的[使用工作群組來執行查詢](https://docs.aws.amazon.com/athena/latest/ug/workgroups.html)。
+ **Amazon DocumentDB：**只要您有憑證 (使用者名稱和密碼) 來連線至資料庫，且具有連接到使用者執行角色的最低基本 Canvas 許可，就可以從任何 Amazon DocumentDB 資料庫匯入資料。如需 Canvas 許可的詳細資訊，請參閱[設定 Amazon SageMaker Canvas 的先決條件](canvas-getting-started.md#canvas-prerequisites)。
+ **Amazon Redshift：**若要授予從 Amazon Redshift 匯入資料的必要許可給自己，請參閱[授予使用者匯入 Amazon Redshift 資料的許可](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-redshift-permissions.html)。
+ **Amazon RDS：**如果您將 [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) 政策連接到使用者的執行角色，那麼您就可以從 Canvas 存取您的 Amazon RDS 資料庫。
+ **SaaS 平台：**如果您有 [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html) 政策和 [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) 政策連接至使用者的執行角色，則您將具有從 SaaS 平台匯入資料的必要許可。如需連接至特定 SaaS 連接器的更多相關資訊，請參閱[搭配 Canvas 使用 SaaS 連接器](#canvas-connecting-external-appflow)。
+ **JDBC 連接器：**對於資料庫來源 (例如 Databricks、MySQL 或 MariaDB)，您必須在來源資料庫上啟用使用者名稱和密碼驗證，然後再嘗試從 Canvas 連線。如果您要連線到 Databricks 則必須擁有包含必要憑證的 JDBC URL。

## 連線至存放在 中的資料庫 AWS
<a name="canvas-connecting-internal-database"></a>

您可能想要匯入已存放的資料 AWS。您可以從 Amazon S3 匯入資料、使用 Amazon Athena 查詢 中的資料庫 AWS Glue Data Catalog、從 [Amazon RDS](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/Welcome.html) 匯入資料，或連線到佈建的 Amazon Redshift 資料庫 （而非 Redshift Serverless)。

您可以建立 Amazon Redshift 的多個連線。針對 Amazon Athena，您可以存取在 [AWS Glue Data Catalog](https://docs.aws.amazon.com/prescriptive-guidance/latest/serverless-etl-aws-glue/aws-glue-data-catalog.html) 上擁有的任何資料庫。針對 Amazon S3，只要您擁有必要的許可，就可以從儲存貯體匯入資料。

如需詳細資訊，請檢閱下列各節。

### 連線到 Amazon S3、Amazon Athena 或 Amazon RDS 中的資料
<a name="canvas-connecting-internal-database-s3-athena"></a>

針對 Amazon S3，只要您擁有存取儲存貯體的許可，就可以從 Amazon S3 儲存貯體匯入資料。

對於 Amazon Athena， AWS Glue Data Catalog 只要您擁有透過 [Amazon Athena 工作群組](https://docs.aws.amazon.com/athena/latest/ug/manage-queries-control-costs-with-workgroups.html)的許可，就可以存取 中的資料庫。

針對 Amazon RDS，如果您已將 [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) 政策連接到您的使用者角色，那麼您就可以將資料從 Amazon RDS 資料庫匯入 Canvas。

若要從 Amazon S3 儲存貯體匯入資料，或使用 Amazon Athena 執行查詢和匯入資料表，請參閱[建立資料集](canvas-import-dataset.md)。您只能從 Amazon Athena 匯入表格式資料，而且可以從 Amazon S3 匯入表格式和影像資料。

### 連線至 Amazon DocumentDB 資料庫
<a name="canvas-connecting-docdb"></a>

Amazon DocumentDB 是一種全受管、無伺服器的文件資料庫服務。您可以將存放在 Amazon DocumentDB 資料庫中的非結構化文件資料匯入至 SageMaker Canvas，做為表格式資料集，然後使用資料建置機器學習模型。

**重要**  
您的 SageMaker AI 網域必須在**僅限 VPC** 模式下設定，才能新增與 Amazon DocumentDB 的連線。您只能在與 Canvas 應用程式相同的 Amazon VPC 中存取 Amazon DocumentDB 叢集。此外，Canvas 只能連線到已啟用 TLS 的 Amazon DocumentDB 叢集。如需如何在**僅限 VPC** 模式下設定 Canvas 的詳細資訊，請參閱[在沒有網際網路存取權的 VPC 中設定 Amazon SageMaker Canvas](canvas-vpc.md)。

若要從 Amazon DocumentDB 資料庫匯入資料，您必須具有憑證才能存取 Amazon DocumentDB 資料庫，並在建立資料庫連線時指定使用者名稱和密碼。您可以透過修改 Amazon DocumentDB 使用者許可來設定更精細的許可並限制存取。若要進一步了解 Amazon DocumentDB 中的存取控制，請參閱《Amazon DocumentDB 開發人員指南》**中的[使用角色型存取控制進行資料庫存取](https://docs.aws.amazon.com/documentdb/latest/developerguide/role_based_access_control.html)。

當您從 Amazon DocumentDB 匯入時，Canvas 會透過將欄位對應至資料表中的資料欄，將您的非結構化資料轉換為表格式資料集。系統會為資料中的每個複雜欄位 (或巢狀結構) 建立其他資料表，其中資料欄對應至複雜欄位的子欄位。如需此程序的詳細資訊和結構描述轉換範例，請參閱 [Amazon DocumentDB JDBC 驅動器結構描述探索](https://github.com/aws/amazon-documentdb-jdbc-driver/blob/develop/src/markdown/schema/schema-discovery.md) GitHub 頁面。

Canvas 只能連線到 Amazon DocumentDB 中的單一資料庫。若要從不同的資料庫匯入資料，您必須建立新的連線。

您可以使用下列方法，將資料從 Amazon DocumentDB 匯入至 Canvas：
+ [建立資料集](canvas-import-dataset.md)。您可以匯入 Amazon DocumentDB 資料，並在 Canvas 中建立表格式資料集。如果您選擇此方法，請務必遵循[匯入表格式資料](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-import-dataset.html#canvas-import-dataset-tabular)程序。
+ [建立資料流程](canvas-data-flow.md)。您可以在 Canvas 中建立資料準備管道，並將 Amazon DocumentDB 資料庫新增為資料來源。

若要繼續匯入您的資料，請遵循上述清單中連結的其中一個方法的程序。

當您到達任一工作流程中的步驟以選擇資料來源 (步驟 6 用於建立資料集，或步驟 8 用於建立資料流程) 時，請執行下列動作：

1. 對於**資料來源**，開啟下拉式功能表並選擇 **DocumentDB**。

1. 選擇 **Add Connection** (新增連線)。

1. 在對話方塊中，指定您的 Amazon DocumentDB 憑證：

   1. 輸入**連線名稱**。這是 Canvas 用來識別此連線的名稱。

   1. 針對**叢集**，選取 Amazon DocumentDB 中存放資料的叢集。Canvas 會自動將與 Canvas 應用程式位於相同 VPC 的 Amazon DocumentDB 叢集填入下拉式功能表。

   1. 輸入 Amazon DocumentDB 叢集的**使用者名稱**。

   1. 輸入 Amazon DocumentDB 叢集的**密碼**。

   1. 輸入您要連線至其中的**資料庫**名稱。

   1. **讀取喜好設定**選項決定 Canvas 從叢集上哪些類型的執行個體中讀取資料。選擇下列其中之一：
      + **次要優先** - Canvas 預設為從叢集的次要執行個體讀取，但如果次要執行個體無法使用，則 Canvas 會從主要執行個體讀取。
      + **次要** - Canvas 只會從叢集的次要執行個體讀取，這可防止讀取操作干擾叢集的一般讀取和寫入操作。

   1. 選擇 **Add Connection** (新增連線)。下圖顯示對話方塊，其中包含 Amazon DocumentDB 連線的上述欄位。  
![\[Canvas 中新增 DocumentDB 連線對話方塊的螢幕擷取畫面。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/add-docdb-connection.png)

您現在應有 Amazon DocumentDB 連線，而且可在 Canvas 中使用您的 Amazon DocumentDB 資料來建立資料集或資料流程。

### 連線至 Amazon Redshift 資料庫
<a name="canvas-connecting-redshift"></a>

您可以從 Amazon Redshift 匯入資料，這是您的組織儲存資料的資料倉儲。您必須先連接 AWS `AmazonRedshiftFullAccess`受管政策，才能使用 Amazon Redshift 匯入資料。如需有關如何連接政策的指示，請參閱[授予使用者匯入 Amazon Redshift 資料的許可](canvas-redshift-permissions.md)。

若要從 Amazon Redshift 匯入資料，請執行以下操作：

1. 建立與 Amazon Redshift 資料庫的連線。

1. 選擇您要匯入的資料。

1. 匯入資料。

您可以使用 Amazon Redshift 編輯器將資料集拖曳到匯入窗格，然後將其匯入 SageMaker Canvas。如需對資料集傳回的值進一步控制，您可以使用下列各項：
+ SQL 查詢
+ 聯結

使用 SQL 查詢，您可以自訂資料集中值的匯入方式。例如，您可以指定資料集中傳回的資料欄，或指定資料欄的值範圍。

您可以使用聯結將 Amazon Redshift 中的多個資料集合併為單一資料集。您可以將資料集從 Amazon Redshift 拖曳到面板中，讓您能夠聯結資料集。

您可以使用 SQL 編輯器編輯已加入的資料集，並將聯結的資料集轉換為單一節點。您可以將另一個資料集聯結至節點。您可以將已選取的資料匯入到 SageMaker Canvas 中。

使用下列程序從 Amazon Redshift 匯入資料。

1. 在 SageMaker Canvas 應用程式中，前往**資料集**頁面。

1. 選擇**匯入資料**，然後從下拉式清單中選擇**表格式**。

1. 輸入資料集的名稱，然後選擇**建立**。

1. 對於**資料來源**，開啟下拉式功能表並選擇 **Redshift**。

1. 選擇 **Add Connection** (新增連線)。

1. 在對話方塊中，指定您的 Amazon Redshift 憑證：

   1. 針對**驗證方法**，請選擇 **IAM**。

   1. 輸入**叢集識別碼**，以指定要連線的叢集。只輸入叢集識別碼，而不要輸入 Amazon Redshift 叢集的完整端點。

   1. 輸入您要連接的資料庫之**資料庫名稱**。

   1. 輸入**資料庫使用者**，以識別您要用來連線至資料庫的使用者。

   1. 針對 **ARN**，請輸入 Amazon Redshift 叢集應該假定將資料移動和寫入至 Amazon S3 的角色的 IAM 角色 ARN。如需此角色的詳細資訊，請參閱《[Amazon Redshift 管理指南》中的授權 Amazon Redshift 代表您存取其他 AWS 服務](https://docs.aws.amazon.com/redshift/latest/mgmt/authorizing-redshift-service.html)。 **

   1. 輸入**連線名稱**。這是 Canvas 用來識別此連線的名稱。

1. 從具有連線名稱的索引標籤中，將要匯入的 .csv 檔案**拖曳至拖放資料表來匯入**窗格。

1. 選用：將其他資料表拖曳至匯入窗格。您可以使用 GUI 來聯結資料表。如需聯結中的具體細節，請選擇**在 SQL 中編輯**。

1. 選用：如果您使用 SQL 來查詢資料，您可以選擇**內容**來指定下列項目的值，將內容新增至連線：
   + **倉儲**
   + **資料庫**
   + **結構描述**

1. 選擇**匯入資料**。

下列影像顯示針對 Amazon Redshift 連線指定的欄位範例。

![\[Canvas 中新增 Redshift 連線對話方塊的螢幕擷取畫面。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-redshift-add-connection.png)


下列影像顯示了在 Amazon Redshift 中聯結資料集時使用的頁面。

![\[Canvas 中匯入頁面的螢幕擷取畫面，顯示兩個正在聯結的資料集。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-redshift-join.png)


下列影像顯示了用於在 Amazon Redshift 中編輯聯結的 SQL 查詢。

![\[在 Canvas 的匯入頁面上，編輯 SQL 編輯器中 SQL 查詢的螢幕擷取畫面。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-redshift-edit-sql.png)


## 使用 JDBC 連接器連接至您的資料
<a name="canvas-connecting-jdbc"></a>

您可以使用 JDBC 從諸如 Databricks、SQLServer、MySQL、PostgreSQL、MariaDB、Amazon RDS 和 Amazon Aurora 等來源連接到資料庫。

您必須確定您擁有必要的憑證和許可，才能從 Canvas 建立連線。
+ 針對 Databricks，您必須提供 JDBC URL。URL 格式可能會因 Databricks 執行個體而有所不同。如需尋找 URL 及其中指定參數的詳細資訊，請參閱 Databricks 說明文件中的 [JDBC 組態和連線參數](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters)。以下是 URL 格式的範例：`jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/3122619508517275/0909-200301-cut318;AuthMech=3;UID=token;PWD=personal-access-token`
+ 對於其他資料庫來源，您必須設定使用者名稱和密碼驗證，然後在從 Canvas 連線至資料庫時指定這些認證。

此外，您的資料來源必須可透過公用網際網路存取，或者如果 Canvas 應用程式在**僅限 VPC** 模式下執行，則資料來源必須在相同的 VPC 中執行。如需在 VPC 中設定 Amazon RDS 資料庫的詳細資訊，請參閱 *Amazon RDS 使用者指南*中的 [Amazon VPC VPCs 和 Amazon RDS](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/USER_VPC.html)。

設定資料來源認證後，您可以登入 Canvas 應用程式並建立與資料來源的連線。建立連線時，請指定您的認證 (或對於資料庫而言，URL)。

## 使用 OAuth Connect 至資料來源
<a name="canvas-connecting-oauth"></a>

Canvas 支援使用 OAuth 做為驗證方法，以連線至 Snowflake 和 Salesforce Data Cloud 中的資料。[OAuth](https://oauth.net/2/) 是一種通用的驗證平台，用於在不共享密碼的情況下授予資源存取權。

**注意**  
您只能為每個資料來源建立一個 OAuth 連線。

若要授權連線，您必須遵循[使用 OAuth 設定與資料來源的連線](canvas-setting-up-oauth.md)中所述的初始設定。

設定 OAuth 認證之後，您可以執行下列動作使用 OAuth 新增 Snowflake 或 Salesforce Data Cloud 連線：

1. 登入 Web 應用程式。

1. 建立表格式資料集。當系統提示您上傳資料時，請選擇 Snowflake 或 Salesforce Data Cloud 做為您的資料來源。

1. 建立與 Snowflake 或 Salesforce Data Cloud 資料來源的新連線。指定 OAuth 作為驗證方法，然後輸入您的連線詳細資料。

您現在應該可以從 Snowflake 或 Salesforce Data Cloud 中的資料庫匯入資料。

## 連接 SaaS 平台
<a name="canvas-connecting-saas"></a>

您可以從 Snowflake 和其他 40 多個外部 SaaS 平台匯入資料。如需連接器的完整清單，請參閱[資料匯入](canvas-importing-data.md)上的資料表。

**注意**  
您只能從 SaaS 平台匯入表格式資料，例如資料表。

### 搭配 Canvas 使用 Snowflake
<a name="canvas-using-snowflake"></a>

Snowflake 是一種資料儲存和分析服務，您可以將資料從 Snowflake 匯入 SageMaker Canvas。如需有關 Snowflake 的詳細資訊，請參閱 [Snowflake 文件](https://www.snowflake.com/en/)。

若要從 Snowflake 帳戶匯入資料，請執行以下動作：

1. 建立與 Snowflake 資料庫的連線。

1. 將表格從左側導覽功能表拖放到編輯器中，以選擇要匯入的資料。

1. 匯入資料。

您可以使用 Snowflake 編輯器將資料集拖曳至匯入窗格，然後將其匯入 SageMaker Canvas。如需對資料集傳回的值進一步控制，您可以使用下列各項：
+ SQL 查詢
+ 聯結

使用 SQL 查詢，您可以自訂資料集中值的匯入方式。例如，您可以指定資料集中傳回的資料欄，或指定資料欄的值範圍。

您可以在使用 SQL 或 Canvas 介面匯入 Canvas 之前，將多個 Snowflake 資料集合成單一資料集。您可以將資料集從 Snowflake 拖曳到可讓您聯結資料集的面板中，或者您也可以在 SQL 中編輯聯結，然後將 SQL 轉換為單一節點。您可以將其他節點連接到已轉換的節點。然後，您可以將已加入的資料集合成單一節點，並將這些節點加入不同的 Snowflake 資料集。最後，您可以將選擇的資料匯入到 Canvas 中。

請使用下列程序，將資料從 Snowflake 匯入 Amazon SageMaker Canvas。

1. 在 SageMaker Canvas 應用程式中，前往**資料集**頁面。

1. 選擇**匯入資料**，然後從下拉式清單中選擇**表格式**。

1. 輸入資料集的名稱，然後選擇**建立**。

1. 對於**資料來源**，開啟下拉式功能表並選擇 **Snowflake**。

1. 選擇 **Add Connection** (新增連線)。

1. 在**新增 Snowflake 連線**對話方塊中，指定您的 Snowflake 認證。針對**驗證方法**，選擇下列其中一項：
   + **基本 - 使用者名稱密碼** - 提供您的 Snowflake 帳戶 ID、使用者名稱和密碼。
   + **ARN** – 為了改善 Snowflake 登入資料的保護，請提供包含登入資料的 AWS Secrets Manager 秘密 ARN。如需詳細資訊，請參閱*AWS Secrets Manager 《 使用者指南*》中的[建立 AWS Secrets Manager 秘密](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html)。

     您的秘密應以下列 JSON 格式存放您的 Snowflake 憑證：

     ```
     {"accountid": "ID",
     "username": "username",
     "password": "password"}
     ```
   + **OAuth** - OAuth 可讓您在不提供密碼的情況下進行驗證，但需要額外的設定。如需設定分享之登入資料的詳細資訊，請參閱[使用 OAuth 設定與資料來源的連線](canvas-setting-up-oauth.md)。

1. 選擇 **Add Connection** (新增連線)。

1. 從具有連線名稱的索引標籤中，將要匯入的 .csv 檔案拖曳至**拖放資料表來匯入**窗格。

1. 選用：將其他資料表拖曳至匯入窗格。您可以使用使用者介面來連接表格。如需聯結中的具體細節，請選擇**在 SQL 中編輯**。

1. 選用：如果您使用 SQL 來查詢資料，您可以選擇**內容**來指定下列項目的值，將內容新增至連線：
   + **倉儲**
   + **資料庫**
   + **結構描述**

   將內容新增到連接可以更輕鬆地指定未來的查詢。

1. 選擇**匯入資料**。

下列影像顯示 Snowflake 連線指定的欄位範例。

![\[Canvas 中新增 Snowflake 連線對話方塊的螢幕擷取畫面。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-snowflake-connection.png)


下列影像顯示了用於將內容新增到連線的頁面。

![\[Canvas 中匯入頁面的螢幕擷取畫面，顯示內容對話方塊。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-connection-context.png)


下列影像顯示用於聯結 Snowflake 資料集的頁面。

![\[Canvas 中匯入頁面的螢幕擷取畫面，顯示正在聯結資料集。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-snowflake-join.png)


下列影像顯示將 SQL 查詢用於編輯 Snowflake 中的聯結。

![\[在 Canvas 的匯入頁面上，編輯 SQL 編輯器中 SQL 查詢的螢幕擷取畫面。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-snowflake-edit-sql.png)


### 搭配 Canvas 使用 SaaS 連接器
<a name="canvas-connecting-external-appflow"></a>

**注意**  
針對 SaaS 平台，除了 Snowflake 之外每個資料來源只能有一個連線。

您的管理員必須先驗證並建立與資料來源的連線，才能從 SaaS 平台匯入資料。如需管理員如何建立與 SaaS 平台之間的連線的更多相關資訊，請參閱 *Amazon AppFlow 使用者指南*中的[管理 Amazon AppFlow 連線](https://docs.aws.amazon.com/appflow/latest/userguide/connections.html)。

如果您是第一次開始使用 Amazon AppFlow 的管理員，請參閱 *Amazon AppFlow 使用者指南*中的[入門](https://docs.aws.amazon.com/appflow/latest/userguide/getting-started.html)。

要從 SaaS 平台匯入資料，您可以遵循標準 [匯入表格式資料](canvas-import-dataset.md#canvas-import-dataset-tabular) 程序，該程序向您展示如何將表格式資料集匯入 Canvas。

# Canvas 中的範例資料集
<a name="canvas-sample-datasets"></a>

SageMaker Canvas 提供解決獨特使用案例的範例資料集，讓您可以快速開始建置、訓練和驗證模型，而無需撰寫任何程式碼。與這些資料集相關聯的使用案例會強調 SageMaker Canvas 的功能，您可以利用這些資料集開始建置模型。您可以在 SageMaker Canvas 應用程式的**資料集**頁面中找到範例資料集。

下列資料集是 SageMaker Canvas 預設提供的範例。這些資料集涵蓋使用案例，例如預測房價、貸款違約以及預測糖尿病患者再住院率、預測銷售、預測機器故障以簡化製造單位的預測性維護，以及產生運輸和物流的供應鏈預測。這些資料集存放在預設 Amazon S3 儲存貯體的 `sample_dataset` 資料夾中，而 SageMaker AI 會在區域中為您的帳戶建立該資料夾。
+ **canvas-sample-diabetic-readmission.csv：**此資料集包含歷史資料，包括超過十五項患者和醫院結果的功能。您可以使用此資料集來預測高風險糖尿病患者是否有可能在出院 30 天內、30 天後入院或不再入院。使用 **redadmitted** 資料欄做為目標欄，並在此資料集中使用 3\$1 類別預測模型類型。若要進一步了解如何使用此資料集建立模型，請參閱 [SageMaker Canvas 工作坊頁面](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/5-hcls)。此資料集是從 [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/diabetes+130-us+hospitals+for+years+1999-2008) 取得。
+ **canvas-sample-housing.csv：**此資料集包含與給具體房價格相關的特徵資料。您可以使用此資料集來預測房價。使用 **median\$1house\$1value** 資料欄做為目標欄，並在此資料集中使用數值預測模型類型。若要進一步了解使用此資料集建立模型，請參閱 [SageMaker Canvas 工作坊頁面](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/2-real-estate)。這是從 [StatLib 儲存庫](https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html)獲得的加州住房資料集。
+ **canvas-sample-loans.csv：**此資料集包含 2007-2011 年期間所有貸款的完整貸款資料，包括目前的貸款狀態和最新的付款資訊。您可以使用此資料集來預測客戶是否會償還貸款。使用 **loan\$1status** 資料欄做為目標欄，並在此資料集中使用 3\$1 類別預測模型類型。若要進一步了解如何使用此資料集建立模型，請參閱 [SageMaker Canvas 工作坊頁面](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/4-finserv)。此資料使用從 [Kaggle](https://www.kaggle.com/datasets/wordsforthewise/lending-club) 獲得的 LendingClub 資料。
+ **canvas-sample-maintenance.csv：**此資料集包含與指定維護失敗類型相關聯之特性的資料。您可以使用此資料集來預測未來會發生哪些失敗。使用**失敗類型**資料欄做為目標欄，並在此資料集中使用 3\$1 類別預測模型類型。若要進一步了解如何使用此資料集建立模型，請參閱 [SageMaker Canvas 工作坊頁面](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/6-manufacturing)。此資料集是從 [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/AI4I+2020+Predictive+Maintenance+Dataset) 取得。
+ **canvas-sample-shipping-logs.csv：**此資料集包含所有已交付產品的完整運送資料，包括預估運送優先順序、承運商和寄件地。您可以使用此資料集來預測運送的預計送達天數時間。使用 **ActualShippingDays** 欄做為目標欄，並搭配此資料集使用數值預測模型類型。若要進一步了解如何使用此資料建立模型，請參閱 [SageMaker Canvas 工作坊頁面](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/7-supply-chain)。這是 Amazon 建立的合成資料集。
+ **canvas-sample-sales-forecasting.csv：**此資料集包含零售商店的歷史時間序列銷售資料。您可以使用此資料集來預測特定零售商店的銷售額。使用 **sales** 資料欄做為目標欄，並搭配此資料集使用時間序列預測模型類型。若要進一步了解如何使用此資料集建立模型，請參閱 [SageMaker Canvas 工作坊頁面](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/3-retail)。這是 Amazon 建立的合成資料集。

# 重新匯入已刪除的範例資料集
<a name="canvas-sample-datasets-reimport"></a>

Amazon SageMaker Canvas 為各種使用案例提供範例資料集，強調 Canvas 的功能。若要進一步了解可用的範例資料集，請參閱[Canvas 中的範例資料集](canvas-sample-datasets.md)。如果您不想再使用範例資料集，可以從 SageMaker Canvas 應用程式的**資料集**頁面中刪除這些資料集。但是，這些資料集仍然儲存在您指定為 [Canvas 儲存位置](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-storage-configuration.html)的 Amazon S3 儲存貯體中，因此您可以稍後隨時存取它們。

如果使用預設 Amazon S3 儲存貯體時，儲存貯體名稱會遵循模式 `sagemaker-{region}-{account ID}`。您可以在目錄路徑 `Canvas/sample_dataset` 中找到範例資料集。

如果您從 SageMaker Canvas 應用程式刪除範例資料集，並想要再次存取範例資料集，請使用下列程序。

1. 導覽至 SageMaker Canvas 應用程式中的**資料集**頁面。

1. 選擇**匯入資料**。

1. 從 Amazon S3 儲存貯體清單中選取作為 Canvas 儲存位置的儲存貯體。如果使用預設 SageMaker AI 建立的 Amazon S3 儲存貯體，則其會遵循命名模式 `sagemaker-{region}-{account ID}`。

1. 選取 **Canvas** 資料夾。

1. 選取 **sample\$1dataset** 資料夾，其中包含 SageMaker Canvas 的所有範例資料集。

1. 選取您要匯入的資料集，然後選擇**匯入資料**。