

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 自訂模型的運作方式
<a name="canvas-build-model"></a>

使用 Amazon SageMaker Canvas 以已匯入的資料集上建立自訂模型。使用您建立的模型來對新資料進行預測。SageMaker Canvas 會使用資料集中的資訊建立最多 250 個模型，並選擇效能最佳的模型。

開始建立模型時，Canvas 會自動建議一個或多個*模型類型*。模型類型屬於下列其中一種類別：
+ **數值預測** — 這在機器學習中稱為*迴歸*。當您要預測數值資料時，請使用數值預測模型類型。例如，您可能想要根據房屋的平方英尺等功能來預測房價。
+ **分類預測** — 這在機器學習中稱為*分類*。當您要將資料分類為群組時，請使用分類預測模型類型：
  + **2 類別預測** — 當您有兩個要預測資料的類別時，請使用 2 類別預測模型類型 (在機器學習中也稱為*二進制分類*)。例如您可能想要判斷客戶是否可能流失。
  + **3\+ 類別預測** — 當您有三個以上要預測資料的類別時，請使用 3\+ 類別預測模型類型 (在機器學習中也稱為*多類別分類*)。例如，您可能想要根據先前付款等功能來預測客戶的貸款狀態。
+ **時間序列預測** — 當您想要預測一段時間內的狀況時，請使用時間序列預測。例如，您可能想要預測下一季出售的物品數量。如需有關時間序列預測的資訊，請參閱 [Amazon SageMaker Canvas 中的時間序列預測](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-time-series.html)。
+ **影像預測** — 當您要為影像指派標籤時，請使用單一標籤影像預測模型類型 (在機器學習中也稱為*單一標籤影像分類*)。例如，您可能想要分類產品影像中不同類型的製造瑕疵。
+ **文字預測** — 當您要將指派標籤給文字段落時，請使用多類文字預測模型類型 (在機器學習中也稱為*多類別文字分類*)。例如，您可能有產品的客戶評論資料集，並且您想要決定客戶是否喜歡或不喜歡該產品。您可能會讓模型預測指定的文字段落是 `Positive`、`Negative` 或 `Neutral`。

如需每個模型類型支援之輸入資料類型的資料表，請參閱[自訂模型](canvas-custom-models.md)。

針對您建立的每個表格式資料模型 (包括數值、分類、時間序列預測和文字預測模型)，您可以選擇**目標欄**。**目標欄**是包含您要預測之資訊的資料欄。例如，如果您正在建立模型以預測人們是否已取消訂閱，則**目標欄**包含關於某人取消狀態為 `yes` 或 `no` 的資料點。

針對影像預測模型，您可以使用已指派標籤的影像資料集來建立模型。針對您提供的未標籤影像，模型會預測標籤。例如，如果您要建立模型來預測影像是貓還是狗，則您會在建置模型時會提供標示為貓或狗的影像。然後該模型可以接受未標籤的影像，並預測其為貓或狗。

**建立模型時會出現的情況**

若要建立模型，您可以選擇**快速建置**或**標準建置**。**快速建置**的建置時間較短，但**標準建置**的準確性通常更高。

針對表格式和時間序列預測模型，Canvas 會使用*縮減取樣*，分別減少大於 5 GB 或 30 GB 的資料集大小。Canvas 使用分層取樣方法縮減取樣。下表依模型類型列出縮減取樣的大小。若要控制取樣程序，您可以使用 Canvas 中的 Data Wrangler，以您偏好的取樣技術進行取樣。針對時間序列資料，您可以重新取樣以彙總資料點。如需取樣的詳細資訊，請參閱[抽樣](canvas-transform.md#canvas-transform-sampling)。如需重新取樣時間序列資料的詳細資訊，請參閱[重新取樣時間序列資料](canvas-transform.md#canvas-resample-time-series)。

如果您選擇在超過 50,000 個資料列的資料集上執行**快速建置**，則 Canvas 會將您的資料取樣量降到 50,000 個資料列，以縮短模型訓練時間。

下表摘要說明模型建置程序的關鍵特性，包括每個模型和建置類型的平均建置時間、使用大型資料集建置模型時的縮減取樣大小，以及針對每個建置類型，您應具有的資料點數量下限和上限。


| 限制 | 數值和分類預測 | 時間序列預測 | 影像預測 | 文字預測 | 
| --- | --- | --- | --- | --- | 
| **快速建置**時間 | 2 - 20 分鐘 | 2 - 20 分鐘 | 15 - 30 分鐘 | 15 - 30 分鐘 | 
| **標準建置**時間 | 2 - 4 小時 | 2 - 4 小時 | 2 - 5 小時 | 2 - 5 小時 | 
| 縮減取樣大小 (Canvas 縮減取樣後大型資料集減少的大小) | 5 GB | 30 GB | N/A | N/A | 
| **快速建置**的項目數下限 (列) | 2 個類別：500 列<br />3 個以上類別、數值、時間序列：N/A | N/A | N/A | N/A | 
| **標準建置**的項目數下限 (列、影像或文件) | 250 | 50 | 50 | N/A | 
| **快速建置**的項目數上限 (列、影像或文件) | N/A | N/A | 5000 | 7500 | 
| **標準建置**的項目數上限 (列、影像或文件) | N/A | 150，000 | 180,000 | N/A | 
| 欄數上限 | 1,000 | 1,000 | N/A | N/A | 

Canvas 會透過使用在資料集其餘部分的資訊來預測值，取決於模型類型：
+ 針對分類預測，Canvas 將每一列放入**目標欄**中列出的其中一個類別中。
+ 針對數值預測，Canvas 會使用資料集中的資訊來預測**目標欄**中的數值。
+ 針對時間序列預測，Canvas 使用歷史資料來預測未來的**目標欄**數值。
+ 針對影像預測，Canvas 使用已指派標籤的影像來預測未標籤影像的標籤。
+ 針對文字預測，Canvas 會分析已指派標籤的文字資料，以預測未標籤文字段落的標籤。

**可協助您建置模型的其他功能**

在建置您的模型之前，您可以使用 Canvas 中的 Data Wrangler，利用 300 多個內建轉換和運算子來準備資料。Data Wrangler 同時支援表格式和影像資料集的轉換。此外，您可以連線至 Canvas 外部的資料來源、建立任務以將轉換套用至整個資料集，以及匯出完全準備和清理的資料，以便在 Canvas 外部的 ML 工作流程中使用。如需詳細資訊，請參閱[資料準備](canvas-data-prep.md)。

若要查看視覺化和分析如何探索您的資料，並判斷您的模型中要包含哪些功能，您可以使用 Data Wrangler 的內建分析。您也可以存取**資料品質和洞見報告**，其中強調資料集的潛在問題，並提供如何修正這些問題的建議。如需詳細資訊，請參閱[執行探索性資料分析 (EDA)](canvas-analyses.md)。

除了透過 Data Wrangler 提供的更進階資料準備和探索功能之外，Canvas 還提供了一些您可以使用的基本功能：
+ 若要篩選您的資料並存取一組基本資料轉換，請參閱[準備用於模型建置的資料](canvas-prepare-data.md)。
+ 若要存取簡單的視覺化和分析進行功能探索，請參閱[資料探索和分析](canvas-explore-data.md)。
+ 若要進一步了解其他功能，例如預覽模型、驗證資料集，以及變更用於建立模型的隨機範例大小，請參閱[預覽模型](canvas-preview-model.md)。

針對具有多個資料欄的表格式資料集 (例如用於建立分類、數值或時間序列預測模型類型的資料集)，您可能會有遺失資料點的資料列。當 Canvas 建置模型時，它會自動新增缺少值。Canvas 會使用資料集中的值來執行缺少值的數學近似值。為了獲得最高的模型精確度，我們建議您在加入遺失資料中 (如果可以找到)。請注意，文字預測或影像預測模型不支援遺失資料功能。

**開始使用**

若要開始建置自訂模型，請參閱[建立模型](canvas-build-model-how-to.md)並遵循您要建置之模型類型的程序。