

我們不再更新 Amazon Machine Learning 服務或接受新使用者。本文件可供現有使用者使用，但我們不再更新。如需詳細資訊，請參閱[什麼是 Amazon Machine Learning](https://docs.aws.amazon.com/machine-learning/latest/dg/what-is-amazon-machine-learning.html)。

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 了解 Amazon ML 的資料格式
<a name="understanding-the-data-format-for-amazon-ml"></a>

 輸入資料是用來建立資料來源的資料。您必須以逗號分隔值 (.csv) 格式儲存輸入資料。.csv 檔案中的每個資料列都是單一資料記錄或觀察。.csv 檔案中的每個資料行都會包含觀察的屬性。例如，下圖顯示 .csv 檔案的內容，而此檔案包含四個觀察，且各有自己的資料列。每個觀察都會包含八個以逗號分隔的屬性。這些屬性代表觀察所代表之每個個人的下列資訊：customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign。

 ![\[Diagram showing Attributes and Observations sections with sample data entries.\]](http://docs.aws.amazon.com/zh_tw/machine-learning/latest/dg/images/image39.png) 

## 屬性
<a name="attributes"></a>

 Amazon ML 需要每個屬性的名稱。您可以透過下列方式指定屬性名稱：
+  .csv 檔案第一行 (也稱為標頭行) 包含用作您輸入資料的屬性名稱 
+  在個別結構描述檔中包含屬性名稱，而結構描述檔位在與輸入資料相同的 S3 儲存貯體中 

 如需使用結構描述檔的詳細資訊，請參閱[建立資料結構描述](https://docs.aws.amazon.com/machine-learning/latest/dg/creating-a-data-schema-for-amazon-ml.html)。

 下列 .csv 檔案範例將屬性名稱包含在標頭行中。

```
customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign

1,3,basic.4y,no,no,1,261,0

2,1,high.school,no,no,22,149,0

3,1,high.school,yes,no,65,226,1

4,2,basic.6y,no,no,1,151,0
```

## 輸入檔格式需求
<a name="csv-format-requirements"></a>

 包含您輸入資料的 .csv 檔案必須符合下列需求：
+  必須為使用 ASCII、Unicode 或 EBCDIC 這類字元集的純文字。
+  由觀察組成，一行一個觀察。
+  對於每個觀察，必須以逗號分隔屬性值。
+  如果屬性值包含逗號 (分隔符號)，則必須用雙引號括住整個屬性值。
+  每個觀察的結尾都必須是行尾字元，此字元是指出行尾的特殊字元或一系列字元。
+  屬性值不可以包含行尾字元，即使使用雙引號括住屬性值也是一樣。
+  每個觀察都必須有相同數目的屬性和一系列的屬性。
+  每個觀察值不得大於 100 KB。Amazon ML 會在處理期間拒絕任何大於 100 KB 的觀察。如果 Amazon ML 拒絕超過 10，000 個觀察，則會拒絕整個 .csv 檔案。

## 使用多個檔案做為 Amazon ML 的資料輸入
<a name="using-multiple-files-as-data-input-to-amazon-ml"></a>

 您可以將輸入做為單一檔案或檔案集合提供給 Amazon ML。集合必須滿足這些條件：
+  所有檔案都必須具有相同的資料結構描述。
+  所有檔案都必須位於相同的 Amazon Simple Storage Service (Amazon S3) 字首，而您為集合提供的路徑必須以斜線 ('/') 字元結尾。

 例如，如果您的資料檔案命名為 input1.csv、input2.csv 和 input3.csv，而 S3 儲存貯體名稱為 s3://examplebucket，則您的檔案路徑可能如下所示：

 s3://examplebucket/path/to/data/input1.csv 

 s3://examplebucket/path/to/data/input2.csv 

 s3://examplebucket/path/to/data/input3.csv 

您會提供下列 S3 位置做為 Amazon ML 的輸入：

 's3://examplebucket/path/to/data/'

## CSV 格式的行尾字元
<a name="end-of-line-characters-in-csv-format"></a>

 當您建立 .csv 檔案時，每個觀察的結尾都是特殊行尾字元。當您按 **Enter** 或 **Return** 鍵時，此字元不會顯示，但會自動包含在每個觀察的結尾。代表行尾的特殊字元會根據作業系統而不同。Linux 或 OS X 這類 Unix 系統使用*「換行」*字元，其以 "\$1n" (十進位 ASCII 代碼 10，或十六進位的 0x0a) 表示。Microsoft Windows 使用*「歸位字元」*和*「換行字元」*這兩個字元，其以 "\$1r\$1n" (十進位 ASCII 代碼 13 和 10，或十六進位的 0x0d 和 0x0a) 表示。

 如果您想要使用 OS X 和 Microsoft Excel 建立 .csv 檔案，請執行下列程序。請務必選擇正確的格式。

 **在使用 OS X 和 Excel 時儲存 .csv 檔案** 

1.  儲存 .csv 檔案時，請選擇 **Format (格式)**，然後選擇 **Windows Comma Separated (.csv) (Windows 逗號分隔)**。

1.  選擇**儲存**。

    ![\[Excel file save dialog showing various file format options, including CSV and specialty formats.\]](http://docs.aws.amazon.com/zh_tw/machine-learning/latest/dg/images/image40b.png) 
**重要**  
 請不要使用**逗號分隔值 (.csv)** 或 **MS-DOS 逗號分隔 (.csv) 格式來儲存 .csv 檔案，**因為 Amazon ML 無法讀取它們。