

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 上傳資料 AWS DataSync
<a name="emr-plan-upload-datasync"></a>

AWS DataSync 是一種線上資料傳輸服務，可簡化、自動化和加速在內部部署儲存和 AWS 儲存服務之間或在 AWS 儲存服務之間移動資料的程序。DataSync 支援各種內部部署儲存系統，例如 Hadoop 分散式檔案系統 (HDFS)、NAS 檔案伺服器，以及自我管理的物件儲存。

將資料載入到叢集的最常見方式是將資料上傳至 Amazon S3，並使用 Amazon EMR 內建功能，以將資料載入到您的叢集。

DataSync 可以協助您完成下列任務：
+ 將 Hadoop 叢集上的 HDFS 複寫至 Amazon S3 以實現業務連續性
+ 將 HDFS 複製到 Amazon S3 以填入您的資料湖
+ 在 Hadoop 叢集的 HDFS 與 Amazon S3 之間傳輸資料以進行分析和處理

若要將資料上傳至 S3 儲存貯體，請先在與內部部署儲存相同的網路中部署一或多個 DataSync 代理程式。*代理程式*是用於對自我管理的位置讀寫資料的虛擬機器 (VM)。然後，您可以在 AWS 區域 S3 儲存貯體所在的 AWS 帳戶 和 中啟用代理程式。

啟用代理程式後，您可以為內部部署儲存建立來源位置、S3 儲存貯體的目的地位置以及任務。*任務*是一組兩個位置 (來源與目的地) 和一組可用來控制任務行為的預設選項。

最後，執行 DataSync 任務以將資料從來源傳輸至目的地。

如需詳細資訊，請參閱 [AWS DataSync入門](https://docs.aws.amazon.com/datasync/latest/userguide/getting-started.html)。