

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memigrasikan data dari lingkungan Hadoop lokal ke Amazon S3 menggunakan AWS untuk Amazon S3 DistCp PrivateLink
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3"></a>

*Jason Owens, Andres Cantor, Jeff Klopfenstein, Bruno Rocha Oliveira, dan Samuel Schmidt, Amazon Web Services*

## Ringkasan
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3-summary"></a>

Pola ini menunjukkan cara memigrasikan hampir semua jumlah data dari lingkungan Apache Hadoop lokal ke Amazon Web Services (AWS) Cloud dengan menggunakan alat open-source Apache dengan [DistCp](https://hadoop.apache.org/docs/r1.2.1/distcp.html)AWS PrivateLink for Amazon Simple Storage Service (Amazon S3). Alih-alih menggunakan internet publik atau solusi proxy untuk memigrasikan data, Anda dapat menggunakan [AWS PrivateLink untuk Amazon S3 untuk](https://docs.aws.amazon.com/AmazonS3/latest/userguide/privatelink-interface-endpoints.html) memigrasikan data ke Amazon S3 melalui koneksi jaringan pribadi antara pusat data lokal dan Amazon Virtual Private Cloud (Amazon VPC). Jika Anda menggunakan entri DNS di Amazon Route 53 atau menambahkan entri dalam file **/etc/hosts** di semua node cluster Hadoop lokal, maka Anda secara otomatis diarahkan ke titik akhir antarmuka yang benar.

Panduan ini memberikan petunjuk penggunaan DistCp untuk memigrasikan data ke AWS Cloud. DistCp adalah alat yang paling umum digunakan, tetapi alat migrasi lainnya tersedia. [Misalnya, Anda dapat menggunakan alat AWS offline seperti AWS [Snowball atau AWS Snowmobile](https://docs.aws.amazon.com/whitepapers/latest/how-aws-pricing-works/aws-snow-family.html#aws-snowball)[, atau alat AWS](https://docs.aws.amazon.com/whitepapers/latest/how-aws-pricing-works/aws-snow-family.html#aws-snowmobile) online seperti AWS Storage [Gateway atau AWS](https://docs.aws.amazon.com/storagegateway/latest/userguide/migrate-data.html). DataSync](https://aws.amazon.com/about-aws/whats-new/2021/11/aws-datasync-hadoop-aws-storage-services/) Selain itu, Anda dapat menggunakan alat sumber terbuka lainnya seperti [ NiFiApache](https://nifi.apache.org/).

## Prasyarat dan batasan
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3-prereqs"></a>

**Prasyarat**
+ Akun AWS aktif dengan koneksi jaringan pribadi antara pusat data lokal dan AWS Cloud
+ [Hadoop](https://hadoop.apache.org/releases.html), dipasang di tempat dengan [DistCp](https://hadoop.apache.org/docs/r1.2.1/distcp.html)
+ Pengguna Hadoop dengan akses ke data migrasi di Hadoop Distributed File System (HDFS)
+ [AWS Command Line Interface (AWS CLI)[,](https://docs.aws.amazon.com/cli/latest/userguide/getting-started-install.html) diinstal dan dikonfigurasi](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-configure.html)
+ [Izin](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_examples_s3_rw-bucket-console.html) untuk memasukkan objek ke dalam bucket S3

**Batasan**

Batasan cloud pribadi virtual (VPC) berlaku PrivateLink untuk AWS untuk Amazon S3. Untuk informasi selengkapnya, lihat [properti dan batasan titik akhir antarmuka PrivateLink ](https://docs.aws.amazon.com/vpc/latest/privatelink/vpce-interface.html#vpce-interface-limitations) [serta kuota AWS](https://docs.aws.amazon.com/vpc/latest/privatelink/vpc-limits-endpoints.html) ( PrivateLink dokumentasi AWS).

AWS PrivateLink untuk Amazon S3 tidak mendukung hal berikut:
+ [Titik Akhir Standar Proses Informasi Federal (FIPS)](https://aws.amazon.com/compliance/fips/)
+ [Titik akhir situs web](https://docs.aws.amazon.com/AmazonS3/latest/userguide/WebsiteEndpoints.html)
+ [Titik akhir warisan global](https://docs.aws.amazon.com/AmazonS3/latest/userguide/VirtualHosting.html#deprecated-global-endpoint)

## Arsitektur
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3-architecture"></a>

**Tumpukan teknologi sumber**
+ Cluster Hadoop dengan terpasang DistCp 

**Tumpukan teknologi target**
+ Amazon S3
+ Amazon VPC

**Arsitektur target**

![\[Kluster Hadoop dengan DistCp menyalin data dari lingkungan lokal melalui Direct Connect ke S3.\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/images/pattern-img/8d2b47ae-e854-4e5d-8f19-b9c2606f2c59/images/b8a249bd-307b-41ec-b939-5039d0ae7123.png)


Diagram menunjukkan cara administrator Hadoop menggunakan DistCp untuk menyalin data dari lingkungan lokal melalui koneksi jaringan pribadi, seperti AWS Direct Connect, ke Amazon S3 melalui titik akhir antarmuka Amazon S3.

## Alat
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3-tools"></a>

**Layanan AWS**
+ [AWS Identity and Access Management (IAM)](https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html) membantu Anda mengelola akses ke sumber daya AWS dengan aman dengan mengontrol siapa yang diautentikasi dan diberi wewenang untuk menggunakannya.
+ [Amazon Simple Storage Service (Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html)) adalah layanan penyimpanan objek berbasis cloud yang membantu Anda menyimpan, melindungi, dan mengambil sejumlah data.
+ [Amazon Virtual Private Cloud (Amazon VPC)](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) membantu Anda meluncurkan sumber daya AWS ke jaringan virtual yang telah Anda tentukan. Jaringan virtual ini menyerupai jaringan tradisional yang akan Anda operasikan di pusat data Anda sendiri, dengan manfaat menggunakan infrastruktur AWS yang dapat diskalakan.

**Alat-alat lainnya**
+ [Apache Hadoop DistCp](https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html) (salinan terdistribusi) adalah alat yang digunakan untuk menyalin antar-cluster besar dan intra-cluster. DistCp menggunakan Apache MapReduce untuk distribusi, penanganan kesalahan dan pemulihan, dan pelaporan.

## Epik
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3-epics"></a>

### Migrasikan data ke AWS Cloud
<a name="migrate-data-to-the-aws-cloud"></a>


| Tugas | Deskripsi | Keterampilan yang dibutuhkan | 
| --- | --- | --- | 
| Buat titik akhir untuk AWS PrivateLink untuk Amazon S3. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3.html) | Administrator AWS | 
| Verifikasi titik akhir dan temukan entri DNS. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3.html) | Administrator AWS | 
| Periksa aturan firewall dan konfigurasi perutean. | Untuk mengonfirmasi bahwa aturan firewall Anda terbuka dan konfigurasi jaringan Anda diatur dengan benar, gunakan Telnet untuk menguji titik akhir pada port 443. Contoh:<pre>$ telnet vpce-<your-VPC-endpoint-ID>.s3.us-east-2.vpce.amazonaws.com 443<br /><br />Trying 10.104.88.6...<br /><br />Connected to vpce-<your-VPC-endpoint-ID>.s3.us-east-2.vpce.amazonaws.com.<br /><br />...<br /><br />$ telnet vpce-<your-VPC-endpoint-ID>.s3.us-east-2.vpce.amazonaws.com 443<br /><br />Trying 10.104.71.141...<br /><br />Connected to vpce-<your-VPC-endpoint-ID>.s3.us-east-2.vpce.amazonaws.com.</pre>Jika Anda menggunakan entri Regional, pengujian yang berhasil menunjukkan bahwa DNS bergantian antara dua alamat IP yang dapat Anda lihat di tab **Subnet** untuk titik akhir yang Anda pilih di konsol VPC Amazon. | Administrator jaringan, administrator AWS | 
| Konfigurasikan resolusi nama. | Anda harus mengonfigurasi resolusi nama untuk memungkinkan Hadoop mengakses titik akhir antarmuka Amazon S3. Anda tidak dapat menggunakan nama endpoint itu sendiri. Sebaliknya, Anda harus menyelesaikan `<your-bucket-name>.s3.<your-aws-region>.amazonaws.com` atau`*.s3.<your-aws-region>.amazonaws.com`. Untuk informasi lebih lanjut tentang batasan penamaan ini, lihat [Memperkenalkan klien Hadoop S3A](https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/index.html#Introducing_the_Hadoop_S3A_client.) (situs web Hadoop).Pilih salah satu opsi konfigurasi berikut:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/prescriptive-guidance/latest/patterns/migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3.html) | Administrator AWS | 
| Konfigurasikan otentikasi untuk Amazon S3. | Untuk mengautentikasi ke Amazon S3 melalui Hadoop, kami menyarankan Anda mengekspor kredensi peran sementara ke lingkungan Hadoop. Untuk informasi selengkapnya, lihat [Mengautentikasi dengan S3](https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/index.html#Authenticating_with_S3) (situs web Hadoop). Untuk pekerjaan yang berjalan lama, Anda dapat membuat pengguna dan menetapkan kebijakan yang memiliki izin untuk memasukkan data ke dalam bucket S3 saja. Kunci akses dan kunci rahasia dapat disimpan di Hadoop, hanya dapat diakses oleh DistCp pekerjaan itu sendiri dan ke administrator Hadoop. Untuk informasi selengkapnya tentang menyimpan rahasia, lihat [Menyimpan rahasia dengan Penyedia Kredenal Hadoop](https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/index.html#hadoop_credential_providers) (situs web Hadoop). Untuk informasi selengkapnya tentang metode autentikasi lainnya, lihat [Cara mendapatkan kredensil peran IAM untuk digunakan dengan akses CLI ke akun AWS dalam dokumentasi Pusat Identitas AWS IAM (penerus AWS Single Sign-On](https://docs.aws.amazon.com/singlesignon/latest/userguide/howtogetcredentials.html)).Untuk menggunakan kredensil sementara, tambahkan kredensil sementara ke file kredensil Anda, atau jalankan perintah berikut untuk mengekspor kredensil ke lingkungan Anda:<pre>export AWS_SESSION_TOKEN=SECRET-SESSION-TOKEN<br />export AWS_ACCESS_KEY_ID=SESSION-ACCESS-KEY<br />export AWS_SECRET_ACCESS_KEY=SESSION-SECRET-KEY</pre>Jika Anda memiliki kunci akses tradisional dan kombinasi tombol rahasia, jalankan perintah berikut:<pre>export AWS_ACCESS_KEY_ID=my.aws.key<br />export AWS_SECRET_ACCESS_KEY=my.secret.key</pre>Jika Anda menggunakan kunci akses dan kombinasi tombol rahasia, maka ubah penyedia kredensi dalam DistCp perintah dari `"org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider"` ke. `"org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider"` | Administrator AWS | 
| Transfer data dengan menggunakan DistCp | Untuk digunakan DistCp untuk mentransfer data, jalankan perintah berikut:<pre>hadoop distcp -Dfs.s3a.aws.credentials.provider=\<br />"org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider" \<br />-Dfs.s3a.access.key="${AWS_ACCESS_KEY_ID}" \<br />-Dfs.s3a.secret.key="${AWS_SECRET_ACCESS_KEY}" \<br />-Dfs.s3a.session.token="${AWS_SESSION_TOKEN}" \<br />-Dfs.s3a.path.style.access=true \<br />-Dfs.s3a.connection.ssl.enabled=true \<br />-Dfs.s3a.endpoint=s3.<your-aws-region>.amazonaws.com \<br />hdfs:///user/root/ s3a://<your-bucket-name></pre>Wilayah AWS titik akhir tidak ditemukan secara otomatis saat Anda menggunakan DistCp perintah dengan AWS PrivateLink untuk Amazon S3. Hadoop 3.3.2 dan versi yang lebih baru menyelesaikan masalah ini dengan mengaktifkan opsi untuk secara eksplisit menyetel Wilayah AWS dari bucket S3. Untuk informasi selengkapnya, lihat [S3A untuk menambahkan opsi fs.s3a.endpoint.region untuk menyetel wilayah](https://issues.apache.org/jira/browse/HADOOP-17705) AWS (situs web Hadoop).Untuk informasi lebih lanjut tentang penyedia S3A tambahan, lihat [Konfigurasi Klien S3A Umum](https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/index.html#General_S3A_Client_configuration) (situs web Hadoop). Misalnya, jika Anda menggunakan enkripsi, Anda dapat menambahkan opsi berikut ke rangkaian perintah di atas tergantung pada jenis enkripsi Anda:<pre>-Dfs.s3a.server-side-encryption-algorithm=AES-256 [or SSE-C or SSE-KMS]</pre>Untuk menggunakan titik akhir antarmuka dengan S3A, Anda harus membuat entri alias DNS untuk nama Regional S3 (misalnya,`s3.<your-aws-region>.amazonaws.com`) ke titik akhir antarmuka. Lihat bagian *Konfigurasi autentikasi untuk Amazon* S3 untuk petunjuk. Solusi ini diperlukan untuk Hadoop 3.3.2 dan versi sebelumnya. Versi S3A yang akan datang tidak memerlukan solusi ini.Jika Anda memiliki masalah tanda tangan dengan Amazon S3, tambahkan opsi untuk menggunakan penandatanganan Signature Version 4 (SigV4):<pre>-Dmapreduce.map.java.opts="-Dcom.amazonaws.services.s3.enableV4=true"</pre> | Insinyur migrasi, administrator AWS | 