Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memulai dengan SageMaker HyperPod menggunakan konsol SageMaker AI
Tutorial berikut menunjukkan cara membuat SageMaker HyperPod cluster baru dan mengaturnya dengan Slurm melalui UI konsol SageMaker AI. Mengikuti tutorial, Anda akan membuat HyperPod cluster dengan tiga node Slurm,, my-controller-groupmy-login-group, dan. worker-group-1
catatan
HyperPod sekarang mendukung pembuatan cluster Slurm tanpa skrip siklus hidup. Anda dapat membuat klaster yang berfungsi penuh menggunakan AMI-based konfigurasi, memperluasnya dengan skrip ekstensi, atau terus menggunakan skrip siklus hidup khusus untuk kontrol penuh.
Membuat klaster
Untuk menavigasi ke halaman SageMaker HyperPod Clusters dan memilih orkestrasi slurm, ikuti langkah-langkah ini.
Buka konsol Amazon SageMaker AI di https://console.aws.amazon.com/sagemaker/
. -
Pilih HyperPod Cluster di panel navigasi kiri dan kemudian Manajemen Cluster.
-
Pada halaman SageMaker HyperPod Clusters, pilih Create HyperPod cluster.
-
Pada drop-down Create HyperPod cluster, pilih Orchestrated by Slurm.
-
Pada halaman pembuatan cluster Slurm, Anda akan melihat dua opsi. Pilih opsi yang paling sesuai dengan kebutuhan Anda.
-
Pengaturan cepat - Untuk segera memulai dengan pengaturan default, pilih Pengaturan cepat. Dengan opsi ini, SageMaker AI akan membuat sumber daya baru seperti VPC, subnet, grup keamanan, bucket Amazon S3, peran IAM, dan FSx for Lustre dalam proses pembuatan cluster Anda.
-
Penyiapan khusus - Untuk mengintegrasikan dengan AWS sumber daya yang ada atau memiliki persyaratan jaringan, keamanan, atau penyimpanan tertentu, pilih Penyiapan khusus. Dengan opsi ini, Anda dapat memilih untuk menggunakan sumber daya yang ada atau membuat yang baru, dan Anda dapat menyesuaikan konfigurasi yang paling sesuai dengan kebutuhan Anda.
-
Pada bagian Quick setup, ikuti langkah-langkah ini untuk membuat HyperPod cluster Anda dengan orkestrasi Slurm.
Pengaturan umum
Tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama setelah cluster dibuat.
Grup instans
Untuk menambahkan grup instance, pilih Tambah grup. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menerapkan klaster, Anda harus menambahkan setidaknya satu grup instans untuk tipe grup Controller dan Compute.
penting
Anda dapat menambahkan satu grup instance pada satu waktu. Untuk membuat beberapa grup instance, ulangi proses untuk setiap grup instance.
Ikuti langkah-langkah ini untuk menambahkan grup instance.
-
Untuk tipe grup Instance, pilih tipe untuk grup instans Anda. Untuk tutorial ini, pilih Controller (head) for
my-controller-group, Login formy-login-group, dan Compute (worker) untukworker-group-1. -
Untuk Nama, tentukan nama untuk grup instance. Untuk tutorial ini, buat tiga grup instance bernama
my-controller-group,my-login-group, danworker-group-1. -
Untuk kapasitas Instans, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.
-
Untuk jenis Instance, pilih instance untuk grup instance. Untuk tutorial ini, pilih
ml.c5.xlargeuntukmy-controller-group,ml.m5.4xlargeuntukmy-login-group, danml.trn1.32xlargeuntukworker-group-1.penting
Pastikan Anda memilih jenis instans dengan kuota yang cukup dan cukup alamat IP yang tidak ditetapkan untuk akun Anda. Untuk melihat atau meminta kuota tambahan, lihatSageMaker HyperPod kuota.
-
Untuk kuantitas Instance, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan 1 untuk ketiga grup.
-
Untuk Zona Ketersediaan Target, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.
-
Untuk volume penyimpanan tambahan per instance (GB) - opsional, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah
/opt/sagemaker. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah.df -hMelampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic Block Store. -
Pilih Tambahkan grup instans.
Default pengaturan cepat
Bagian ini mencantumkan semua pengaturan default untuk pembuatan klaster Anda, termasuk semua AWS sumber daya baru yang akan dibuat selama proses pembuatan klaster. Tinjau pengaturan default.
catatan
Pengaturan cepat menggunakan skrip siklus hidup default secara otomatis. Opsi AMI-based konfigurasi baru (tidak ada skrip siklus hidup) hanya tersedia melalui Penyiapan khusus. Jika Anda ingin membuat klaster tanpa skrip siklus hidup, pilih Penyiapan khusus dan pilih Tidak Ada di bawah Skrip Siklus Hidup.
Pada bagian Custom setup, ikuti langkah-langkah ini untuk membuat HyperPod cluster Anda dengan orkestrasi Slurm.
Pengaturan umum
Tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama setelah cluster dibuat.
Untuk pemulihan Instance, pilih Otomatis - direkomendasikan atau Tidak Ada.
Jaringan
Konfigurasikan pengaturan jaringan Anda untuk pembuatan cluster. Pengaturan ini tidak dapat diubah setelah cluster dibuat.
-
Untuk VPC, pilih VPC Anda sendiri jika Anda sudah memiliki VPC yang memberikan akses SageMaker AI ke VPC Anda. Untuk membuat VPC baru, ikuti petunjuk di Buat VPC di Panduan Pengguna Amazon Virtual Private Cloud. Anda dapat membiarkannya sebagai None untuk menggunakan SageMaker AI VPC default.
-
Untuk blok VPC IPv4 CIDR, masukkan IP awal VPC Anda.
-
Untuk Availability Zones, pilih Availability Zones (AZ) di mana HyperPod akan membuat subnet untuk cluster Anda. Pilih AZ yang sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.
-
Untuk grup Keamanan, buat grup keamanan atau pilih hingga lima grup keamanan yang dikonfigurasi dengan aturan untuk memungkinkan komunikasi antar sumber daya dalam VPC.
Grup instans
Untuk menambahkan grup instance, pilih Tambah grup. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menyebarkan kluster, Anda harus menambahkan setidaknya satu grup instance.
penting
Anda dapat menambahkan satu grup instance pada satu waktu. Untuk membuat beberapa grup instance, ulangi proses untuk setiap grup instance.
Ikuti langkah-langkah ini untuk menambahkan grup instance.
-
Untuk tipe grup Instance, pilih tipe untuk grup instans Anda. Untuk tutorial ini, pilih Controller (head) for
my-controller-group, Login formy-login-group, dan Compute (worker) untukworker-group-1. -
Untuk Nama, tentukan nama untuk grup instance. Untuk tutorial ini, buat tiga grup instance bernama
my-controller-group,my-login-group, danworker-group-1. -
Untuk kapasitas Instans, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.
-
Untuk jenis Instance, pilih instance untuk grup instance. Untuk tutorial ini, pilih
ml.c5.xlargeuntukmy-controller-group,ml.m5.4xlargeuntukmy-login-group, danml.trn1.32xlargeuntukworker-group-1.penting
Pastikan Anda memilih jenis instans dengan kuota yang cukup dan cukup alamat IP yang tidak ditetapkan untuk akun Anda. Untuk melihat atau meminta kuota tambahan, lihatSageMaker HyperPod kuota.
-
Untuk kuantitas Instance, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan 1 untuk ketiga grup.
-
Untuk Zona Ketersediaan Target, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.
-
Untuk volume penyimpanan tambahan per instance (GB) - opsional, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah
/opt/sagemaker. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah.df -hMelampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic Block Store. -
Untuk nama partisi Slurm (Hanya grup komputasi), masukkan nama partisi Slurm untuk grup instance komputasi ini. Partisi bertindak sebagai antrian logis yang mengatur bagaimana pekerjaan dijadwalkan di berbagai set node.
-
Pilih Tambahkan grup instans.
Konfigurasi siklus hidup - opsional
Konfigurasikan bagaimana node di cluster Anda disediakan. Pilihan Anda memengaruhi persyaratan bucket Amazon S3, kebutuhan akses internet, dan kompleksitas penyediaan. HyperPod mendukung tiga opsi konfigurasi siklus hidup node, masing-masing menawarkan tingkat kontrol yang berbeda atas proses penyediaan.
-
Untuk skrip Siklus Hidup, pilih salah satu opsi berikut untuk mengontrol cara node disediakan di klaster Anda:
-
Tidak ada - HyperPod mengkonfigurasi node secara otomatis menggunakan AMI-based konfigurasi. Daemon slurm, Docker, Enroot, Pyxis, akuntansi Slurm dengan MariaDB, pembuatan dan propagasi kunci SSH, rotasi log, dan pengaturan direktori home semuanya dikonfigurasi tanpa skrip atau bucket Amazon S3. Semua perangkat lunak sudah dikemas sebelumnya dalam AMI, jadi tidak diperlukan akses internet selama penyediaan. Ini adalah jalur paling sederhana untuk cluster baru.
-
Gunakan skrip siklus hidup default — Skrip siklus hidup default diunggah ke bucket Amazon S3 yang dipilih dan digunakan untuk menyediakan node. Opsi ini menggunakan skrip dari repositori Pelatihan Terdistribusi Awsome
(ADTR). -
Gunakan skrip siklus hidup khusus — Pilih skrip siklus hidup dari bucket Amazon S3. Ini sesuai dengan
OnCreatejalur di API, di mana skrip Anda memiliki seluruh urutan penyediaan, termasuk saat Slurm dimulai. HyperPod tidak menjalankan AMI-based konfigurasi saat opsi ini dipilih.
Tabel berikut merangkum tiga opsi:
Opsi Apa yang HyperPod dilakukan Bucket Amazon S3 dibutuhkan? Diperlukan akses internet? Tidak ada (AMI-basedkonfigurasi) Mengkonfigurasi node secara otomatis dengan Slurm dan paket penting Tidak Tidak Gunakan skrip siklus hidup default Mengunggah dan menjalankan skrip ADTR dari Amazon S3 Ya Ya Gunakan skrip siklus hidup kustom Menjalankan skrip Anda dari Amazon S3; Anda memiliki urutan penyediaan lengkap Ya Tergantung pada skrip Anda -
-
Untuk file skrip Ekstensi di S3 - opsional (muncul saat Anda memilih Tidak Ada di bawah skrip Siklus Hidup), masukkan URI Amazon S3 dari skrip ekstensi Anda. Skrip ekstensi memungkinkan Anda untuk menyediakan kemampuan opsional tambahan, seperti observabilitas, Daemon Layanan Keamanan Sistem (SSSD), dan pemasangan bucket Amazon S3, di atas konfigurasi default tanpa mengelola seluruh rangkaian skrip siklus hidup.
Masukkan URI Amazon S3 lengkap ke skrip titik masuk, misalnya:
s3://DOC-EXAMPLE-BUCKET/extensions/run_extensions.shHyperPod mengunduh seluruh folder tempat skrip titik masuk berada. Struktur folder Amazon S3 Anda sehingga semua file pendukung berada di direktori yang sama dengan skrip titik masuk.
catatan
Di API, ini sesuai dengan menentukan
OnInitCompleteLifeCycleConfigdenganSourceS3Uri. Konsol menggabungkan ini ke dalam satu bidang URI Amazon S3 yang mengarah langsung ke skrip titik masuk.Tip
Untuk skrip ekstensi yang siap digunakan, lihat folder Ekstensi di repositori Pelatihan
Terdistribusi Awsome. run_extensions.shSkrip mengatur beberapa kemampuan dengan sakelar boolean sederhana untuk mengaktifkan atau menonaktifkan masing-masing. -
Untuk bucket S3 untuk skrip siklus hidup (muncul saat Anda memilih Use default lifecycle scripts atau Use custom lifecycle scripts), pilih untuk membuat bucket baru atau gunakan bucket yang sudah ada untuk menyimpan skrip siklus hidup.
catatan
Konfigurasi siklus hidup node opsional hanya didukung untuk Slurm-orchestrated cluster. EKS-orchestrated Cluster Amazon dan klaster Slurm yang menggunakan Continuous NodeProvisioningMode terus memerlukan skrip siklus hidup di setiap grup instans.
catatan
Opsi None dengan skrip ekstensi dan opsi Gunakan skrip siklus hidup khusus saling eksklusif. Anda tidak dapat menggabungkan AMI-based konfigurasi dengan skrip ekstensi dan skrip siklus hidup kustom pada grup instance yang sama. Di API, ini berarti OnCreate dan OnInitComplete tidak dapat ditentukan bersama.
Izin
Pilih atau buat peran IAM yang memungkinkan HyperPod untuk menjalankan dan mengakses AWS sumber daya yang diperlukan atas nama Anda.
Penyimpanan
Konfigurasikan sistem file FSx for Lustre yang akan disediakan di cluster. HyperPod Konfigurasi fsX adalah opsional untuk pembuatan klaster tetapi direkomendasikan untuk beban kerja ML produksi.
-
Untuk sistem File, pilih sistem file FSx for Lustre yang ada, untuk membuat sistem file FSx for Lustre baru, atau jangan menyediakan sistem file FSx for Lustre.
-
Untuk Throughput per unit penyimpanan, pilih throughput yang akan tersedia per TiB penyimpanan yang disediakan.
-
Untuk kapasitas penyimpanan, masukkan nilai kapasitas dalam TB.
-
Untuk tipe kompresi data, pilih LZ4 untuk mengaktifkan kompresi data.
-
Untuk versi Lustre, lihat nilai yang direkomendasikan untuk sistem file baru.
catatan
Saat menggunakan AMI-based konfigurasi (memilih None di bawah skrip Siklus Hidup) atau skrip ekstensi, HyperPod menangani pemasangan FSx for Lustre secara otomatis. Saat menggunakan skrip siklus hidup khusus, skrip Anda bertanggung jawab untuk memasang sistem file.
Tag - opsional
Untuk Tag - opsional, tambahkan pasangan kunci dan nilai ke cluster baru dan kelola cluster sebagai AWS sumber daya. Untuk mempelajari lebih lanjut, lihat Menandai AWS sumber daya Anda.
Terapkan sumber daya
Setelah Anda menyelesaikan konfigurasi klaster menggunakan Penyiapan cepat atau Penyiapan khusus, pilih opsi berikut untuk memulai penyediaan sumber daya dan pembuatan klaster.
-
Kirim - SageMaker AI akan mulai menyediakan sumber daya konfigurasi default dan membuat cluster.
-
Unduh parameter CloudFormation template - Anda akan mengunduh parameter konfigurasi file JSON dan menjalankan AWS CLI perintah untuk menyebarkan CloudFormation tumpukan untuk menyediakan sumber daya konfigurasi dan membuat cluster. Anda dapat mengedit file JSON parameter yang diunduh jika diperlukan. Jika Anda memilih opsi ini, lihat petunjuk lainnya diMembuat SageMaker HyperPod cluster menggunakan CloudFormation templat.
Hapus cluster dan sumber daya bersih
Setelah Anda berhasil menguji pembuatan SageMaker HyperPod klaster, klaster terus berjalan di InService status hingga Anda menghapus klaster. Kami menyarankan Anda menghapus klaster apa pun yang dibuat menggunakan instance SageMaker AI sesuai permintaan saat tidak digunakan untuk menghindari biaya layanan lanjutan berdasarkan harga sesuai permintaan. Dalam tutorial ini, Anda telah membuat sebuah cluster yang terdiri dari dua kelompok instance. Salah satunya menggunakan instance C5, jadi pastikan Anda menghapus cluster dengan mengikuti instruksi diHapus SageMaker HyperPod klaster.
Namun, jika Anda telah membuat klaster dengan kapasitas komputasi cadangan, status cluster tidak memengaruhi penagihan layanan.
Jika Anda menggunakan Gunakan skrip siklus hidup default atau Gunakan skrip siklus hidup khusus, buka bucket Amazon S3 yang Anda gunakan selama pembuatan klaster dan hapus file skrip siklus hidup.
Jika Anda menggunakan None (hanya AMI-based konfigurasi) tanpa skrip ekstensi, pembersihan Amazon S3 tidak diperlukan untuk skrip siklus hidup.
Jika Anda menggunakan None dengan skrip ekstensi, bersihkan file skrip ekstensi dari bucket Amazon S3 yang Anda tentukan.
Jika Anda telah menguji menjalankan beban kerja apa pun di klaster, pastikan apakah Anda telah mengunggah data apa pun atau jika pekerjaan Anda menyimpan artefak apa pun ke bucket S3 atau layanan sistem file yang berbeda seperti Amazon FSx for Lustre dan Amazon Elastic File System. Untuk mencegah biaya yang timbul, hapus semua artefak dan data dari penyimpanan atau sistem file.