View a markdown version of this page

Prasyarat untuk menggunakan SageMaker HyperPod - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Prasyarat untuk menggunakan SageMaker HyperPod

Bagian berikut memandu Anda melalui prasyarat sebelum memulai. SageMaker HyperPod

SageMaker HyperPod kuota

Anda dapat membuat SageMaker HyperPod cluster yang diberikan kuota untuk penggunaan cluster di akun Anda AWS .

penting

Untuk mempelajari lebih lanjut tentang SageMaker HyperPod harga, lihat SageMaker HyperPod harga dan SageMaker Harga Amazon.

Lihat SageMaker HyperPod kuota Amazon menggunakan Konsol Manajemen AWS

Cari nilai default dan terapan kuota, juga disebut sebagai batas, untuk penggunaan klaster, yang digunakan untuk SageMaker HyperPod.

  1. Buka konsol Service Quotas.

  2. Di panel navigasi kiri, pilih AWS layanan.

  3. Dari daftar AWS layanan, cari dan pilih Amazon SageMaker AI.

  4. Dalam daftar Kuota layanan, Anda dapat melihat nama kuota layanan, nilai yang diterapkan (jika tersedia), kuota AWS default, dan apakah nilai kuota dapat disesuaikan.

  5. Di bilah pencarian, ketik penggunaan cluster. Ini menunjukkan kuota untuk penggunaan cluster, kuota yang diterapkan, dan kuota default.

Daftar kuota layanan umum untuk membuat HyperPod cluster dan prasyarat

Anda mungkin ingin memeriksa apakah Anda telah meminta peningkatan batas kuota layanan untuk kuota berikut untuk membuat HyperPod klaster baru bersama dengan prasyarat di konsol AI. SageMaker Arahkan ke konsol Kuota Layanan dan cari istilah berikut.

Tidak Nama Kuota Istilah Pencarian Deskripsi
1 Jumlah instans maksimum yang diizinkan per cluster SageMaker HyperPod Di bawah pencarian SageMaker AI untuk “Instans jumlah maksimum yang diizinkan per SageMaker HyperPod cluster” Nilai kuota tingkat akun Anda harus lebih dari jumlah instans yang ingin Anda tambahkan ke klaster Anda
2 Ukuran maksimum volume EBS dalam GB untuk instance SageMaker HyperPod cluster

Di bawah pencarian SageMaker AI untuk “Ukuran maksimum volume EBS dalam GB untuk instance HyperPod cluster” 

Nilai kuota tingkat akun Anda harus lebih dari volume EBS yang ingin Anda tambahkan ke klaster Anda

3 Jumlah total instance yang diizinkan di seluruh cluster SageMaker HyperPod

Di bawah pencarian SageMaker AI untuk “Jumlah total instance yang diizinkan di seluruh SageMaker HyperPod cluster” 

Nilai kuota tingkat akun Anda harus lebih dari total instans yang ingin Anda tambahkan di semua klaster di akun Anda secara agregat
4

Kuota Instance 

Di bawah pencarian SageMaker AI untuk “mL. <instance_type>untuk penggunaan cluster” misalnya: ml.p5.48xlarge untuk penggunaan cluster

Nilai kuota tingkat akun Anda untuk jenis instans tertentu (misalnya: ml.p5.48xlarge) harus lebih besar dari jumlah instans yang akan ditambahkan di semua cluster di akun Anda secara agregat.
5

VPC per Wilayah

Di bawah Amazon Virtual Private Cloud (Amazon VPC) cari “VPC per Wilayah” Nilai kuota tingkat akun Anda harus cukup untuk membuat VPC baru di akun saat menyiapkan klaster Anda. HyperPod Periksa apakah Anda sudah kehabisan batas kuota ini dengan mengecek konsol VPC. Peningkatan kuota ini hanya diperlukan jika Anda akan membuat VPC baru melalui opsi pengaturan cluster Quick atau Custom di SageMaker HyperPod konsol.
6

Gateway internet per Wilayah

Di bawah Amazon Virtual Private Cloud (Amazon VPC) cari “gateway Internet per Wilayah”

Nilai kuota tingkat akun Anda harus cukup untuk membuat satu gateway Internet tambahan di akun saat menyiapkan klaster Anda. SageMaker HyperPod Peningkatan kuota ini hanya diperlukan jika Anda akan membuat VPC baru melalui opsi pengaturan cluster Quick atau Custom di SageMaker HyperPod konsol. 
7 Antarmuka jaringan per Wilayah Di bawah Amazon Virtual Private Cloud (Amazon VPC) cari “Antarmuka jaringan per Wilayah”

Nilai kuota tingkat akun Anda harus memiliki Antarmuka Jaringan yang cukup di akun saat menyiapkan klaster Anda. HyperPod 

8 EC2-VPC IP elastis Di bawah Amazon Elastic Compute Cloud (Amazon EC2) cari “IP Elastis” EC2-VPC Nilai kuota tingkat akun Anda harus cukup untuk membuat VPC baru di akun saat menyiapkan klaster Anda. HyperPod Cek apakah kamu sudah kehabisan batas kuota ini dengan mengecek konsol VPC. Peningkatan kuota ini hanya diperlukan jika Anda akan membuat VPC baru melalui opsi pengaturan cluster Quick atau Custom di SageMaker HyperPod konsol.

Minta peningkatan SageMaker HyperPod kuota Amazon menggunakan Konsol Manajemen AWS

Tingkatkan kuota Anda di tingkat akun atau sumber daya.

  1. Untuk menambah kuota instans untuk penggunaan klaster, pilih kuota yang ingin Anda tingkatkan.

  2. Jika kuota dapat disesuaikan, Anda dapat meminta peningkatan kuota di tingkat akun atau tingkat sumber daya berdasarkan nilai yang tercantum di kolom Adjustability.

  3. Untuk Meningkatkan nilai kuota, masukkan nilai baru. Nilai baru lebih besar dari nilai saat ini.

  4. Pilih Permintaan.

  5. Untuk melihat permintaan yang tertunda atau yang baru saja diselesaikan di konsol, navigasikan ke tab Riwayat permintaan dari halaman detail layanan, atau pilih Dasbor dari panel navigasi. Untuk permintaan yang tertunda, pilih status permintaan untuk membuka penerimaan permintaan. Status awal dari permintaan adalah Tertunda. Setelah status berubah menjadi Kuota yang diminta, Anda melihat nomor kasus dengan AWS Dukungan. Pilih nomor kasus untuk membuka tiket untuk permintaan Anda.

Untuk mempelajari lebih lanjut tentang meminta peningkatan kuota secara umum, lihat Meminta Peningkatan Kuota dalam Panduan Pengguna Service QuotasAWS .

Menyiapkan SageMaker HyperPod dengan VPC Amazon khusus

Untuk menyiapkan SageMaker HyperPod cluster dengan VPC Amazon khusus, tinjau prasyarat berikut.

catatan

Konfigurasi VPC wajib untuk orkestrasi Amazon EKS. Untuk orkestrasi Slurm, pengaturan VPC bersifat opsional.

  • Validasi kapasitas Elastic Network Interface (ENI) di Anda Akun AWS sebelum membuat SageMaker HyperPod cluster dengan VPC kustom. Batas ENI dikendalikan oleh Amazon EC2 dan bervariasi menurut. AWS Region SageMaker HyperPod tidak dapat secara otomatis meminta kenaikan kuota.

    Untuk memverifikasi kuota ENI Anda saat ini:
    1. Buka konsol Service Quotas.

    2. Di bagian Kelola kuota, gunakan daftar drop-down AWS Layanan untuk mencari VPC.

    3. Pilih untuk melihat kuota Amazon Virtual Private Cloud (Amazon VPC).

    4. Cari kuota layanan Antarmuka jaringan per Wilayah atau kode Kuota. L-DF5E4CA3

    Jika batas ENI Anda saat ini tidak mencukupi untuk kebutuhan SageMaker HyperPod klaster Anda, mintalah peningkatan kuota. Memastikan kapasitas ENI yang memadai sebelumnya membantu mencegah kegagalan penerapan cluster.

  • Saat menggunakan VPC khusus untuk menghubungkan SageMaker HyperPod cluster dengan AWS sumber daya, berikan nama VPC, ID, ID subnet AWS Region, dan ID grup keamanan selama pembuatan klaster.

    catatan

    Jika VPC dan subnet Amazon Anda mendukung IPv6 di klaster atau di tingkat grup Instans menggunakan OverrideVPCConfig atribut ClusterInstanceGroupSpecification, komunikasi jaringan berbeda berdasarkan platform orkestrasi cluster: VPCConfig

    • Slurm-orchestrated cluster secara otomatis mengkonfigurasi node dengan alamat IPv6 dan IPv4 ganda, memungkinkan komunikasi jaringan IPv6 langsung. Tidak ada konfigurasi tambahan yang diperlukan di luar pengaturan VPCConfig IPv6.

    • Dalam EKS-orchestrated cluster, node menerima dual-stack addressing, tetapi pod hanya dapat menggunakan IPv6 ketika klaster Amazon EKS secara eksplisit. IPv6-enabled Anda harus membuat kluster IPv6 Amazon EKS baru - kluster IPv4 Amazon EKS yang ada tidak dapat dikonversi ke IPv6. Untuk informasi tentang penerapan kluster IPv6 Amazon EKS, Amazon EKS lihat Penerapan Kluster IPv6.

    Sumber daya tambahan untuk konfigurasi IPv6:

  • Pastikan bahwa semua sumber daya dikerahkan AWS Region sama dengan SageMaker HyperPod cluster. Konfigurasikan aturan grup keamanan untuk memungkinkan komunikasi antar sumber daya dalam VPC. Misalnya, saat membuat VPC dius-west-2, berikan subnet di satu atau beberapa Availability Zone (seperti us-west-2a atauus-west-2b), dan buat grup keamanan yang memungkinkan lalu lintas intra-grup.

    catatan

    SageMaker HyperPod mendukung penyebaran Zona Multi-ketersediaan. Untuk informasi selengkapnya, lihat Menyiapkan SageMaker HyperPod cluster di beberapa AZ.

  • Tetapkan konektivitas Amazon Simple Storage Service (Amazon S3) untuk grup VPC-deployed SageMaker HyperPod instans dengan membuat titik akhir VPC. Tanpa akses internet, grup instans tidak dapat menyimpan atau mengambil skrip siklus hidup, data pelatihan, atau artefak model. Kami menyarankan Anda membuat kebijakan IAM khusus yang membatasi akses bucket Amazon S3 ke VPC pribadi. Untuk informasi selengkapnya, lihat Titik Akhir untuk Amazon S3 di AWS PrivateLink Panduan.

  • Untuk HyperPod cluster yang menggunakan instans yang diaktifkan Elastic Fabric Adapter (EFA), konfigurasikan grup keamanan untuk mengizinkan semua lalu lintas masuk dan keluar ke dan dari grup keamanan itu sendiri. Secara khusus, hindari penggunaan 0.0.0.0/0 untuk aturan keluar, karena ini dapat menyebabkan kegagalan pemeriksaan kesehatan EFA. Untuk informasi selengkapnya tentang pedoman persiapan grup keamanan EFA, lihat Langkah 1: Mempersiapkan grup EFA-enabled keamanan di Panduan Pengguna Amazon EC2.

  • Pertimbangkan ukuran blok Classless Inter-Domain Routing (CIDR) subnet Anda dengan hati-hati sebelum membuat cluster. HyperPod

Menyiapkan SageMaker HyperPod cluster di beberapa AZ

Anda dapat mengonfigurasi SageMaker HyperPod klaster Anda di beberapa Availability Zone (AZ) untuk meningkatkan keandalan dan ketersediaan.

catatan

Lalu lintas Elastic Fabric Adapter (EFA) tidak dapat melintasi AZ atau VPC. Ini tidak berlaku untuk lalu lintas IP normal dari perangkat ENA antarmuka EFA. Untuk informasi lebih lanjut, lihat batasan EFA.

  • Perilaku default

    HyperPod menyebarkan semua instance klaster dalam satu Availability Zone. Konfigurasi VPC menentukan penyebaran AZ:

    • Untuk Slurm-orchestrated cluster, konfigurasi VPC bersifat opsional. Ketika tidak ada konfigurasi VPC yang disediakan, HyperPod default ke satu subnet dari platform VPC.

    • Untuk EKS-orchestrated cluster, konfigurasi VPC diperlukan.

    • Untuk orkestrator Slurm dan EKS, ketika VpcConfigdisediakan, HyperPod memilih subnet dari daftar subnet yang disediakan. VpcConfig Semua grup instance mewarisi AZ subnet.

    catatan

    Setelah Anda membuat cluster, Anda tidak dapat mengubah VpcConfig pengaturannya.

    Untuk mempelajari lebih lanjut tentang mengonfigurasi VPC untuk HyperPod cluster, lihat bagian sebelumnya,. Menyiapkan SageMaker HyperPod dengan VPC Amazon khusus

  • Multi-AZ konfigurasi

    Anda dapat mengatur HyperPod klaster di beberapa AZ saat membuat klaster atau saat menambahkan grup instans baru ke cluster yang ada. Untuk mengonfigurasi penerapan Multi-AZ, Anda dapat mengganti pengaturan VPC default klaster dengan menentukan subnet dan grup keamanan yang berbeda, yang berpotensi melintasi Zona Ketersediaan yang berbeda, untuk grup instans individual dalam klaster Anda.

    SageMaker HyperPod Pengguna API dapat menggunakan OverrideVpcConfig properti di dalam ClusterInstanceGroupSpecificationsaat bekerja dengan CreateClusteratau UpdateClusterAPI.

    OverrideVpcConfigBidang:

    • Tidak dapat dimodifikasi setelah grup instance dibuat.

    • Adalah opsional. Jika tidak ditentukan, tingkat cluster VpcConfigdigunakan sebagai default.

    • Untuk Slurm-orchestrated cluster, hanya dapat ditentukan ketika tingkat cluster VpcConfig disediakan. Jika no VpcConfig ditentukan pada tingkat cluster, OverrideVpcConfig tidak dapat digunakan untuk grup instance apa pun.

    • Berisi dua bidang wajib:

      • Subnets- menerima antara 1 dan 16 subnet ID

      • SecurityGroupIds- menerima antara 1 dan 5 ID grup keamanan

    Untuk informasi selengkapnya tentang membuat atau memperbarui SageMaker HyperPod klaster menggunakan UI SageMaker HyperPod konsol atau AWS CLI:

catatan

Saat menjalankan beban kerja di beberapa AZ, ketahuilah bahwa komunikasi jaringan antar AZ memperkenalkan latensi tambahan. Pertimbangkan dampak ini saat merancang aplikasi yang sensitif terhadap latensi.

Penyiapan AWS Systems Manager dan Run As untuk kontrol akses pengguna cluster

SageMaker HyperPod DLAMIdilengkapi dengan AWS Systems Manager(SSM) di luar kotak untuk membantu Anda mengelola akses ke grup instans SageMaker HyperPod cluster Anda. Bagian ini menjelaskan cara membuat pengguna sistem operasi (OS) di SageMaker HyperPod cluster Anda dan mengaitkannya dengan pengguna dan peran IAM. Ini berguna untuk mengautentikasi sesi SSM menggunakan kredensil akun pengguna OS.

catatan

Memberikan pengguna akses ke node HyperPod cluster memungkinkan mereka untuk menginstal dan mengoperasikan perangkat lunak yang dikelola pengguna pada node. Pastikan Anda mempertahankan prinsip izin hak istimewa paling sedikit bagi pengguna.

Mengaktifkan Jalankan Seperti di AWS akun

Sebagai admin AWS akun atau administrator cloud, Anda dapat mengelola akses ke SageMaker HyperPod cluster pada peran IAM atau tingkat pengguna dengan menggunakan fitur Run As di SSM. Dengan fitur ini, Anda dapat memulai setiap sesi SSM menggunakan pengguna OS yang terkait dengan peran IAM atau pengguna.

Untuk mengaktifkan Run As di AWS akun Anda, ikuti langkah-langkah di Turn on Run As support for Linux dan macOS managed node. Jika Anda sudah membuat pengguna OS di klaster Anda, pastikan Anda mengaitkannya dengan peran IAM atau pengguna dengan menandai mereka sebagai dipandu di Opsi 2 dari langkah 5 di bawah Untuk mengaktifkan dukungan Run As untuk Linux dan node yang dikelola macOS.

(Opsional) Menyiapkan SageMaker HyperPod dengan Amazon FSx for Lustre

Untuk mulai menggunakan SageMaker HyperPod dan memetakan jalur data antara cluster dan FSx for Lustre fille system, pilih salah satu yang didukung oleh. Region AWS SageMaker HyperPod Setelah memilih yang AWS Region Anda inginkan, Anda juga harus menentukan Availability Zone (AZ) mana yang akan digunakan.

Jika Anda menggunakan node SageMaker HyperPod komputasi di AZ yang berbeda dari AZ di mana sistem fsX for Lustre file Anda diatur dalam hal yang sama, mungkin ada komunikasi dan overhead jaringan. AWS Region Kami menyarankan Anda untuk menggunakan AZ fisik yang sama dengan AZ untuk akun SageMaker HyperPod layanan untuk menghindari lalu lintas lintas lintas AZ antara SageMaker HyperPod cluster dan FSx for Lustre file system Anda. Juga, pastikan Anda telah mengonfigurasinya dengan VPC Anda. Jika Anda ingin menggunakan Amazon FSx sebagai sistem file utama untuk penyimpanan, Anda harus mengonfigurasi SageMaker HyperPod cluster dengan VPC Anda.