View a markdown version of this page

HyperPod tab di Studio - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

HyperPod tab di Studio

Di Amazon SageMaker Studio, Anda dapat menavigasi ke salah satu cluster dalam HyperPodcluster (di bawah Compute) dan melihat daftar cluster Anda. Cluster yang ditampilkan berisi informasi seperti tugas, metrik perangkat keras, pengaturan, dan detail metadata. Visibilitas ini dapat membantu tim Anda mengidentifikasi kandidat yang tepat untuk beban kerja pra-pelatihan atau finetuning Anda. Bagian berikut memberikan informasi tentang setiap jenis informasi.

Tugas

Amazon SageMaker HyperPod menyediakan tampilan tugas klaster Anda. Tugas adalah operasi atau pekerjaan yang dikirim ke cluster. Ini bisa berupa operasi pembelajaran mesin, seperti pelatihan, menjalankan eksperimen, atau inferensi. Bagian berikut memberikan informasi tentang tugas HyperPod cluster Anda.

Di Amazon SageMaker Studio, Anda dapat menavigasi ke salah satu cluster di HyperPodcluster (di bawah Compute) dan melihat informasi Tugas di klaster Anda. Jika Anda mengalami masalah dengan melihat tugas, lihatPemecahan masalah.

Tabel tugas meliputi:

For Slurm clusters

Untuk cluster Slurm, tugas yang saat ini dalam antrean penjadwal pekerjaan Slurm ditampilkan dalam tabel. Informasi yang ditampilkan untuk setiap tugas mencakup nama tugas, status, ID pekerjaan, partisi, waktu berjalan, node, dibuat oleh, dan tindakan.

Untuk daftar dan detail tentang pekerjaan sebelumnya, gunakan sacctperintah di JupyterLab atau terminal Editor Kode. sacctPerintah ini digunakan untuk melihat informasi historis tentang pekerjaan yang telah selesai atau lengkap dalam sistem. Ini memberikan informasi akuntansi, termasuk penggunaan sumber daya pekerjaan seperti memori dan status keluar.

Secara default, semua pengguna Studio dapat melihat, mengelola, dan berinteraksi dengan semua tugas Slurm yang tersedia. Untuk membatasi tugas yang dapat dilihat ke pengguna Studio, lihat. Batasi tampilan tugas di Studio untuk cluster Slurm

For Amazon EKS clusters

Untuk klaster Amazon EKS, tugas kubeflow (PyTorch, MPI, TensorFlow) ditampilkan dalam tabel. PyTorch tugas ditampilkan secara default. Anda dapat mengurutkan untuk PyTorch, MPI, dan TensorFlow di bawah Jenis tugas. Informasi yang ditampilkan untuk setiap tugas mencakup nama tugas, status, namespace, kelas prioritas, dan waktu pembuatan.

Secara default, semua pengguna dapat melihat pekerjaan di semua ruang nama. Untuk membatasi ruang nama Kubernetes yang dapat dilihat yang tersedia bagi pengguna Studio, lihat. Batasi tampilan tugas di Studio untuk kluster EKS Jika pengguna tidak dapat melihat tugas dan diminta untuk memberikan namespace, mereka perlu mendapatkan informasi itu dari administrator.

Metrik-metrik

Amazon SageMaker HyperPod memberikan tampilan metrik pemanfaatan klaster Slurm atau Amazon EKS Anda. Berikut ini memberikan informasi tentang metrik HyperPod klaster Anda.

Anda harus menginstal add-on Amazon EKS untuk melihat metrik berikut. Untuk informasi selengkapnya, lihat Menginstal add-on Amazon CloudWatch Observability EKS.

Di Amazon SageMaker Studio, Anda dapat menavigasi ke salah satu cluster di HyperPodcluster (di bawah Compute) dan melihat detail Metrik di klaster Anda. Metrik memberikan pandangan komprehensif tentang metrik pemanfaatan klaster, termasuk metrik perangkat keras, tim, dan tugas. Ini termasuk ketersediaan dan penggunaan komputasi, alokasi dan pemanfaatan tim, dan informasi tugas dan waktu tunggu.

Pengaturan

Amazon SageMaker HyperPod menyediakan tampilan pengaturan cluster Anda. Berikut ini memberikan informasi tentang pengaturan HyperPod cluster Anda.

Di Amazon SageMaker Studio, Anda dapat menavigasi ke salah satu cluster di HyperPodcluster (di bawah Compute) dan melihat informasi Setelan di klaster Anda. Informasi tersebut meliputi:

  • Detail instans, termasuk ID instans, status, jenis instans, dan grup instans

  • Detail grup instans, termasuk nama grup instans, jenis, hitungan, dan informasi komputasi

  • Rincian orkestrasi, termasuk orkestrator, versi, dan otoritas sertifikasi

  • Detail ketahanan klaster

  • Detail keamanan, termasuk subnet dan grup keamanan

IDE dan Notebook

Amazon SageMaker HyperPod memberikan tampilan ruang pengembangan yang berjalan di cluster Anda. Spasi adalah lingkungan mandiri untuk menjalankan JupyterLab atau Code Editor IDE langsung di kluster HyperPod EKS Anda. Anda dapat membuat, mengonfigurasi, memulai, menghentikan, dan membuka ruang langsung dari Studio.

Di Amazon SageMaker Studio, navigasikan ke salah satu cluster Anda dalam HyperPodcluster (di bawah Compute) dan pilih tab IDE dan Notebooks.

Kemampuan utama yang tersedia melalui Studio meliputi:

  • Buat spasi dengan pengaturan komputasi, penyimpanan, dan gambar yang dapat dikonfigurasi melalui formulir yang dipandu.

  • Lihat semua spasi dalam tabel yang dapat dicari yang menampilkan nama, jenis aplikasi, status, jenis akses, penyimpanan, GPU, dan alokasi vCPU.

  • Mulai dan hentikan spasi dengan satu klik untuk mengelola biaya komputasi.

  • Buka spasi langsung di browser (JupyterLab atau Editor Kode) atau sambungkan melalui IDE Jarak Jauh. Untuk informasi selengkapnya, lihat Akses jarak jauh ke SageMaker Spaces.

  • Hapus spasi yang tidak lagi diperlukan.

  • Pilih ruang nama untuk mengatur spasi menurut tim dengan kuota sumber daya dan pengaturan tata kelola.

  • Terapkan templat untuk konfigurasi ruang yang konsisten di seluruh tim.

Untuk informasi tentang membuat domain, lihatPanduan untuk mengatur dengan Amazon SageMaker AI.

Prasyarat

  • Instal HyperPod add-on di cluster Anda. Untuk informasi selengkapnya, lihat Instal SageMaker AI Spaces Add-on.

  • Siapkan cluster Anda untuk digunakan di Studio. Untuk informasi selengkapnya, lihat Menyiapkan kluster Amazon EKS di Studio.

  • Untuk mengaktifkan ruang pribadi di antara pengguna dengan peran eksekusi yang sama, Anda harus memastikan ExecutionRoleSessionNameMode tanda disetel keUSER_IDENTITY. Dengan fitur HyperPod Spaces, nama pengguna yang digunakan di dalam ruang secara otomatis berasal dari konteks otentikasi Studio, memungkinkan pengguna untuk memiliki identitas yang konsisten di seluruh Studio dan HyperPod Spaces tanpa memerlukan login tambahan.

    Untuk domain Studio yang dikonfigurasi dalam mode autentikasi IAM, nama pengguna Spaces berasal dari nama sesi peran IAM. Ini sesuai dengan sesi IAM yang digunakan untuk meluncurkan Studio, baik melalui AWS Management Console atau melalui URL Studio yang telah ditetapkan sebelumnya. Untuk domain Studio yang dikonfigurasi dalam mode autentikasi Pusat Identitas IAM, nama pengguna Spaces adalah nama pengguna IAM Identity Center yang diautentikasi yang telah disanitasi.

    Ini diatur secara default untuk domain baru dan dapat diganti untuk domain lama. Pengaturan ini juga dapat diganti untuk setiap profil pengguna. Untuk informasi selengkapnya, lihat Mode nama sesi peran eksekusi.

Cara kerjanya

Setelah add-on diinstal dan akses dikonfigurasi, navigasikan ke HyperPod cluster Anda di Studio dan pilih tab IDE dan Notebooks untuk melihat antarmuka manajemen spasi.

Membuat ruang

Untuk membuat ruang baru, pilih Buat ruang. Formulir pembuatan memungkinkan Anda untuk mengkonfigurasi yang berikut:

  • Namespace: Pilih namespace tim Anda dengan kuota sumber daya dan pengaturan tata kelola. Ini menentukan alokasi komputasi Anda yang tersedia.

  • Pengaturan ruang:

    • Templat: Pilih templat yang telah dikonfigurasi sebelumnya (misalnya, JupyterLab atau Editor Kode) untuk menerapkan pengaturan default.

    • Compute: Pilih antara konfigurasi GPU dan CPU dengan kontrol halus atas GPU, vCPU, dan memori.

    • Partisi GPU: Jika GPU fraksional diaktifkan, Anda dapat memilih partisi yang akan digunakan untuk ruang kerja Anda.

    • Gambar: Pilih dari gambar kontainer yang tersedia atau gambar khusus yang dikonfigurasi oleh administrator Anda.

    • Penyimpanan ruang EBS: Konfigurasikan penyimpanan persisten untuk notebook dan data Anda.

  • Tata kelola tugas: Saat diaktifkan untuk namespace, spasi terintegrasi dengan tata kelola HyperPod tugas untuk pengelolaan sumber daya dan penjadwalan prioritas. Untuk informasi selengkapnya, lihat Tata kelola tugas untuk Ruang Interaktif di HyperPod.

Mengelola ruang

Tabel spasi menyediakan tampilan konsolidasi dari semua lingkungan Anda, termasuk status dan alokasi sumber daya.

Dari kolom Tindakan, Anda dapat:

  • Hentikan ruang yang sedang berjalan untuk merilis sumber daya komputasi sambil mempertahankan data Anda di penyimpanan EBS.

  • Buka ruang di browser Anda untuk meluncurkan antarmuka web JupyterLab atau Editor Kode.

  • Connect menggunakan Remote IDE. Untuk informasi selengkapnya, lihat Akses jarak jauh ke SageMaker Spaces.

Menghubungkan ke ruang Anda

Spasi mendukung dua metode koneksi:

Akses UI Web

Pilih Buka dari tabel spasi untuk meluncurkan IDE langsung di browser Anda. Ini membuka antarmuka yang berfungsi penuh JupyterLab atau Editor Kode yang dihosting di HyperPod cluster Anda. Tidak diperlukan instalasi perangkat lunak lokal di luar browser web. Ini sangat ideal untuk iterasi cepat, eksplorasi berbasis notebook, dan kerja kolaboratif. Untuk mengaktifkan akses UI Web di klaster Anda, lihatAkses browser web.

Koneksi IDE jarak jauh

Pilih Buka di IDE Jarak Jauh dari tabel spasi untuk menghubungkan IDE lokal Anda ke ruang yang sedang berjalan HyperPod. Ini menyediakan koneksi yang aman tanpa mengharuskan Anda untuk mengelola kunci SSH atau mengekspos port 22. Anda mendapatkan kekuatan penuh dari lingkungan pengembangan lokal Anda saat menjalankan kode pada komputasi HyperPod cluster. Untuk informasi selengkapnya, lihat Akses jarak jauh ke SageMaker Spaces.

Detail

Amazon SageMaker HyperPod menyediakan tampilan detail metadata klaster Anda. Paragraf berikut memberikan informasi tentang cara mendapatkan detail HyperPod cluster Anda.

Di Amazon SageMaker Studio, Anda dapat menavigasi ke salah satu cluster dalam HyperPodcluster (di bawah Compute) dan melihat Detail di klaster Anda. Ini termasuk tag, log, dan metadata.