View a markdown version of this page

Studio 中的 HyperPod 索引標籤 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Studio 中的 HyperPod 索引標籤

在 Amazon SageMaker Studio 中,您可以導覽至 HyperPod 叢集中的其中一個叢集 (在運算下),並檢視叢集清單。顯示的叢集包含任務、硬體指標、設定和中繼資料詳細資訊等資訊。此可見性可協助您的團隊識別適合於預先訓練或微調工作負載的合適候選者。下列各節提供每種資訊類型的相關資訊。

任務​

Amazon SageMaker HyperPod 提供叢集任務的檢視。任務是傳送至叢集的作業或任務。這些可以是機器學習作業,例如訓練、執行實驗或推論。下節提供 HyperPod 叢集任務的相關資訊。

在 Amazon SageMaker Studio 中,您可以導覽至 HyperPod 叢集中的其中一個叢集 (在運算下),並檢視叢集上的任務資訊。如果您在檢視任務時遇到任何問題,請參閱疑難排解

任務資料表包括:

For Slurm clusters

對於 Slurm 叢集,目前在 Slurm 任務排程器佇列中的任務會顯示在資料表中。針對每個任務顯示的資訊包括任務名稱、狀態、任務 ID、分割區、執行時間、節點、建立者和動作。

如需過去任務的清單和詳細資訊,請在 JupyterLab 或程式碼編輯器終端機中使用 sacct 命令。sacct 命令用來檢視系統中已完成完成之任務的歷程資訊。它提供會計資訊,包括任務資源用量,例如記憶體和結束狀態。

根據預設,所有 Studio 使用者都可以檢視、管理所有可用的 Slurm 任務,並與其互動。若要限制 Studio 使用者可檢視的任務,請參閱限制 Studio for Slurm 叢集的任務檢視

For Amazon EKS clusters

對於 Amazon EKS 叢集,kubeflow (PyTorch、MPI、TensorFlow) 任務會顯示在資料表中。預設會顯示 PyTorch 任務。您可以在任務類型下排序 PyTorch、MPI 和 TensorFlow。針對每個任務顯示的資訊包括任務名稱、狀態、命名空間、優先順序類別和建立時間。

根據預設,所有使用者都可以檢視所有命名空間的任務。若要限制 Studio 使用者可檢視的 Kubernetes 命名空間,請參閱限制 Studio for EKS 叢集中的任務檢視。如果使用者無法檢視任務並被要求提供命名空間,他們需要從管理員取得該資訊。

指標

Amazon SageMaker HyperPod 會提供 Slurm 或 Amazon EKS 叢集使用率指標的檢視。以下提供 HyperPod 叢集指標的相關資訊。

您需要安裝 Amazon EKS 附加元件才能檢視下列指標。如需詳細資訊,請參閱安裝 Amazon CloudWatch 可觀測性 EKS 附加元件

在 Amazon SageMaker Studio 中,您可以導覽至 HyperPod 叢集中的其中一個叢集 (在運算下),並檢視叢集上的指標詳細資訊。指標提供叢集使用率指標的全面檢視,包括硬體、團隊和任務指標。這包括運算可用性和用量、團隊配置和使用率,以及任務執行和等待時間資訊。

設定

Amazon SageMaker HyperPod 提供叢集設定的檢視。以下提供 HyperPod 叢集設定的相關資訊。

在 Amazon SageMaker Studio 中,您可以導覽至 HyperPod 叢集中的其中一個叢集 (在運算下),並檢視叢集上的設定資訊。資訊包括下列內容:

  • 執行個體詳細資訊,包括執行個體 ID、狀態、執行個體類型和執行個體群組

  • 執行個體群組詳細資訊,包括執行個體群組名稱、類型、計數和運算資訊

  • 協同運作詳細資訊,包括協調器、版本和認證機構

  • 叢集彈性詳細資訊

  • 安全詳細資訊,包括子網路和安全群組

IDE 和筆記本

Amazon SageMaker HyperPod 可讓您檢視叢集上執行的開發空間。Spaces 是獨立環境,可直接在 HyperPod EKS 叢集上執行 JupyterLab 或程式碼編輯器 IDEs。您可以直接從 Studio 建立、設定、啟動、停止和開啟空間。

在 Amazon SageMaker Studio 中,導覽至 HyperPod 叢集中的其中一個叢集 (在運算下),然後選擇 IDE 和筆記本索引標籤。

Studio 提供的主要功能包括:

  • 透過引導式表單,使用可設定的運算、儲存和映像設定建立空間。

  • 檢視可搜尋資料表中的所有空格,其中顯示名稱、應用程式類型、狀態、存取類型、儲存體、GPU 和 vCPU 配置。

  • 按一下即可開始和停止空間,以管理運算成本。

  • 直接在瀏覽器 (JupyterLab 或程式碼編輯器) 中開啟空格,或透過遠端 IDE 連線。如需詳細資訊,請參閱遠端存取 SageMaker Spaces

  • 刪除不再需要的空格。

  • 選取命名空間,以使用資源配額和控管設定,依團隊組織空間。

  • 跨團隊套用一致的空間組態範本。

如需建立網域的詳細資訊,請參閱使用 Amazon SageMaker AI 進行設定的指南

先決條件

  • 在叢集上安裝 HyperPod 附加元件。如需詳細資訊,請參閱安裝 SageMaker AI Spaces 附加元件

  • 設定要在 Studio 中使用的叢集。如需詳細資訊,請參閱在 Studio 中設定 Amazon EKS 叢集

  • 若要在具有相同執行角色的使用者之間啟用私有空間,您必須確保ExecutionRoleSessionNameMode旗標設定為 USER_IDENTITY。使用 HyperPod Spaces 功能時,空間內使用的使用者名稱會自動衍生自 Studio 身分驗證內容,讓使用者在 Studio 和 HyperPod Spaces 之間擁有一致的身分,而不需要額外的登入。

    對於在 IAM 身分驗證模式中設定的 Studio 網域,Spaces 使用者名稱衍生自 IAM 角色工作階段名稱。這對應至用於啟動 Studio 的 IAM 工作階段,無論是透過 AWS 管理主控台或透過預先簽章的 Studio URL。對於在 IAM Identity Center 身分驗證模式中設定的 Studio 網域,Spaces 使用者名稱是已淨化驗證的 IAM Identity Center 使用者名稱。

    根據預設,新網域會設定此值,舊網域則可覆寫此值。每個使用者設定檔也可以覆寫此設定。如需詳細資訊,請參閱執行角色工作階段名稱模式

運作方式

安裝附加元件並設定存取後,導覽至 Studio 中的 HyperPod 叢集,然後選取 IDE 和筆記本索引標籤以查看空間管理界面。

建立空間

若要建立新的空間,請選擇建立空間。建立表單可讓您設定下列項目:

  • 命名空間:使用資源配額和控管設定選取您的團隊命名空間。這會決定您可用的運算配置。

  • 空間設定:

    • 範本:選取預先設定的範本 (例如,JupyterLab 或程式碼編輯器) 以套用預設設定。

    • 運算:透過 GPU、vCPUs 和記憶體的精細控制,在 GPUs 和 CPU 組態之間進行選擇。

    • GPU 分割區:如果啟用分數 GPU,您可以選擇要用於工作區的分割區。

    • 影像:從您的管理員設定的可用容器映像或自訂映像中選取。

    • EBS 空間儲存:為您的筆記本和資料設定持久性儲存。

  • 任務控管:針對命名空間啟用 時,空格會與 HyperPod 任務控管整合,以進行資源管理和優先順序排程。如需詳細資訊,請參閱HyperPod 上互動式空間的任務控管

管理空格

空格表格提供所有環境的合併檢視,包括狀態和資源配置。

動作欄中,您可以:

  • 停止執行空間以釋出運算資源,同時將資料保留在 EBS 儲存體上。

  • 在瀏覽器中開啟空間以啟動 JupyterLab 或程式碼編輯器 Web 介面。

  • 使用遠端 IDE 連線。如需詳細資訊,請參閱遠端存取 SageMaker Spaces

連接到您的空間

Spaces 支援兩種連線方法:

Web UI 存取

從空格表中選擇開啟,直接在瀏覽器中啟動 IDE。這會開啟 HyperPod 叢集上託管的全功能 JupyterLab 或程式碼編輯器界面。除了 Web 瀏覽器之外,不需要安裝本機軟體。這非常適合快速迭代、筆記本型探勘和協作工作。若要在您的叢集上啟用 Web UI 存取,請參閱 Web 瀏覽器存取

遠端 IDE 連線

從空格表選擇在遠端 IDE 中開啟,將本機 IDE 連接到 HyperPod 上執行的空間。這可提供安全連線,而不需要您管理 SSH 金鑰或公開連接埠 22。您可以在 HyperPod 叢集運算上執行程式碼時,取得本機開發環境的完整功能。如需詳細資訊,請參閱遠端存取 SageMaker Spaces

詳細資訊

Amazon SageMaker HyperPod 提供叢集中繼資料詳細資訊的檢視。以下段落提供如何取得 HyperPod 叢集詳細資訊的相關資訊。

在 Amazon SageMaker Studio 中,您可以導覽至 HyperPod 叢集中的其中一個叢集 (在運算下),並檢視叢集上的詳細資訊。這包括標籤、日誌和中繼資料。