View a markdown version of this page

HyperPod 工作室中的选项卡 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

HyperPod 工作室中的选项卡

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看您的集群列表。显示的集群包含任务、硬件指标、设置和元数据详细信息等信息。这种可见性有助于您的团队确定适合预训练或微调工作负载的候选项。以下各部分介绍了每种类型的信息。

任务

Amazon SageMaker HyperPod 提供了您的集群任务视图。任务是发送到集群的操作或作业。它们可以是机器学习操作,例如训练、运行实验或推理。以下部分提供有关您的 HyperPod集群任务的信息。

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群上的任务信息。如果您在查看任务时遇到任何问题,请参阅问题排查

任务表包含:

For Slurm clusters

对于 Slurm 集群,当前处于 Slurm 作业调度器队列中的任务会显示在该表中。为每个任务显示的信息包括任务名称、状态、作业 ID、分区、运行时间、节点、创建者和操作。

有关过去作业的列表和详细信息,请使用中的sacct命令 JupyterLab或代码编辑器终端。sacct 命令用于查看系统中已结束已完成的作业的历史信息。它可提供记账信息,包括作业资源使用情况(如内存使用量)以及退出状态。

默认情况下,所有 Studio 用户都可查看、管理所有可用的 Slurm 任务并与之交互。要将可查看的任务设置为仅对 Studio 用户可见,请参阅在 Studio 中限制 Slurm 集群的任务视图

For Amazon EKS clusters

对于 Amazon EKS 集群,kubeflow (PyTorch、MPI、 TensorFlow) 任务显示在表中。 PyTorch 默认情况下会显示任务。您可以在 “任务类型” PyTorch、“MPI” 和 TensorFlow “任务类型” 下进行排序。为每个任务显示的信息包括任务名称、状态、命名空间、优先级类别和创建时间。

默认情况下,所有用户都可以查看所有命名空间中的作业。要将可查看的 Kubernetes 命名空间设置为仅对 Studio 用户可用,请参阅在 Studio 中限制 EKS 集群的任务视图。如果一个用户无法查看任务并且需要提供命名空间,则该用户需要从管理员处获取该信息。

指标

亚马逊 SageMaker HyperPod 提供您的 Slurm 或 Amazon EKS 集群利用率指标的视图。以下内容提供了有关您的 HyperPod 集群指标的信息。

您需要安装 Amazon EKS 加载项才能查看以下指标。有关更多信息,请参阅安装 Amazon CloudWatch 可观察性 EKS 附加组件

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群的指标详细信息。指标提供了集群利用率指标的综合性视图,包括硬件、团队和任务指标。这包括计算资源可用性和使用情况、团队分配和利用率以及任务运行和等待时间信息。

设置

Amazon SageMaker HyperPod 提供了您的集群设置视图。以下内容提供了有关您的 HyperPod 集群设置的信息。

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群的设置信息。该信息包括:

  • 实例详细信息,包括实例 ID、状态、实例类型和实例组

  • 实例组详细信息,包括实例组名称、类型、计数和计算信息

  • 编排详细信息,包括编排工具、版本和证书颁发机构

  • 集群韧性详细信息

  • 安全详细信息,包括子网络和安全组

IDE 和笔记本电脑

Amazon SageMaker HyperPod 提供了集群上运行的开发空间的视图。Spaces 是用于直接在 E HyperPod KS 集群上运行的独立环境 JupyterLab 或代码编辑器 IDE。您可以直接从 Studio 创建、配置、启动、停止和打开空间。

在 Amazon SageMaker Studio 中,导航到集群中的一个HyperPod集群(在 “计算” 下),然后选择 “IDE 和笔记本” 选项卡。

Studio 提供的主要功能包括:

  • 通过引导式表单创建具有可配置计算、存储和图像设置的空间。

  • 查看可搜索表中的所有空间,其中显示名称、应用程序类型、状态、访问类型、存储、GPU 和 vCPU 分配。

  • 只需单击一下即可启动和停止空间,以管理计算成本。

  • 直接在浏览器(JupyterLab 或代码编辑器)中打开空间,或者通过远程 IDE 进行连接。有关更多信息,请参阅 远程访问 SageMaker 空间

  • 删除不再需要的空间。

  • 选择命名空间,使用资源配额和治理设置按团队组织空间。

  • 应用模板以实现跨团队一致的空间配置。

有关创建域的信息,请参阅 亚马逊 A SageMaker I 入门指南

先决条件

  • 在您的集群上安装 HyperPod 插件。有关更多信息,请参阅 安装 SageMaker AI 空间 Add-on

  • 设置要在 Studio 中使用的集群。有关更多信息,请参阅 在 Studio 中设置 Amazon EKS 集群

  • 要在具有相同执行角色的用户之间启用私密空间,必须确保将该ExecutionRoleSessionNameMode标志设置为USER_IDENTITY。借助 HyperPod Spaces 功能,空间内使用的用户名将自动从 Studio 身份验证上下文派生,这样用户无需额外登录即可在 Studio 和 HyperPod Spaces 中拥有一致的身份。

    对于在 IAM 身份验证模式下配置的 Studio 域,Spaces 用户名源自 IAM 角色会话名称。这与用于通过 AWS 管理控制台或通过预签名的 Studio 网址启动 Studio 的 IAM 会话相对应。对于在 IAM 身份中心身份验证模式下配置的 Studio 域,Spaces 用户名是经过审查的经过身份验证的 IAM 身份中心用户名。

    默认情况下,这是针对新域名设置的,对于较旧的域,可以覆盖该值。也可以为每个用户配置文件覆盖此设置。有关更多信息,请参阅 执行角色会话名称模式

工作原理

安装插件并配置访问权限后,在 Studio 中导航到您的 HyperPod 集群,然后选择 IDE 和 Notebooks 选项卡以查看空间管理界面。

创建空间

要创建新空间,请选择创建空间。创建表单允许您配置以下内容:

  • 命名空间:使用资源配额和治理设置选择您的团队命名空间。这决定了您的可用计算分配。

  • 空间设置:

    • 模板:选择预先配置的模板(例如, JupyterLab 或代码编辑器)以应用默认设置。

    • 计算:通过对 GPU、vCPU 和内存的精细控制,在 GPU 和 CPU 配置之间进行选择。

    • GPU 分区:如果启用了分数 GPU,则可以选择用于工作空间的分区。

    • 镜像:从管理员配置的可用容器镜像或自定义镜像中选择。

    • EBS 空间存储:为您的笔记本和数据配置永久存储。

  • 任务治理:为命名空间启用后,空间将与 HyperPod 任务治理集成,用于资源管理和优先级调度。有关更多信息,请参阅 互动空间的任务管理 HyperPod

管理空间

空间表提供了所有环境的综合视图,包括状态和资源分配。

在 “操作” 列中,您可以:

  • 停止运行空间以释放计算资源,同时将数据保留在 EBS 存储上。

  • 在浏览器中打开空格以启动 JupyterLab 或代码编辑器 Web 界面。

  • 使用远程 IDE 进行连接。有关更多信息,请参阅 远程访问 SageMaker 空间

连接到您的空间

空格支持两种连接方法:

Web 用户界面访问权限

从 “空间” 表中选择 “打开”,直接在浏览器中启动 IDE。这将打开 HyperPod 集群上托管的功能齐全的界面 JupyterLab 或代码编辑器界面。除了 Web 浏览器外,无需安装本地软件。这非常适合快速迭代、基于笔记本的探索和协作工作。要在集群上启用 Web UI 访问权限,请参阅Web 浏览器访问

远程 IDE 连接

从 “空间” 表中选择 “在远程 IDE 中打开”,将本地 IDE 连接到正在运行的空间 HyperPod。这无需您管理 SSH 密钥或公开端口 22 即可提供安全的连接。在 HyperPod 集群计算上运行代码时,您可以充分利用本地开发环境的强大功能。有关更多信息,请参阅 远程访问 SageMaker 空间

Details

Amazon SageMaker HyperPod 提供了您的集群元数据详细信息的视图。以下段落提供了有关如何获取 HyperPod 集群详细信息的信息。

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群的详细信息。这包括标签、日志和元数据。