本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker HyperPod 可观测性控制面板
本主题介绍如何查看 Amazon SageMaker HyperPod (SageMaker HyperPod) 集群的指标控制面板以及如何向控制面板添加新用户。还介绍了不同类型的控制面板。
访问控制面板
要在 Amazon Managed Grafana 中查看 SageMaker HyperPod 集群的指标,请执行以下步骤:
打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/
。 -
转到集群的详细信息页面。
-
在 “控制面板” 选项卡上,找到 “HyperPod 可观察性” 部分,然后选择 “在 Gra fana 中打开仪表板”。
向 Amazon Managed Grafana 工作区添加新用户
有关如何向 Amazon Managed Grafana 工作区添加用户的信息,请参阅《Amazon Managed Grafana 用户指南》中的将 AWS IAM Identity Center 与 Amazon Managed Grafana 工作区配合使用。
可观测性控制面板
SageMaker HyperPod 可观测性插件在您的默认 Amazon Managed Grafana 工作区中提供了六个相互关联的控制面板。每个控制面板均为各种用户(例如数据科学家、机器学习工程师和管理员)提供有关集群中的各类资源与任务的深度洞察。
任务控制面板
任务仪表板提供对 SageMaker HyperPod 任务资源利用率指标的全面监控和可视化。主面板会显示一个详细表格,该表格按父任务对资源使用情况进行分组,并展示各个容器组(pod)的 CPU、GPU 及内存利用率。交互式时间序列图表会跟踪所选容器组(pod)的 CPU 使用情况、系统内存消耗、GPU 利用率以及 GPU 内存使用情况,使您能够随时间变化监控性能趋势。该控制面板具备强大的筛选能力,可通过集群名称、命名空间、任务类型及特定容器组(pod)等变量进行筛选,以便用户深入了解特定的工作负载。此监控解决方案对于优化资源分配和保持机器学习工作负载的性能至关重要 SageMaker HyperPod。
训练控制面板
训练控制面板可全面监控训练作业运行状况、可靠性和故障管理指标。该控制面板包含关键性能指标,其中包括任务创建数量、成功率和运行时间百分比,并详细跟踪自动重启事件与手动重启事件。它通过饼图和热图提供故障模式的详细可视化内容,这些图表会按类型和修复延迟细分事件,以便您能够识别反复出现的问题并提高任务可靠性。该界面包含对系统恢复时间、故障检测延迟等关键指标的实时监控,使其成为维护训练工作负载的高可用性的必备工具。此外,该控制面板的 24 小时衔接窗口能为分析训练作业性能的趋势与模式提供历史背景信息,帮助团队在潜在问题影响生产工作负载前主动应对这些问题。
推理控制面板
推理控制面板可跨多个维度全面监控模型部署性能和运行状况指标。它提供了活跃部署的详细概览,可实时监控请求速率、成功百分比以及延迟指标,助您跟踪模型服务性能并识别潜在瓶颈。该控制面板包含适用于语言模型的通用推理指标和令牌特定的指标(例如,到第一个令牌的时间(TTFT)和令牌吞吐量)的专用面板,这使其在监控大语言模型部署方面特别有用。此外,它还通过容器组(pod)和节点分配跟踪来提供基础设施见解,并提供详细错误分析功能,以帮助维护推理工作负载的高可用性和性能。
集群控制面板
集群控制面板提供集群运行状况和性能的全面视图,可实时查看您的 Amazon SageMaker HyperPod (SageMaker HyperPod) 环境中的计算、内存、网络和存储资源。通过一个直观界面,您可一目了然地查看关键指标(包括实例总数、GPU 利用率、内存使用情况和网络性能),该界面每隔几秒自动更新一次数据。该控制面板分为多个逻辑部分,首先是高级集群概述部分,此部分显示运行状况良好的实例百分比和资源总数等关键指标,随后是有关 GPU 性能、内存利用率、网络统计数据和存储指标的详细部分。每个部分均包含交互式图表和面板,可让您深入了解特定指标,包括可自定义的时间范围和按集群名称、实例或 GPU ID 筛选选项。
文件系统控制面板
文件系统控制面板可让您全面了解文件系统(适用于 Lustre 的 Amazon FSx)的性能和运行状况指标。仪表板跨多个可视化显示关键存储指标,包括可用容量、重复数据删除节省量、 CPU/memory 利用率、磁盘 IOPS、吞吐量和客户端连接。它使您可以监控系统级性能指标(如 CPU 和内存使用情况)以及特定于存储的指标(例如 read/write 操作和磁盘利用率模式)。该界面集成了警报监控功能和详细的时间序列图表,可用于跟踪一段时间内的性能趋势,这对于主动维护和容量规划很有用。此外,通过其全面的指标覆盖范围,该仪表板可帮助识别潜在的瓶颈,优化存储性能,并确保 SageMaker HyperPod 工作负载的文件系统运行可靠。
GPU 分区信息中心
要在使用 GPU (MIG) 配置时监控特定 Multi-Instance 于 GPU 分区的指标,您需要安装或升级到最新版本的 Observability 插件。 SageMaker HyperPod 此插件提供全面的监控功能,包括分区计数、内存使用率和每个 GPU 分区的计算利用率等 MIG-specific 指标。
如果您已经安装了 SageMaker HyperPod Observability 但需要 MIG 指标支持,只需将插件更新到最新版本即可。此过程不会造成中断,并且会保留您现有的监视配置。
SageMaker HyperPod 自动公开 MIG-specific 指标,包括:
-
nvidia_mig_instance_count: 每个配置文件的 MIG 实例数 -
nvidia_mig_memory_usage: 每个 MIG 实例的内存利用率 -
nvidia_mig_compute_utilization: 计算每个 MIG 实例的利用率
集群日志控制面板
集群日志仪表板提供集 SageMaker HyperPod 群 CloudWatch 日志的集中视图。控制面板查询/aws/sagemaker/Clusters/{cluster-name}/{cluster-id}日志组,并显示具有按实例 ID、日志流名称、日志级别(错误、警告、信息、调试)和自由文本搜索进行筛选的日志事件。仪表板包括一个显示一段时间内日志事件分布的事件时间表、一个总事件计数器、一个用于筛选结果的搜索事件时间轴以及一个包含完整日志消息、时间戳和日志流元数据的详细日志面板。此仪表板 CloudWatch用作其数据源,可用于调试集群问题、监控实例运行状况事件和调查训练作业失败。