View a markdown version of this page

将适用于 Lustre 的亚马逊 FSx 和适用于 OpenZFS 的亚马逊 FSX 安装到集群 HyperPod - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将适用于 Lustre 的亚马逊 FSx 和适用于 OpenZFS 的亚马逊 FSX 安装到集群 HyperPod

要将 Amazon FSx for Lustre 的共享文件系统挂载 HyperPod 到您的集群,请进行以下设置。

  1. 使用 Amazon VPC。

    1. 要使 HyperPod 集群实例在您的 VPC 内进行通信,请确保将附加SageMaker HyperPod 使用自定义 Amazon VPC 进行设置到的 IAM 角色 SageMaker HyperPod。

    2. create_cluster.json 中,包含以下 VPC 信息。

      "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] }

      有关设置 Amazon VPC 的更多提示,请参阅 使用的先决条件 SageMaker HyperPod

  2. 要完成使用 Amazon FSx for Lustre 配置 Slurm,你可以使用以下方法之一。您可以从账户中的亚马逊 FSx for Lustre 控制台或通过运行以下命令来找到亚马逊 FSx 信息。 AWS CLI aws fsx describe-file-systems

    选项 A: API-Driven 配置(推荐)

    在每个实例组中使用InstanceStorageConfigs直接在 CreateCluster API 负载中指定 Amazon FSx 配置。这种方法同时支持 Lustre 的 FSx 和 OpenZFS 的 fsX,并且允许按实例组配置 FSX。

    "InstanceStorageConfigs": [ { "FsxLustreConfig": { "DnsName": "fs-12345678a90b01cde.fsx.us-west-2.amazonaws.com", "MountPath": "/fsx", "MountName": "1abcdefg" } } ]

    对于适用于 OpenZFS 的 FSX,请改用:FsxOpenZfsConfig

    "InstanceStorageConfigs": [ { "FsxOpenZfsConfig": { "DnsName": "fs-12345678a90b01cde.fsx.us-west-2.amazonaws.com", "MountPath": "/fsx-openzfs" } } ]

    有关更多详细信息,请参阅 AWS CLI SageMaker HyperPod 使用入门

    选项 B:传统配置

    在中指定 Amazon FSx DNS 名称和 Amazon FSx 挂载名称provisioning_parameters.json,如本节中的图所示。提供的基本生命周期脚本 HyperPod

    "fsx_dns_name": "fs-12345678a90b01cde.fsx.us-west-2.amazonaws.com", "fsx_mountname": "1abcdefg"