本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。 # 在多队列模式集群中运行作业本教程介绍如何在[多队列模式下运行第一个 Hello World](configuration-of-multiple-queues-v3.md) “” 作业。 AWS ParallelCluster 使用 AWS ParallelCluster 命令行界面 (CLI) 或 API 时，您只需为创建或更新 AWS ParallelCluster 映像和集群时创建的 AWS 资源付费。有关更多信息，请参阅 [AWS 使用的服务 AWS ParallelCluster](aws-services-v3.md)。 **先决条件** + AWS ParallelCluster [已安装](install-v3-parallelcluster.md)。 + AWS CLI [已安装并配置。](https://docs.aws.amazon.com/cli/latest/userguide/getting-started-install.html) + 您有一个 [Amazon EC2 密钥对](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-key-pairs.html)。 + 您拥有具有运行 [`pcluster`](pcluster-v3.md) CLI 所需的[权限](iam-roles-in-parallelcluster-v3.md#iam-roles-in-parallelcluster-v3-example-user-policies)的 IAM 角色。 ## 配置集群首先，通过运行以下命令验证安装 AWS ParallelCluster 是否正确。 ``` $ pcluster version ``` 有关 `pcluster version`的更多信息，请参阅[`pcluster version`](pcluster.version-v3.md)。此命令返回的运行版本 AWS ParallelCluster。接下来，运行 `pcluster configure` 以生成基本配置文件。按照运行此命令后的所有提示进行操作。 ``` $ pcluster configure --config multi-queue-mode.yaml ``` 有关 `pcluster configure` 命令的更多信息，请参阅[`pcluster configure`](pcluster.configure-v3.md)。完成此步骤后，将出现一个名为 `multi-queue-mode.yaml` 的基本配置文件。此文件包含基本集群配置。在下一步中，您将修改新配置文件并启动包含多个队列的集群。 **注意** 本教程中使用的某些实例不符合免费套餐资格。在本教程中，请修改您的配置文件以匹配以下配置。以红色突出显示的项目代表您的配置文件值。请使用您自己的值。 ``` Region: region-id Image: Os: alinux2 HeadNode: InstanceType: c5.xlarge Networking: SubnetId: subnet-abcdef01234567890 Ssh: KeyName: yourkeypair Scheduling: Scheduler: slurm SlurmQueues: - Name: spot ComputeResources: - Name: c5xlarge InstanceType: c5.xlarge MinCount: 1 MaxCount: 10 - Name: t2micro InstanceType: t2.micro MinCount: 1 MaxCount: 10 Networking: SubnetIds: - subnet-abcdef01234567890 - Name: ondemand ComputeResources: - Name: c52xlarge InstanceType: c5.2xlarge MinCount: 0 MaxCount: 10 Networking: SubnetIds: - subnet-021345abcdef6789 ``` ## 创建集群根据您的配置文件，创建一个名为 `multi-queue-cluster` 的集群。 ``` $ pcluster create-cluster --cluster-name multi-queue-cluster --cluster-configuration multi-queue-mode.yaml { "cluster": { "clusterName": "multi-queue-cluster", "cloudformationStackStatus": "CREATE_IN_PROGRESS", "cloudformationStackArn": "arn:aws:cloudformation:eu-west-1:123456789012:stack/multi-queue-cluster/1234567-abcd-0123-def0-abcdef0123456", "region": "eu-west-1", "version": "3.15.0", "clusterStatus": "CREATE_IN_PROGRESS" } } ``` 有关 `pcluster create-cluster` 命令的更多信息，请参阅[`pcluster create-cluster`](pcluster.create-cluster-v3.md)。要检查集群的状态，请运行以下命令。 ``` $ pcluster list-clusters { "cluster": { "clusterName": "multi-queue-cluster", "cloudformationStackStatus": "CREATE_IN_PROGRESS", "cloudformationStackArn": "arn:aws:cloudformation:eu-west-1:123456789012:stack/multi-queue-cluster/1234567-abcd-0123-def0-abcdef0123456", "region": "eu-west-1", "version": "3.15.0", "clusterStatus": "CREATE_IN_PROGRESS" } } ``` 创建集群后，`clusterStatus` 字段将显示 `CREATE_COMPLETE`。 ## 登录到头节点使用您的私有 SSH 密钥文件登录到头节点。 ``` $ pcluster ssh --cluster-name multi-queue-cluster -i ~/path/to/yourkeyfile.pem ``` 有关 `pcluster ssh`的更多信息，请参阅[`pcluster ssh`](pcluster.ssh-v3.md)。登录后，运行命令 `sinfo` 以验证是否已设置和配置调度器队列。有关 `sinfo` 的更多信息，请参阅 *Slurm 文档* 中的 [sinfo](https://slurm.schedmd.com/sinfo.html)。 ``` $ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST spot* up infinite 18 idle~ spot-dy-c5xlarge-[1-9],spot-dy-t2micro-[1-9] spot* up infinite 2 idle spot-st-c5xlarge-1,spot-st-t2micro-1 ondemand up infinite 10 idle~ ondemand-dy-c52xlarge-[1-10] ``` 输出显示您的集群中有一个 `t2.micro` 和一个 `c5.xlarge` 计算节点处于 `idle` 状态。其它节点都处于节能状态，通过节点状态中的 `~` 后缀指示，没有支持它们的 Amazon EC2 实例。默认队列由队列名称后面的 `*` 后缀指示。`spot` 是默认作业队列。 ## 在多队列模式下运行作业接下来，尝试将作业运行到睡眠模式一段时间。该作业稍后将输出自己的主机名。确保当前用户可以运行此脚本。 ``` $ tee <