本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
PCS 中 Slurm 版本的发行说明 AWS
本主题介绍了 PCS 当前支持的每个 Slurm 版本的重要更改。 AWS 我们建议您在升级集群时查看新旧版本之间的变化。
在 AWS PCS 中实施的更改
-
计划程序审核日志现在通过日志类型单独传送,从而通过对
PCS_SCHEDULER_AUDIT_LOGS日志传输的独立控制来简化故障排除和审计。有关更多信息,请参阅 AWS PCS 中的计划程序审核日志。 -
默认情况下,加急重新排队处于启用状态。由于节点问题(例如容量不足错误)而失败的作业可以使用以最高的调度优先级重新排队。
sbatch --requeue=expedite这由SchedulerParameters=enable_expedited_requeue设置控制。 -
该
requeue_delay参数可作为自定义群集设置使用,默认值为 5 秒。以前,重新排队延迟与凭证过期(70 秒)有关。管理员现在可以通过进行独立配置SchedulerParameters=requeue_delay=<seconds>。 -
HealthCheckNodeState现在支持该START_ONLY值,该值仅在节点启动(slurmd start)时运行运行状况检查程序。 -
CommunicationParameters=disable_http默认设置为禁用 Slurm 25.11 中引入的 HTTP 端点(指标和运行状况探测器)。要重新启用这些端点,请设置CommunicationParameters=enable_http。有关更多信息,请参阅 AWS PC S 中的 Slurm 指标。
已知问题
-
即使未设置 Slurm 25.11 也会
AccountingStorageEnforce=QOS验证AllowQOS和DenyQOS分区设置。如果 Slurm 记账数据库中引用的 QOSAllowQOS或DenyQOS不存在,则slurmctld退出时会出现致命错误。升级到或重新启动 Slurm 25.11 之前,请确保分AllowQOS区和DenyQOS设置中列出的所有 QOS 值都存在于会计数据库中。 -
slurmd日志可能会显示错误消息error: cannot create url_parser context for http_parser/libhttp_parser。这是一个已知的 Slurm 问题,即使CommunicationParameters=disable_http设置了也会出现。可以放心地忽略该错误,并且不会影响集群操作。
有关 Slurm 25.11 的更多信息,请参阅以下出版物:
在 AWS PCS 中实施的更改
-
现在,默认情况下,Slurm requeue_on_resume_f SchedulerParameter ailure 处于启用状态。
-
“stderr” 作为选项已被删除 LogTimeFormat,因为它在 Slurm 25.05 中被禁用。
-
AWS PCS 支持 Multi-cluster sackd 配置:登录节点可以访问多个集群。
有关 Slurm 25.05 的更多信息,请参阅以下出版物:
在 AWS PCS 中实施的更改
-
AWS PCS 支持 Slurm 记账。有关更多信息,请参阅 PCS 中的 Slurm 会计 AWS。
有关 Slurm 24.11 的更多信息,请参阅以下出版物:
在 AWS PCS 中实施的更改
-
现在,新的 Slurm Step Manager 模块在 PCS 中 AWS 已默认启用。该模块通过将步骤管理从中央控制器转移到计算节点来提供显著的好处,从而大大提高了步进使用量大的环境中的系统并发性。为了支持此配置以及更好的隔离
Prolog和Epilog流程执行,启用了新的 prolog 标志 (Contain,Alloc)。 -
支持从控制器到计算节点的分层通信,以优化 Slurm 节点内通信,从而提高可扩展性和性能。此外,路由配置现在使用分区节点列表进行来自控制器的通信,而不是插件的默认路由算法,从而增强了系统的弹性。
-
新的哈希插件
HashPlugin=hash/sha3取代了以前的哈希插件hash/k12 plugin。现在,在 AWS PCS 集群中,此功能已默认启用。 -
Slurm 控制器日志现在包括针对所有入站远程过程调用 (RPC) 的增强审计功能。
slurmctld日志包括源地址、经过身份验证的用户和连接处理之前的 RPC 类型。
有关 Slurm 24.05 的更多信息,请参阅以下出版物:
你可以在 PCS 中更改 Slurm 设置 AWS
-
SuspendTime默认为60。使用 AWS PCSscaleDownIdleTimeInSeconds配置参数进行设置。有关更多信息,请参阅《AWS PCS API 参考》中ClusterSlurmConfiguration数据类型的scaleDownIdleTimeInSeconds参数。 -
MaxJobCount和MaxArraySize基于您为集群选择的大小。有关更多信息,请参阅 AWS PCSCreateClusterAPI 参考中的 API 操作size参数。 -
S
SelectTypeParameterslurm 设置默认为。CR_CPU您可以将其作为值提供,slurmCustomSettings以便在创建集群时对其进行设置。有关更多信息,请参阅CreateClusterAPI 操作的slurmCustomSettings参数和 AWS PCS API 参考SlurmCustomSetting中。 -
可以在集群级别设置
Prolog和Epilog。您可以将其作为值提供,slurmCustomSettings以便在创建集群时对其进行设置。有关更多信息,请参阅 AWS PCS API 参考SlurmCustomSetting中的CreateCluster和。 -
可以在计算节点组级别设置
Weight和RealMemory。在创建计算节点组时slurmCustomSettings,可以将其作为值提供给进行设置。有关更多信息,请参阅 AWS PCS API 参考SlurmCustomSetting中的CreateComputeNodeGroup和。