View a markdown version of this page

AWS PCS의 Slurm 버전 릴리스 정보 - AWS PCS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS PCS의 Slurm 버전 릴리스 정보

이 주제에서는 현재 AWS PCS에서 지원되는 각 Slurm 버전의 중요한 변경 사항에 대해 설명합니다. 클러스터를 업그레이드할 때 이전 버전과 새 버전 간의 변경 사항을 검토하는 것이 좋습니다.

AWS PCS에 구현된 변경 사항
  • 스케줄러 감사 로그는 이제 PCS_SCHEDULER_AUDIT_LOGS 로그 유형을 통해 별도로 전송되므로 로그 전송을 독립적으로 제어하여 문제 해결 및 감사를 간소화할 수 있습니다. 자세한 내용은 AWS PCS의 스케줄러 감사 로그를 참조하세요.

  • 신속 대기열 재지정은 기본적으로 활성화됩니다. 노드 문제(예: 용량 부족 오류)로 인해 실패하는 작업은를 사용하여 가장 높은 예약 우선 순위로 다시 대기열에 넣을 수 있습니다sbatch --requeue=expedite. 이는 SchedulerParameters=enable_expedited_requeue 설정에 의해 제어됩니다.

  • requeue_delay 파라미터는 기본값이 5초인 사용자 지정 클러스터 설정으로 사용할 수 있습니다. 이전에는 대기열 재지연 지연이 자격 증명 만료(70초)와 관련이 있었습니다. 이제 관리자는를 통해 이를 독립적으로 구성할 수 있습니다SchedulerParameters=requeue_delay=<seconds>.

  • HealthCheckNodeState는 이제 노드 시작(슬러밍된 시작) 시에만 상태 확인 프로그램을 실행하는 START_ONLY 값을 지원합니다.

  • CommunicationParameters=disable_http는 Slurm 25.11에 도입된 HTTP 엔드포인트(지표 및 상태 프로브)를 비활성화하도록 기본적으로 설정됩니다. 이러한 엔드포인트를 다시 활성화하려면를 설정합니다CommunicationParameters=enable_http. 자세한 내용은 AWS PCS의 Slurm 지표를 참조하세요.

알려진 문제
  • Slurm 25.11은 AccountingStorageEnforce=QOS가 설정되지 않은 경우에도 AllowQOSDenyQOS 파티션 설정을 검증합니다. AllowQOS 또는에서 참조되는 QOSDenyQOS가 Slurm 회계 데이터베이스에 없는 경우 치명적인 오류와 함께가 slurmctld 종료됩니다. Slurm 25.11로 업그레이드하거나 다시 시작하기 전에 파티션 AllowQOSDenyQOS 설정에 나열된 모든 QOS 값이 회계 데이터베이스에 있는지 확인합니다.

  • slurmd 로그에 오류 메시지가 표시될 수 있습니다error: cannot create url_parser context for http_parser/libhttp_parser. 이는가 설정된 경우에도 발생하는 알려진 Slurm 문제CommunicationParameters=disable_http입니다. 오류는 무시해도 되며 클러스터 작업에 영향을 주지 않습니다.

Slurm 25.11에 대한 자세한 내용은 다음 간행물을 참조하세요.

AWS PCS에 구현된 변경 사항
  • 이제 Slurm requeue_on_resume_failure SchedulerParameter가 기본적으로 활성화되어 있습니다.

  • "stderr"는 Slurm 25.05에서 비활성화되었으므로 LogTimeFormat의 옵션으로 제거되었습니다.

  • AWS PCS는 다중 클러스터 sackd 구성을 지원합니다. 로그인 노드는 여러 클러스터에 액세스할 수 있습니다.

Slurm 25.05에 대한 자세한 내용은 다음 간행물을 참조하세요.

AWS PCS에 구현된 변경 사항
  • AWS PCS는 Slurm 회계를 지원합니다. 자세한 내용은 AWS PCS의 Slurm 회계 단원을 참조하십시오.

Slurm 24.11에 대한 자세한 내용은 다음 간행물을 참조하세요.

AWS PCS에 구현된 변경 사항
  • 이제 새 Slurm Step Manager 모듈이 AWS PCS에서 기본적으로 활성화됩니다. 이 모듈은 단계 관리를 중앙 컨트롤러에서 컴퓨팅 노드로 오프로드하여 단계 사용량이 많은 환경에서 시스템 동시성을 크게 개선함으로써 상당한 이점을 제공합니다. 이 구성을 지원하고 더 나은 격리 PrologEpilog 프로세스 실행을 위해 새 prolog 플래그(Contain, Alloc)가 활성화됩니다.

  • 컨트롤러에서 컴퓨팅 노드로의 계층적 통신은 Slurm 노드 내 통신을 최적화하도록 활성화되어 확장성과 성능을 개선합니다. 또한 라우팅 구성은 이제 플러그인의 기본 라우팅 알고리즘 대신 컨트롤러와의 통신에 파티션 노드 목록을 사용하여 시스템 복원력을 개선합니다.

  • 새 해시 플러그인이 이전를 HashPlugin=hash/sha3 대체합니다hash/k12 plugin. 이제 AWS PCS 클러스터에서이 기능이 기본적으로 활성화됩니다.

  • 이제 Slurm 컨트롤러 로그에에 대한 모든 인바운드 원격 프로시저 호출(RPC)에 대한 향상된 감사 기능이 포함됩니다slurmctld. 로그에는 연결 처리 전 소스 주소, 인증된 사용자 및 RPC 유형이 포함됩니다.

Slurm 24.05에 대한 자세한 내용은 다음 간행물을 참조하세요.

AWS PCS에서 변경할 수 있는 Slurm 설정
  • SuspendTime 기본값은 입니다60. AWS PCS scaleDownIdleTimeInSeconds 구성 파라미터를 사용하여 설정합니다. 자세한 내용은 AWS PCS API 참조에서 ClusterSlurmConfiguration 데이터 형식의 scaleDownIdleTimeInSeconds 파라미터를 참조하세요.

  • MaxJobCountMaxArraySize는 클러스터에 대해 선택한 크기를 기반으로 합니다. 자세한 내용은 AWS PCS CreateCluster API 참조에서 API 작업의 size 파라미터를 참조하세요.

  • SelectTypeParameters Slurm 설정은 기본적으로 입니다CR_CPU. 클러스터를 생성할 때 slurmCustomSettings에서 설정할 값으로 제공할 수 있습니다. 자세한 내용은 API 작업의 slurmCustomSettings 파라미터 및 PCS CreateCluster API 참조의 SlurmCustomSetting을 참조하세요. AWS

  • 클러스터 Epilog 수준에서 Prolog 및를 설정할 수 있습니다. 클러스터를 생성할 때 slurmCustomSettings에서 설정할 값으로 제공할 수 있습니다. 자세한 내용은 CreateCluster 및 PCS API 참조의 SlurmCustomSetting을 참조하세요. AWS

  • 컴퓨팅 노드 그룹 수준에서 WeightRealMemory를 설정할 수 있습니다. 컴퓨팅 노드 그룹을 생성할 때에서 slurmCustomSettings 설정할 값으로 제공할 수 있습니다. 자세한 내용은 CreateComputeNodeGroup 및 PCS API 참조의 SlurmCustomSetting을 참조하세요. AWS