翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
PCS の Slurm AWS バージョンのリリースノート
このトピックでは、 AWS PCS で現在サポートされている Slurm バージョンごとの重要な変更について説明します。クラスターをアップグレードするときは、古いバージョンと新しいバージョンの変更を確認することをお勧めします。
PCS AWS で実装された変更
-
スケジューラの監査ログは、
PCS_SCHEDULER_AUDIT_LOGSログタイプを通じて個別に配信されるようになりました。これにより、ログ配信を独立して制御してトラブルシューティングと監査を簡素化できます。詳細については、「AWS PCS のスケジューラ監査ログ」を参照してください。 -
迅速再キューはデフォルトで有効になっています。ノードの問題 (容量不足エラーなど) が原因で失敗したジョブは、 を使用してスケジューリングの優先度が最も高いジョブを再キューに入れることができます
sbatch --requeue=expedite。これはSchedulerParameters=enable_expedited_requeue設定によって制御されます。 -
requeue_delayパラメータは、デフォルトが 5 秒のカスタムクラスター設定として使用できます。以前は、再キューの遅延は認証情報の有効期限 (70 秒) に関連していました。管理者は、 を介してこれを個別に設定できるようになりましたSchedulerParameters=requeue_delay=<seconds>。 -
HealthCheckNodeStateはSTART_ONLY値をサポートするようになりました。この値は、ノードの起動時 (slurmd start) にのみヘルスチェックプログラムを実行します。 -
CommunicationParameters=disable_httpは、Slurm 25.11 で導入された HTTP エンドポイント (メトリクスとヘルスプローブ) を無効にするようにデフォルトで設定されています。これらのエンドポイントを再度有効にするには、 を設定しますCommunicationParameters=enable_http。詳細については、「AWS PCS の Slurm メトリクス」を参照してください。
既知の問題
-
Slurm 25.11
AccountingStorageEnforce=QOSは、 が設定されていない場合でも、AllowQOSとDenyQOSパーティションの設定を検証します。AllowQOSまたは で参照されている QOSDenyQOSが Slurm アカウンティングデータベースに存在しない場合、 は致命的なエラーでslurmctld終了します。Slurm 25.11 にアップグレードまたは再起動する前に、パーティションAllowQOSとDenyQOS設定にリストされているすべての QOS 値がアカウンティングデータベースに存在することを確認してください。 -
slurmdログにはエラーメッセージ が表示される場合がありますerror: cannot create url_parser context for http_parser/libhttp_parser。これは、 が設定されている場合でも発生する既知の Slurm の問題CommunicationParameters=disable_httpです。エラーは安全に無視でき、クラスターオペレーションには影響しません。
Slurm 25.11 の詳細については、以下の出版物を参照してください。
-
SchedMD リリースのお知らせ: https://www.schedmd.com/slurm-version-25-11-0-is-now-available/
-
SchedMD リリースノート: https://github.com/SchedMD/slurm/blob/slurm-25.11/RELEASE_NOTES.md
PCS AWS で実装された変更
-
Slurm requeue_on_resume_failure SchedulerParameter がデフォルトで有効になりました。
-
「stderr」は、Slurm 25.05 で無効になっているため、LogTimeFormat のオプションとして削除されました。
-
AWS PCS はマルチクラスターのサック設定をサポートしています。ログインノードは複数のクラスターにアクセスできます。
Slurm 25.05 の詳細については、以下の出版物を参照してください。
-
SchedMD リリースのお知らせ: https://www.schedmd.com/slurm-version-25-05-0-is-now-available/
-
SchedMD リリースノート: https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE_NOTES.md
PCS AWS で実装された変更
-
AWS PCS は Slurm アカウンティングをサポートしています。詳細については、「PCS での Slurm AWS アカウンティング」を参照してください。
Slurm 24.11 の詳細については、以下の出版物を参照してください。
PCS AWS で実装される変更
-
新しい Slurm Step Manager モジュールが PCS AWS でデフォルトで有効になりました。このモジュールでは、ステップ管理を中央コントローラーからコンピューティングノードにオフロードすることで、ステップ使用率が高い環境でのシステム同時実行を大幅に改善することで、大きなメリットが得られます。この設定をサポートし、分離
PrologとEpilogプロセスの実行を改善するために、新しいプロログフラグ (Contain、Alloc) が有効になっています。 -
コントローラーからコンピューティングノードへの階層通信を有効にすると、Slurm ノード内通信を最適化できるため、スケーラビリティとパフォーマンスが向上します。さらに、ルーティング設定では、プラグインのデフォルトのルーティングアルゴリズムではなく、コントローラーからの通信にパーティションノードリストを使用するようになり、システムの耐障害性が向上しました。
-
新しいハッシュプラグインは、前の を
HashPlugin=hash/sha3置き換えますhash/k12 plugin。これは PCS AWS クラスターでデフォルトで有効になりました。 -
Slurm コントローラーログに、 へのすべてのインバウンドリモートプロシージャコール (RPC) の拡張監査機能が含まれるようになりました
slurmctld。ログには、接続処理前の送信元アドレス、認証されたユーザー、および RPC タイプが含まれます。
Slurm 24.05 の詳細については、以下の出版物を参照してください。
PCS で変更できる Slurm AWS 設定
-
の
SuspendTimeデフォルトは です60。PCS AWSscaleDownIdleTimeInSeconds設定パラメータを使用して設定します。詳細については、AWS PCS API リファレンスClusterSlurmConfigurationのデータ型のscaleDownIdleTimeInSecondsパラメータを参照してください。 -
MaxJobCountおよびMaxArraySizeは、クラスター用に選択したサイズに基づいています。詳細については、PCSCreateClusterAPI AWS リファレンスの API アクションのsizeパラメータを参照してください。 -
Slurm
SelectTypeParameters設定のデフォルトは ですCR_CPU。クラスターの作成時に設定slurmCustomSettingsするための の値として指定できます。詳細については、「PCSCreateClusterAPI AWS リファレンス」の「 API アクションのslurmCustomSettingsパラメータ」およびSlurmCustomSetting」を参照してください。 -
クラスターレベルで
PrologとEpilogを設定できます。クラスターの作成時に設定slurmCustomSettingsするための の値として指定できます。詳細については、AWS 「PCS API リファレンス」のCreateCluster「」とSlurmCustomSetting」を参照してください。 -
コンピューティングノードグループレベルで
WeightとRealMemoryを設定できます。コンピューティングノードグループを作成するときに設定slurmCustomSettingsするための の値として指定できます。詳細については、AWS 「PCS API リファレンス」のCreateComputeNodeGroup「」とSlurmCustomSetting」を参照してください。