View a markdown version of this page

PCS の Slurm AWS バージョンのリリースノート - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

PCS の Slurm AWS バージョンのリリースノート

このトピックでは、 AWS PCS で現在サポートされている Slurm バージョンごとの重要な変更について説明します。クラスターをアップグレードするときは、古いバージョンと新しいバージョンの変更を確認することをお勧めします。

PCS AWS で実装された変更
  • スケジューラの監査ログは、PCS_SCHEDULER_AUDIT_LOGSログタイプを通じて個別に配信されるようになりました。これにより、ログ配信を独立して制御してトラブルシューティングと監査を簡素化できます。詳細については、「AWS PCS のスケジューラ監査ログ」を参照してください。

  • 迅速再キューはデフォルトで有効になっています。ノードの問題 (容量不足エラーなど) が原因で失敗したジョブは、 を使用してスケジューリングの優先度が最も高いジョブを再キューに入れることができますsbatch --requeue=expedite。これは SchedulerParameters=enable_expedited_requeue 設定によって制御されます。

  • requeue_delay パラメータは、デフォルトが 5 秒のカスタムクラスター設定として使用できます。以前は、再キューの遅延は認証情報の有効期限 (70 秒) に関連していました。管理者は、 を介してこれを個別に設定できるようになりましたSchedulerParameters=requeue_delay=<seconds>

  • HealthCheckNodeStateSTART_ONLY値をサポートするようになりました。この値は、ノードの起動時 (slurmd start) にのみヘルスチェックプログラムを実行します。

  • CommunicationParameters=disable_http は、Slurm 25.11 で導入された HTTP エンドポイント (メトリクスとヘルスプローブ) を無効にするようにデフォルトで設定されています。これらのエンドポイントを再度有効にするには、 を設定しますCommunicationParameters=enable_http。詳細については、「AWS PCS の Slurm メトリクス」を参照してください。

既知の問題
  • Slurm 25.11 AccountingStorageEnforce=QOSは、 が設定されていない場合でも、 AllowQOSDenyQOSパーティションの設定を検証します。AllowQOS または で参照されている QOS DenyQOSが Slurm アカウンティングデータベースに存在しない場合、 は致命的なエラーでslurmctld終了します。Slurm 25.11 にアップグレードまたは再起動する前に、パーティションAllowQOSDenyQOS設定にリストされているすべての QOS 値がアカウンティングデータベースに存在することを確認してください。

  • slurmd ログにはエラーメッセージ が表示される場合がありますerror: cannot create url_parser context for http_parser/libhttp_parser。これは、 が設定されている場合でも発生する既知の Slurm の問題CommunicationParameters=disable_httpです。エラーは安全に無視でき、クラスターオペレーションには影響しません。

Slurm 25.11 の詳細については、以下の出版物を参照してください。

PCS AWS で実装された変更
  • Slurm requeue_on_resume_failure SchedulerParameter がデフォルトで有効になりました。

  • 「stderr」は、Slurm 25.05 で無効になっているため、LogTimeFormat のオプションとして削除されました。

  • AWS PCS はマルチクラスターのサック設定をサポートしています。ログインノードは複数のクラスターにアクセスできます。

Slurm 25.05 の詳細については、以下の出版物を参照してください。

PCS AWS で実装された変更

Slurm 24.11 の詳細については、以下の出版物を参照してください。

PCS AWS で実装される変更
  • 新しい Slurm Step Manager モジュールが PCS AWS でデフォルトで有効になりました。このモジュールでは、ステップ管理を中央コントローラーからコンピューティングノードにオフロードすることで、ステップ使用率が高い環境でのシステム同時実行を大幅に改善することで、大きなメリットが得られます。この設定をサポートし、分離PrologEpilogプロセスの実行を改善するために、新しいプロログフラグ (ContainAlloc) が有効になっています。

  • コントローラーからコンピューティングノードへの階層通信を有効にすると、Slurm ノード内通信を最適化できるため、スケーラビリティとパフォーマンスが向上します。さらに、ルーティング設定では、プラグインのデフォルトのルーティングアルゴリズムではなく、コントローラーからの通信にパーティションノードリストを使用するようになり、システムの耐障害性が向上しました。

  • 新しいハッシュプラグインは、前の をHashPlugin=hash/sha3置き換えますhash/k12 plugin。これは PCS AWS クラスターでデフォルトで有効になりました。

  • Slurm コントローラーログに、 へのすべてのインバウンドリモートプロシージャコール (RPC) の拡張監査機能が含まれるようになりましたslurmctld。ログには、接続処理前の送信元アドレス、認証されたユーザー、および RPC タイプが含まれます。

Slurm 24.05 の詳細については、以下の出版物を参照してください。

PCS で変更できる Slurm AWS 設定
  • SuspendTimeデフォルトは です60。PCS AWS scaleDownIdleTimeInSeconds設定パラメータを使用して設定します。詳細については、AWS PCS API リファレンスClusterSlurmConfigurationのデータ型の scaleDownIdleTimeInSecondsパラメータを参照してください。

  • MaxJobCount および MaxArraySizeは、クラスター用に選択したサイズに基づいています。詳細については、PCS CreateCluster API AWS リファレンスの API アクションの sizeパラメータを参照してください。

  • Slurm SelectTypeParameters 設定のデフォルトは ですCR_CPU。クラスターの作成時に設定slurmCustomSettingsするための の値として指定できます。詳細については、「PCS CreateCluster API AWS リファレンス」の「 API アクションの slurmCustomSettingsパラメータ」およびSlurmCustomSetting」を参照してください。

  • クラスターレベルで PrologEpilog を設定できます。クラスターの作成時に設定slurmCustomSettingsするための の値として指定できます。詳細については、AWS 「PCS API リファレンス」のCreateCluster「」とSlurmCustomSetting」を参照してください。

  • コンピューティングノードグループレベルで WeightRealMemory を設定できます。コンピューティングノードグループを作成するときに設定slurmCustomSettingsするための の値として指定できます。詳細については、AWS 「PCS API リファレンス」のCreateComputeNodeGroup「」とSlurmCustomSetting」を参照してください。