本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS PCS 中的排程器日誌
您可以設定 AWS PCS 將詳細的記錄資料從叢集排程器傳送至 Amazon CloudWatch Logs、Amazon Simple Storage Service (Amazon S3) 和 Amazon Data Firehose。這可協助監控和故障診斷。
AWS PCS 透過日誌類型從下列 Slurm 協助程式傳遞PCS_SCHEDULER_LOGS日誌:
-
slurmctld— Slurm 控制器協助程式。適用於所有支援的 Slurm 版本。 -
slurmdbd— Slurm 資料庫常駐程式。適用於 Slurm 24.11 及更新版本。 -
slurmrestd— Slurm REST API 協助程式。適用於 Slurm 25.05 及更新版本。
已設定PCS_SCHEDULER_LOGS交付的叢集會在執行支援的 Slurm 版本時自動開始接收slurmdbd和slurmrestd記錄。不需任何其他設定。
先決條件
管理 AWS PCS 叢集的 IAM 主體必須允許 pcs:AllowVendedLogDeliveryForResource動作。
下列範例 IAM 政策會授予必要的許可。
設定排程器日誌
您可以使用 AWS 管理主控台 或 為您的 AWS PCS 叢集設定排程器日誌 AWS CLI。
排程器日誌串流路徑和名稱
AWS PCS 排程器日誌的路徑和名稱取決於目的地類型。
以下路徑中的${log_name}值為 slurmctld、 slurmdbd或 slurmrestd,取決於產生日誌的協助程式。
-
CloudWatch Logs
-
CloudWatch Logs 串流遵循此命名慣例。
AWSLogs/PCS/${cluster_id}/${log_name}_${scheduler_major_version}.log範例
AWSLogs/PCS/abcdef0123/slurmctld_25.11.log AWSLogs/PCS/abcdef0123/slurmdbd_24.11.log AWSLogs/PCS/abcdef0123/slurmrestd_25.05.log
-
-
S3 bucket (S3 儲存貯體)
-
S3 儲存貯體輸出路徑遵循此命名慣例:
AWSLogs/${account-id}/PCS/${region}/${cluster_id}/${log_name}/${scheduler_major_version}/yyyy/MM/dd/HH/範例
AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmctld/25.11/2024/09/01/00/ AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmdbd/24.11/2024/09/01/00/ AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmrestd/25.05/2024/09/01/00/
-
S3 物件名稱遵循此慣例:
PCS_${log_name}_${scheduler_major_version}_#{expr date 'event_timestamp', format: "yyyy-MM-dd-HH"}_${cluster_id}_${hash}.log範例
PCS_slurmctld_25.11_2024-09-01-00_abcdef0123_0123abcdef.log
-
排程器日誌記錄範例
AWS PCS 排程器日誌是結構化的。除了從 Slurm 協助程式程序發出的日誌訊息之外,還包含叢集識別符、排程器類型、主要和修補程式版本等欄位。log_name 和 node_type 欄位可識別哪些協助程式產生日誌。
下列範例顯示slurmctld日誌記錄。
{
"resource_id": "s3431v9rx2",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1721230979,
"log_level": "info",
"log_name": "slurmctld",
"scheduler_type": "slurm",
"scheduler_major_version": "25.11",
"scheduler_patch_version": "2",
"node_type": "controller_primary",
"message": "[2024-07-17T15:42:58.614+00:00] Running as primary controller\n"
}
下列範例顯示slurmdbd日誌記錄 (Slurm 24.11 及更新版本)。
{
"resource_id": "pcs_bu93qsds2j",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1774485082772,
"log_level": "info",
"log_name": "slurmdbd",
"scheduler_type": "slurm",
"scheduler_major_version": "25.11",
"scheduler_patch_version": "2",
"node_type": "slurmdbd_primary",
"message": "[2026-03-26T00:31:22.772+00:00] mysql_common: storage token refreshed"
}
下列範例顯示slurmrestd日誌記錄 (Slurm 25.05 和更新版本)。
{
"resource_id": "pcs_bu93qsds2j",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1774485082772,
"log_level": "info",
"log_name": "slurmrestd",
"scheduler_type": "slurm",
"scheduler_major_version": "25.05",
"scheduler_patch_version": "3",
"node_type": "slurmrestd_primary",
"message": "[2026-03-26T00:31:22.772+00:00] slurmrestd: Listening on port 6820\n"
}