Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
El planificador inicia sesión en AWS PCS
Puede configurar AWS PCS para que envíe datos de registro detallados desde el programador de clústeres a Amazon CloudWatch Logs, Amazon Simple Storage Service (Amazon S3) y Amazon Data Firehose. Esto puede ayudar con la supervisión y la solución de problemas.
AWS El PCS entrega los registros de los siguientes demonios de Slurm según el tipo de registro: PCS_SCHEDULER_LOGS
-
slurmctld— El daemon del controlador Slurm. Disponible para todas las versiones de Slurm compatibles. -
slurmdbd— El daemon de la base de datos de Slurm. Disponible para Slurm 24.11 y versiones posteriores. -
slurmrestd— El daemon de la API REST de Slurm. Disponible para Slurm 25.05 y versiones posteriores.
Los clústeres que ya tienen la PCS_SCHEDULER_LOGS entrega configurada comienzan a recibir slurmdbd y a registrar automáticamente cuando slurmrestd ejecutan una versión de Slurm compatible. No se necesita configuración adicional.
Contenido
Requisitos previos
El director de IAM que administra el clúster de AWS PCS debe permitir la acción. pcs:AllowVendedLogDeliveryForResource
El siguiente ejemplo de política de IAM concede los permisos necesarios.
Configura los registros del programador
Puede configurar los registros del planificador para su clúster de AWS PCS con o. Consola de administración de AWS AWS CLI
Rutas y nombres de las transmisiones de registros del programador
La ruta y el nombre de los registros del programador de AWS PCS dependen del tipo de destino.
El ${log_name} valor de las siguientes rutas es slurmctldslurmdbd, oslurmrestd, según el daemon que generó el registro.
-
CloudWatch Registros
-
Una secuencia CloudWatch de registros sigue esta convención de nomenclatura.
AWSLogs/PCS/${cluster_id}/${log_name}_${scheduler_major_version}.logejemplo
AWSLogs/PCS/abcdef0123/slurmctld_25.11.log AWSLogs/PCS/abcdef0123/slurmdbd_24.11.log AWSLogs/PCS/abcdef0123/slurmrestd_25.05.log
-
-
Bucket de S3
-
La ruta de salida de un bucket de S3 sigue esta convención de nomenclatura:
AWSLogs/${account-id}/PCS/${region}/${cluster_id}/${log_name}/${scheduler_major_version}/yyyy/MM/dd/HH/ejemplo
AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmctld/25.11/2024/09/01/00/ AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmdbd/24.11/2024/09/01/00/ AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmrestd/25.05/2024/09/01/00/
-
El nombre de un objeto de S3 sigue esta convención:
PCS_${log_name}_${scheduler_major_version}_#{expr date 'event_timestamp', format: "yyyy-MM-dd-HH"}_${cluster_id}_${hash}.logejemplo
PCS_slurmctld_25.11_2024-09-01-00_abcdef0123_0123abcdef.log
-
Ejemplos de registros del programador
AWS Los registros del programador de PCS están estructurados. Incluyen campos como el identificador del clúster, el tipo de programador y las versiones principales y de parche, además del mensaje de registro emitido por el proceso daemon de Slurm. Los node_type campos log_name y identifican qué daemon creó el registro.
En el siguiente ejemplo se muestra un slurmctld registro de registro.
{
"resource_id": "s3431v9rx2",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1721230979,
"log_level": "info",
"log_name": "slurmctld",
"scheduler_type": "slurm",
"scheduler_major_version": "25.11",
"scheduler_patch_version": "2",
"node_type": "controller_primary",
"message": "[2024-07-17T15:42:58.614+00:00] Running as primary controller\n"
}
El siguiente ejemplo muestra un slurmdbd registro (Slurm 24.11 y versiones posteriores).
{
"resource_id": "pcs_bu93qsds2j",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1774485082772,
"log_level": "info",
"log_name": "slurmdbd",
"scheduler_type": "slurm",
"scheduler_major_version": "25.11",
"scheduler_patch_version": "2",
"node_type": "slurmdbd_primary",
"message": "[2026-03-26T00:31:22.772+00:00] mysql_common: storage token refreshed"
}
El siguiente ejemplo muestra un slurmrestd registro (Slurm 25.05 y versiones posteriores).
{
"resource_id": "pcs_bu93qsds2j",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1774485082772,
"log_level": "info",
"log_name": "slurmrestd",
"scheduler_type": "slurm",
"scheduler_major_version": "25.05",
"scheduler_patch_version": "3",
"node_type": "slurmrestd_primary",
"message": "[2026-03-26T00:31:22.772+00:00] slurmrestd: Listening on port 6820\n"
}