Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Slurmcontabilidad con AWS ParallelCluster
A partir de la versión 3.3.0, AWS ParallelCluster admite la Slurm contabilidad con el parámetro de configuración del clúster SlurmSettings/Base de datos.
A partir de la versión 3.10.0, AWS ParallelCluster admite la Slurm contabilidad con un Slurmdbd externo con el parámetro de configuración del clúster/. SlurmSettingsExternalSlurmdbd Se recomienda usar un Slurmdbd externo si hay varios clústeres que comparten la misma base de datos.
Con la contabilidad de Slurm, puede integrar una base de datos contable externa para hacer lo siguiente:
-
Administre los usuarios o grupos de usuarios del clúster y otras entidades. Con esta capacidad, puede utilizar las funciones más avanzadas, como Slurm la aplicación de los límites de recursos, el reparto justo y. QOSs
-
Recopile y guarde datos del trabajo, como el usuario que lo ejecutó, la duración del trabajo y los recursos que utiliza. Puede ver los datos guardados con la utilidad
sacct.
nota
AWS ParallelCluster admite la Slurm contabilidad de los servidores de bases de datos MySQL Slurm compatibles
Trabajando con la Slurm contabilidad mediante funciones externas Slurmdbd en la AWS ParallelCluster versión 3.10.0 y versiones posteriores
Antes de configurar la contabilidad de Slurm, debe disponer de un servidor de bases de datos de Slurmdbd externo, que se conecte a un servidor de base de datos externo existente.
Para configurarlo, defina lo siguiente:
-
La dirección del Slurmdbd servidor externo en ExternalSlurmdbd/Host. El servidor debe existir y ser accesible desde el nodo principal.
-
La tecla munge para comunicarse con el Slurmdbd servidor externo. MungeKeySecretArn
Para ver un tutorial, consulte Crear un clúster con un externo Slurmdbd contabilidad.
nota
Usted es responsable de administrar las entidades contables de la base de datos de Slurm.
La arquitectura de la función de SlurmDB soporte AWS ParallelCluster externo permite que varios clústeres compartan la misma SlurmDB base de datos.
aviso
El tráfico entre AWS ParallelCluster y el externo no SlurmDB está cifrado. Se recomienda ejecutar el clúster y el SlurmDB externo en una red de confianza.
Trabajar con la Slurm contabilidad mediante el nodo principal Slurmdbd en la AWS ParallelCluster versión 3.3.0 y versiones posteriores
Antes de configurar la contabilidad de Slurm, debe disponer de un servidor de base de datos externo y de una base de datos que utilice el protocolo mysql.
Para configurar la Slurm contabilidad con AWS ParallelCluster, debe definir lo siguiente:
-
La URI del servidor de base de datos externo en Database/Uri. El servidor debe existir y ser accesible desde el nodo principal.
-
Credenciales para acceder a la base de datos externa que se definen en Base de datos/PasswordSecretArny Base de datos/UserName. AWS ParallelCluster utiliza esta información para configurar la contabilidad a Slurm nivel y el
slurmdbdservicio en el nodo principal.slurmdbdes el daemon que gestiona la comunicación entre el clúster y el servidor de la base de datos.
Para ver un tutorial, consulte Crear un clúster con Slurm contabilidad.
nota
AWS ParallelCluster realiza un arranque básico de la base de datos de Slurm contabilidad al configurar el usuario predeterminado del clúster como administrador de la Slurm base de datos. AWS ParallelCluster no añade ningún otro usuario a la base de datos de contabilidad. El cliente debe encargarse de administrar las entidades de contabilidad de la base de datos de Slurm.
AWS ParallelCluster se configura slurmdbdStorageLocslurmdbd configuración. Tenga en cuenta la siguiente situación. Una base de datos que está presente en el servidor de bases de datos incluye un nombre de clúster que no se corresponde con un nombre de clúster activo. En este caso, puede crear un clúster nuevo con ese nombre para asignarlo a esa base de datos. Slurm reutiliza la base de datos para el nuevo clúster.
aviso
-
No recomendamos configurar más de un clúster para usar la misma base de datos a la vez. Si lo hace, puede provocar problemas de rendimiento o incluso situaciones de bloqueo de la base de datos.
-
Si la contabilidad de Slurm está habilitada en el nodo principal de un clúster, recomendamos usar un tipo de instancia con una CPU potente, más memoria y un mayor ancho de banda de la red. La contabilidad de Slurm puede aumentar la presión sobre el nodo principal del clúster.
En la arquitectura actual de la función de AWS ParallelCluster Slurm contabilidad, cada clúster tiene su propia instancia del slurmdbd daemon, como se muestra en el siguiente diagrama de configuraciones de ejemplo.
Si va a añadir funcionalidades personalizadas de varios clústeres o de federación de Slurm a su entorno de clústeres, todos los clústeres deben hacer referencia a la misma instancia de slurmdbd. Como alternativa, le recomendamos que habilite la AWS ParallelCluster Slurm contabilidad en un clúster y que configure manualmente los demás clústeres para que se conecten a los slurmdbd que están alojados en el primer clúster.
Si utilizas AWS ParallelCluster versiones anteriores a la versión 3.3.0, consulta el método alternativo para implementar la Slurm contabilidad que se describe en esta entrada del blog sobre HPC
Consideraciones sobre la contabilidad de Slurm
La base de datos y el clúster son diferentes VPCs
Para habilitar la contabilidad de Slurm, se necesita un servidor de base de datos que sirva de backend para las operaciones de lectura y escritura que realiza el daemon slurmdbd. Antes de crear o actualizar el clúster para habilitar la contabilidad de Slurm, el nodo principal debe poder acceder al servidor de base de datos.
Si necesita implementar el servidor de base de datos en una VPC distinta de la que usa el clúster, tenga en cuenta lo siguiente:
-
Para habilitar la comunicación entre
slurmdbdel servidor del clúster y el de la base de datos, debe configurar la conectividad entre ambos VPCs. Para obtener más información, consulte Interconexión de VPC en la Guía del usuario de Amazon Virtual Private Cloud. -
Debe crear el grupo de seguridad que desee asociar al nodo principal de la VPC del clúster. Una vez sincronizados VPCs los dos, está disponible la reticulación entre los grupos de seguridad del lado de la base de datos y del lado del clúster. Para obtener más información, consulte Reglas del grupo de seguridad en la Guía del usuario de Amazon Virtual Private Cloud.
Configuración del cifrado TLS entre slurmdbd y el servidor de la base de datos
Con la configuración de Slurm contabilidad predeterminada que se AWS ParallelCluster proporciona, slurmdbd establece una conexión cifrada con TLS con el servidor de la base de datos, si el servidor admite el cifrado con TLS. AWS servicios de bases de datos como Amazon RDS y Amazon Aurora admiten el cifrado TLS de forma predeterminada.
Puede requerir conexiones seguras en el servidor configurando el parámetro require_secure_transport en el servidor de la base de datos. Esto se configura en la plantilla proporcionada CloudFormation .
Siguiendo las prácticas recomendadas de seguridad, le recomendamos que habilite también la verificación de identidad del servidor en el cliente de slurmdbd. Para ello, configure el StorageParametersslurmdbd.conf. Cargue el certificado de entidad de certificación del servidor en el nodo principal del clúster. A continuación, defina la opción SSL_CAStorageParameters en slurmdbd.conf como la ruta del certificado de entidad de certificación del servidor en el nodo principal. De este modo, se habilita la verificación de la identidad del servidor en slurmdbd. Tras realizar estos cambios, reinicie el servicio slurmdbd para volver a establecer la conectividad con el servidor de la base de datos con la verificación de identidad habilitada.
Actualización de credenciales de la base de datos
Para actualizar los valores de Database/UserNameo PasswordSecretArn, primero debe detener la flota de cómputo. Supongamos que el valor secreto que está almacenado en el AWS Secrets Manager secreto cambia y su ARN no cambia. En esta situación, el clúster no actualiza automáticamente la contraseña de la base de datos con el nuevo valor. Para actualizar el clúster con el nuevo valor secreto, ejecute el siguiente comando desde el nodo principal.
$sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
aviso
Para evitar perder datos de contabilidad, le recomendamos que cambie únicamente la contraseña de la base de datos cuando la flota de computación esté detenida.
Supervisión de la base de datos
Se recomienda activar las funciones de supervisión de los servicios de AWS base de datos. Para obtener más información, consulte la documentación sobre el monitoreo de Amazon RDS o el monitoreo de Amazon Aurora.