View a markdown version of this page

Rotações do Slurm log - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Rotações do Slurm log

SageMaker HyperPod fornece rotação automática de registros para registros do daemon do Slurm para ajudar a gerenciar o uso do espaço em disco e manter o desempenho do sistema. A rotação de registros é crucial para evitar que os registros consumam espaço em disco excessivo e garantir a operação ideal do sistema, arquivando e removendo automaticamente arquivos de log antigos, mantendo as informações de registro recentes. As rotações de registros do Slurm são ativadas por padrão quando você cria um cluster.

Como funciona a rotação de toras

Quando ativada, a configuração de rotação de registros:

  • Monitora todos os arquivos de log do Slurm com a extensão .log localizada na /var/log/slurm/ pasta no controlador, nos nós de login e computação.

  • Gira os registros quando eles atingem 50 MB de tamanho.

  • Mantém até dois arquivos de log rotacionados antes de excluí-los.

  • Envia SIGUSR2 sinal para os daemons do Slurm (slurmctld,slurmd, eslurmdbd) após a rotação.

Lista de arquivos de log rotacionados

Os registros do Slurm estão localizados no /var/log/slurm/ diretório. A rotação de registros está ativada para todos os arquivos correspondentes/var/log/slurm/*.log. Quando a rotação ocorre, os arquivos girados têm sufixos numéricos (como). slurmd.log.1 A lista a seguir não é exaustiva, mas mostra alguns dos arquivos de log essenciais que giram automaticamente:

  • /var/log/slurm/slurmctld.log

  • /var/log/slurm/slurmd.log

  • /var/log/slurm/slurmdb.log

  • /var/log/slurm/slurmrestd.log

Ativar ou desativar a rotação de registros

Você pode controlar o recurso de rotação de registros usando o enable_slurm_log_rotation parâmetro no config.py script dos scripts de ciclo de vida do seu cluster, conforme mostrado no exemplo a seguir:

class Config: # Set false if you want to disable log rotation of Slurm daemon logs enable_slurm_log_rotation = True # Default value

Para desativar a rotação de registros, defina o parâmetro comoFalse, conforme mostrado no exemplo a seguir:

enable_slurm_log_rotation = False
nota

Os scripts de ciclo de vida são executados em todos os nós do Slurm (controlador, login e nós de computação) durante a criação do cluster. Eles também são executados em novos nós quando adicionados ao cluster. A atualização das configurações de rotação de registros deve ser feita manualmente após a criação do cluster. A configuração de rotação do log é armazenada em/etc/logrotate.d/sagemaker-hyperpod-slurm. Recomendamos manter a rotação de registros ativada para evitar que os arquivos de log consumam espaço em disco excessivo. Para desativar a rotação de registros, exclua o sagemaker-hyperpod-slurm arquivo ou comente seu conteúdo adicionando # no início de cada linha no sagemaker-hyperpod-slurm arquivo.

Configurações padrão de rotação de registros

As configurações a seguir são definidas automaticamente para cada arquivo de log rotacionado:

Configuração Valor Description
rotate 2 Número de arquivos de log rotacionados a serem mantidos
size 50 MB Tamanho máximo antes da rotação
copytruncate habilitado Copia e trunca o arquivo de log original
compress desabilitado Os registros girados não são compactados
missingok habilitado Não há erro se o arquivo de log estiver ausente
notifempty habilitado Não gira arquivos vazios
noolddir habilitado Arquivos rotacionados permanecem no mesmo diretório