Agente de monitoramento de nós Reparo automático de nós

Detectar problemas de integridade dos nós e habilitar o reparo automático dos nós

A integridade do nó refere-se ao estado operacional e à capacidade de um nó do Kubernetes de executar workloads de forma eficaz. Um nó em bom estado mantém a conectividade de rede esperada, dispõe de recursos suficientes de computação e armazenamento e consegue executar workloads com êxito, sem interrupções.

Para ajudar a manter os nós em estado íntegro nos clusters do EKS, o EKS oferece o agente de monitoramento de nós e o reparo automático de nós. Esses recursos são habilitados automaticamente com computação no Modo automático do EKS. Você também pode utilizar o reparo automático de nós com grupos de nós gerenciados pelo EKS e o Karpenter, e pode utilizar o agente de monitoramento de nós do EKS com qualquer tipo de computação do EKS, exceto o AWS Fargate. O agente de monitoramento de nós do EKS e o reparo automático de nós são mais eficazes quando utilizados em conjunto, mas também podem ser utilizados individualmente em clusters do EKS.

Importante

O agente de monitoramento de nós e o reparo automático de nós estão disponíveis somente no Linux. Estes recursos não estão disponíveis no Windows.

Agente de monitoramento de nós

O agente de monitoramento de nós do EKS analisa os logs dos nós para detectar problemas de integridade. Ele analisa os logs para detectar falhas e exibe informações sobre o estado de integridade dos nós. Para cada categoria de problemas detectados, o agente aplica um NodeCondition dedicado aos nós de processamento. Para obter informações detalhadas sobre os problemas de integridade dos nós detectados pelo agente de monitoramento de nós do EKS, consulte Detecte problemas de integridade dos nós com o agente de monitoramento de nós do EKS.

O recurso de computação no Modo automático do EKS inclui o agente de monitoramento de nós. Para outros tipos de computação do EKS, é possível adicionar o agente de monitoramento de nós como um complemento do EKS ou gerenciá-lo com ferramentas do Kubernetes, como o Helm. Para obter mais informações, consulte Configure o agente de monitoramento de nós.

Com o agente de monitoramento de nós do EKS, as seguintes categorias de problemas de integridade dos nós são apresentadas como condições de nós. Observe que, Ready, DiskPressure e MemoryPressure são condições padrão do nó Kubernetes que surgem mesmo sem o agente de monitoramento do nó EKS.

Condição do nó	Descrição
AcceleratedHardwareReady	O parâmetro `AcceleratedHardwareReady` indica se o hardware acelerado (GPU, Neuron) no nó está funcionando corretamente.
ContainerRuntimeReady	ContainerRuntimeReady indica se o runtime de contêineres (containerd, etc.) está funcionando corretamente e é capaz de executar contêineres.
DiskPressure	DiskPressure é uma condição padrão do Kubernetes que indica que o nó está enfrentando pressão no disco (espaço em disco insuficiente ou alta carga de E/S).
KernelReady	KernelReady indica se o kernel está funcionando corretamente, sem erros críticos, falhas graves ou esgotamento de recursos.
MemoryPressure	MemoryPressure é uma condição padrão do Kubernetes que indica que o nó está enfrentando pressão de memória (baixa disponibilidade de memória).
NetworkingReady	NetworkingReady indica se a pilha de rede do nó está funcionando corretamente (interfaces, roteamento, conectividade).
StorageReady	O StorageReady indica se o subsistema de armazenamento do nó está funcionando corretamente (discos, sistemas de arquivos, E/S).
Ready	Ready é a condição padrão do Kubernetes que indica que o nó está íntegro e pronto para aceitar pods.

Reparo automático de nós

O reparo automático de nós do EKS monitora continuamente a integridade dos nós, reage aos problemas detectados e realiza a troca ou reinicialização dos nós sempre que possível. Isso aumenta a confiabilidade do cluster com intervenção manual mínima e ajuda a reduzir o tempo de inatividade das aplicações.

Por si só, o reparo automático de nós do EKS reage às condições Ready do kubelet, a quaisquer objetos de nó excluídos manualmente e às instâncias de grupos de nós gerenciados pelo EKS que não conseguem ingressar no cluster. Quando o reparo automático de nós do EKS está habilitado e o agente de monitoramento de nós está instalado, o reparo automático de nós do EKS reage a condições adicionais dos nós: AcceleratedHardwareReady, ContainerRuntimeReady, KernelReady, NetworkingReady e StorageReady.

O reparo automático de nós do EKS não reage às condições padrão do Kubernetes de nós DiskPressure, MemoryPressure ou PIDPressure. Essas condições geralmente indicam problemas com o comportamento da aplicação, configuração da workload ou limites de recursos, em vez de falhas no nível do nó, dificultando a determinação de uma ação de reparo padrão apropriada. Nesses cenários, as workloads estão sujeitas ao comportamento de expulsão por pressão nos nós Kubernetes.

Para obter mais informações sobre o reparo automático de nós do EKS, consulte Reparar automaticamente nós em clusters do EKS.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Compilações personalizadas

Detecção da integridade dos nós