**Ajudar a melhorar esta página** 

Para contribuir com este guia de usuário, escolha o link **Editar esta página no GitHub**, disponível no painel direito de cada página.

# Detectar problemas de integridade dos nós e habilitar o reparo automático dos nós
<a name="node-health"></a>

A integridade do nó refere-se ao estado operacional e à capacidade de um nó do Kubernetes de executar workloads de forma eficaz. Um nó em bom estado mantém a conectividade de rede esperada, dispõe de recursos suficientes de computação e armazenamento e consegue executar workloads com êxito, sem interrupções.

Para ajudar a manter os nós em estado íntegro nos clusters do EKS, o EKS oferece o *agente de monitoramento de nós* e o *reparo automático de nós*. Esses recursos são habilitados automaticamente com computação no Modo automático do EKS. Você também pode utilizar o reparo automático de nós com grupos de nós gerenciados pelo EKS e o Karpenter, e pode utilizar o agente de monitoramento de nós do EKS com qualquer tipo de computação do EKS, exceto o AWS Fargate. O agente de monitoramento de nós do EKS e o reparo automático de nós são mais eficazes quando utilizados em conjunto, mas também podem ser utilizados individualmente em clusters do EKS.

**Importante**  
O *agente de monitoramento de nós* e o *reparo automático de nós* estão disponíveis somente no Linux. Estes recursos não estão disponíveis no Windows.

## Agente de monitoramento de nós
<a name="node-monitoring-agent"></a>

O agente de monitoramento de nós do EKS analisa os logs dos nós para detectar problemas de integridade. Ele analisa os logs para detectar falhas e exibe informações sobre o estado de integridade dos nós. Para cada categoria de problemas detectados, o agente aplica um `NodeCondition` dedicado aos nós de processamento. Para obter informações detalhadas sobre os problemas de integridade dos nós detectados pelo agente de monitoramento de nós do EKS, consulte [Detecte problemas de integridade dos nós com o agente de monitoramento de nós do EKS](node-health-nma.md).

O recurso de computação no Modo automático do EKS inclui o agente de monitoramento de nós. Para outros tipos de computação do EKS, é possível adicionar o agente de monitoramento de nós como um complemento do EKS ou gerenciá-lo com ferramentas do Kubernetes, como o Helm. Para obter mais informações, consulte [Configure o agente de monitoramento de nós](node-health-nma.md#node-monitoring-agent-configure).

Com o agente de monitoramento de nós do EKS, as seguintes categorias de problemas de integridade dos nós são apresentadas como condições de nós. Observe que, `Ready`, `DiskPressure` e `MemoryPressure` são condições padrão do nó Kubernetes que surgem mesmo sem o agente de monitoramento do nó EKS.


| Condição do nó | Descrição | 
| --- | --- | 
| AcceleratedHardwareReady | O parâmetro `AcceleratedHardwareReady` indica se o hardware acelerado (GPU, Neuron) no nó está funcionando corretamente. | 
| ContainerRuntimeReady | ContainerRuntimeReady indica se o runtime de contêineres (containerd, etc.) está funcionando corretamente e é capaz de executar contêineres. | 
| DiskPressure | DiskPressure é uma condição padrão do Kubernetes que indica que o nó está enfrentando pressão no disco (espaço em disco insuficiente ou alta carga de E/S). | 
| KernelReady | KernelReady indica se o kernel está funcionando corretamente, sem erros críticos, falhas graves ou esgotamento de recursos. | 
| MemoryPressure | MemoryPressure é uma condição padrão do Kubernetes que indica que o nó está enfrentando pressão de memória (baixa disponibilidade de memória). | 
| NetworkingReady | NetworkingReady indica se a pilha de rede do nó está funcionando corretamente (interfaces, roteamento, conectividade). | 
| StorageReady | O StorageReady indica se o subsistema de armazenamento do nó está funcionando corretamente (discos, sistemas de arquivos, E/S). | 
| Ready | Ready é a condição padrão do Kubernetes que indica que o nó está íntegro e pronto para aceitar pods. | 

## Reparo automático de nós
<a name="node-auto-repair"></a>

O reparo automático de nós do EKS monitora continuamente a integridade dos nós, reage aos problemas detectados e realiza a troca ou reinicialização dos nós sempre que possível. Isso aumenta a confiabilidade do cluster com intervenção manual mínima e ajuda a reduzir o tempo de inatividade das aplicações.

Por si só, o reparo automático de nós do EKS reage às condições `Ready` do kubelet, a quaisquer objetos de nó excluídos manualmente e às instâncias de grupos de nós gerenciados pelo EKS que não conseguem ingressar no cluster. Quando o reparo automático de nós do EKS está habilitado e o agente de monitoramento de nós está instalado, o reparo automático de nós do EKS reage a condições adicionais dos nós: `AcceleratedHardwareReady`, `ContainerRuntimeReady`, `KernelReady`, `NetworkingReady` e `StorageReady`.

O reparo automático de nós do EKS não reage às condições padrão do Kubernetes de nós `DiskPressure`, `MemoryPressure` ou `PIDPressure`. Essas condições geralmente indicam problemas com o comportamento da aplicação, configuração da workload ou limites de recursos, em vez de falhas no nível do nó, dificultando a determinação de uma ação de reparo padrão apropriada. Nesses cenários, as workloads estão sujeitas ao [comportamento de expulsão por pressão nos nós Kubernetes](https://kubernetes.io/docs/concepts/scheduling-eviction/node-pressure-eviction).

Para obter mais informações sobre o reparo automático de nós do EKS, consulte [Reparar automaticamente nós em clusters do EKS](node-repair.md).

**Topics**