Detección de los problemas de estado de los nodos y reparación automática de los nodos - Amazon EKS

Ayude a mejorar esta página

Para contribuir a esta guía del usuario, elija el enlace Edit this page on GitHub que se encuentra en el panel derecho de cada página.

Detección de los problemas de estado de los nodos y reparación automática de los nodos

El estado del nodo hace referencia a su funcionamiento operativo y a la capacidad de un nodo de Kubernetes para ejecutar cargas de trabajo de manera eficiente. Un nodo en buen estado mantiene la conectividad esperada, cuenta con suficientes recursos informáticos y de almacenamiento y puede ejecutar las cargas de trabajo correctamente sin interrupciones.

Para ayudar a mantener nodos en buen estado en los clústeres de EKS, EKS ofrece el agente de supervisión de nodos y la reparación automática de nodos. Estas características se activan automáticamente con la computación en modo automático de EKS. También puede utilizar la reparación automática de nodos con grupos de nodos administrados por EKS y Karpenter, y puede utilizar el agente de supervisión de nodos de EKS con cualquier tipo de computación de EKS, excepto AWS Fargate. El agente de supervisión de nodos de EKS y la reparación automática de nodos son más eficaces cuando se utilizan juntos, pero también se pueden utilizar de forma individual en los clústeres de EKS.

importante

El agente de supervisión de nodos y la reparación automática de nodos solo están disponibles en Linux. Estas características no están disponibles en Windows.

Agente de supervisión de nodos

El agente de supervisión de nodos de EKS lee los registros de los nodos para detectar problemas de estado. Analiza los registros para detectar fallas y muestra información de estado sobre el estado de los nodos. Para cada categoría de problemas detectados, el agente aplica un NodeCondition dedicado a los nodos de trabajo. Para obtener información detallada sobre los problemas de estado de los nodos detectados por el agente de supervisión de nodos de EKS, consulte Detecte problemas de estado de los nodos con el agente de supervisión de nodos EKS.

La computación en modo automático de EKS incluye el agente de supervisión de nodos. Para otros tipos de computación de EKS, puede agregar el agente de supervisión de nodos como complemento de EKS o puede administrarlo con herramientas de Kubernetes como Helm. Para obtener más información, consulte Configuración del agente de supervisión de nodos.

Con el agente de supervisión de nodos de EKS, las siguientes categorías de problemas de estado de los nodos aparecen como condiciones de los nodos. Tenga en cuenta que Ready, DiskPressure y MemoryPressure son condiciones estándar de los nodos de Kubernetes que aparecen incluso sin el agente de supervisión de nodos de EKS.

Condiciones de nodos Descripción

AcceleratedHardwareReady

AcceleratedHardwareReady indica si el hardware acelerado (GPU, Neuron) del nodo funciona correctamente.

ContainerRuntimeReady

ContainerRuntimeReady indica si el tiempo de ejecución del contenedor (containerd, etc.) funciona correctamente y puede ejecutar contenedores.

DiskPressure

DiskPressure es una condición estándar de Kubernetes que indica que el nodo está bajo presión en el disco (poco espacio en disco o gran cantidad de E/S).

KernelReady

KernelReady indica si el kernel funciona correctamente sin errores críticos, problemas o agotamiento de los recursos.

Presión de memoria

MemoryPressure es una condición estándar de Kubernetes que indica que el nodo está experimentando una presión de memoria (poca memoria disponible).

NetworkingReady

NetworkingReady indica si la pila de redes del nodo funciona correctamente (interfaces, enrutamiento, conectividad).

StorageReady

StorageReady indica si el subsistema de almacenamiento del nodo funciona correctamente (discos, sistemas de archivos, E/S).

Ready

Listo es la condición estándar de Kubernetes que indica que el nodo está en buen estado y listo para aceptar pods.

Reparación automática de nodos

La reparación automática de nodos de EKS supervisa continuamente el estado de los nodos, reacciona ante los problemas detectados y reemplaza o reinicia los nodos cuando es posible. Esto mejora la fiabilidad del clúster con una intervención manual mínima y ayuda a reducir el tiempo de inactividad de las aplicaciones.

Por sí sola, la reparación automática de nodos de EKS reacciona a las condiciones Ready del kubelet, a cualquier objeto de nodo eliminado manualmente y a las instancias de grupos de nodos administradas por EKS que no se unen al clúster. Cuando la reparación automática de nodos de EKS está habilitada con el agente de supervisión de nodos instalado, la reparación automática de nodos de EKS reacciona ante condiciones adicionales de los nodos: AcceleratedHardwareReady, ContainerRuntimeReady, KernelReady, NetworkingReady y StorageReady.

La reparación automática de nodos de EKS no reacciona a las condiciones de nodos DiskPressure, MemoryPressure o PIDPressure estándar de Kubernetes. Estas condiciones suelen indicar problemas relacionados con el comportamiento de la aplicación, la configuración de la carga de trabajo o los límites de recursos, en lugar de fallos en el nodo, lo que dificulta determinar una acción de reparación predeterminada adecuada. En estos escenarios, las cargas de trabajo están sujetas al comportamiento de desalojo por presión de los nodos de Kubernetes.

Para obtener más información sobre la reparación automática de nodos de EKS, consulte Reparación automática de nodos en clústeres de EKS.

Temas