Ayude a mejorar esta página
Para contribuir a esta guía del usuario, elija el enlace Edit this page on GitHub que se encuentra en el panel derecho de cada página.
Administración de los dispositivos de hardware en Amazon EKS
Amazon EKS admite dos mecanismos de Kubernetes para administrar dispositivos de hardware especializados en clústeres de EKS: asignación dinámica de recursos (DRA) y complementos para dispositivos. Ambos mecanismos permiten que las cargas de trabajo accedan a aceleradores de hardware, como las GPU NVIDIA y los chips de AWS Trainium, y a dispositivos de red de alto rendimiento, como Elastic Fabric Adapter (EFA). Se recomienda utilizar los controladores de DRA para las nuevas implementaciones con las versiones 1.34 y posteriores de Kubernetes con grupos de nodos administrados o nodos autoadministrados de EKS, ya que DRA ofrece una selección de dispositivos más completa, una programación con reconocimiento de topología y funciones de uso compartido de dispositivos que no son posibles con los complementos para dispositivos.
Consulte la documentación de Kubernetes sobre la asignación dinámica de recursos
La asignación dinámica de recursos frente a los complementos para dispositivos
Los complementos para dispositivos de Kubernetes han sido el principal mecanismo para exponer el hardware especializado a las cargas de trabajo de Kubernetes. Los complementos para dispositivos anuncian los dispositivos como recursos ampliados (por ejemplo, nvidia.com/gpu o aws.amazon.com/neuroncore) que se solicitan en límites y solicitudes de recursos de contenedores. Si bien los complementos para dispositivos son ampliamente compatibles y utilizados, tienen limitaciones:
-
Los dispositivos se solicitan mediante recuentos de enteros opacos sin filtrado basado en atributos.
-
No se admite el uso compartido de dispositivos entre contenedores o pods.
-
No hay una asignación con reconocimiento de topología expresiva entre los tipos de dispositivos.
-
A menudo, se requieren extensiones de programador personalizadas para una ubicación inteligente.
La asignación dinámica de recursos (DRA) es una característica de Kubernetes que está disponible de forma general en la versión 1.34 de Kubernetes y que aborda estas limitaciones. Con la DRA, los controladores de dispositivos publican una gran cantidad de atributos de los dispositivos en el programador de Kubernetes mediante objetos ResourceSlice. Solicita dispositivos mediante objetos ResourceClaim y ResourceClaimTemplate que hacen referencia a categorías DeviceClass.
DRA permite:
-
La selección de dispositivos basada en atributos mediante expresiones del lenguaje de expresión común (CEL)
. -
Asignación con reconocimiento de topología que garantiza que los dispositivos estén ubicados en el mismo conmutador PCIe o dominio NUMA.
-
Uso compartido de dispositivos entre varios contenedores o pods mediante referencias de
ResourceClaimcompartidas. -
Programación basada en restricciones que alinea diferentes tipos de dispositivos
Controladores DRA para Amazon EKS
Los siguientes controladores de DRA se utilizan habitualmente para administrar dispositivos de hardware especializados en los clústeres de Amazon EKS.
- Controlador de DRA de EFA
-
El controlador de DRA de EFA (DRANET
) administra la asignación de dispositivos de Elastic Fabric Adapter (EFA) con la programación con reconocimiento de topología que empareja las interfaces EFA con sus GPU o dispositivos Neuron topológicamente locales y permite compartir dispositivos entre pods. Para obtener más información, consulte Administración de los dispositivos EFA en Amazon EKS. - Controlador de DRA de Neuron
-
El controlador de DRA de Neuron administra la asignación de dispositivos AWS Trainium y AWS Inferentia2 con programación con reconocimiento de topología, asignación de subconjuntos de dispositivos conectados y configuración lógica de NeuronCore (LNC) sin necesidad de extensiones de programador personalizadas.
- Controlador de DRA de NVIDIA
-
El controlador de DRA de NVIDIA para las GPU
permite una asignación flexible y una reconfiguración dinámica de las GPU de NVIDIA, además de admitir recursos ComputeDomainpara cargas de trabajo NVLink (MNNVL) de varios nodos en instancias Grace-Blackwell de EC2. Para obtener más información sobre el uso deComputeDomainscon instancias Grace-Blackwell de EC2, consulte Uso de UltraServers P6e-GB200 con Amazon EKS.
Complementos para dispositivos para Amazon EKS
Los siguientes complementos para dispositivos se utilizan habitualmente para administrar dispositivos de hardware especializados en los clústeres de Amazon EKS.
- Complemento para dispositivos de EFA
-
El complemento para dispositivos EFA detecta todos los dispositivos EFA disponibles en cada nodo y los anuncia como recursos ampliados de
vpc.amazonaws.com/efa. - Complemento para dispositivos Neuron
-
El complemento para dispositivos Neuron
expone el hardware de Neuron como recursos ampliados de aws.amazon.com/neuroncoreyaws.amazon.com/neuron. Detecta los dispositivos Neuron disponibles en cada nodo, los anuncia como recursos asignables y administra su ciclo de vida. - Complemento para dispositivos de NVIDIA
-
El complemento para dispositivos de NVIDIA
promociona las GPU NVIDIA como recursos ampliados de nvidia.com/gpuy hace un seguimiento del estado de las GPU.
Consideraciones
Antes de usar los controladores de DRA en Amazon EKS, tenga en cuenta lo siguiente:
-
DRA está disponible en Amazon EKS con la versión 1.33 y posteriores de Kubernetes, pero se recomienda para las versiones 1.34 y posteriores de Kubernetes debido a un problema de Kubernetes
ascendente. El plano de control del clúster y los nodos deben ejecutar una versión de Kubernetes que sea compatible con DRA. -
Actualmente, DRA no es compatible con la computación aprovisionada del modo automático de EKS o Karpenter. Debe utilizar grupos de nodos administrados por EKS o nodos autoadministrados con controladores de DRA.
-
Los controladores de DRA y los complementos para dispositivos para el mismo tipo de dispositivo no deben ejecutarse simultáneamente en el mismo nodo. Desinstale el complemento para dispositivos antes de instalar el controlador de DRA correspondiente o impleméntelo en nodos independientes. Consulte el KEP-5004
de Kubernetes para obtener actualizaciones sobre la compatibilidad del controlador de DRA y los complementos para dispositivos. -
DRA utiliza recursos de API de Kubernetes (
ResourceClaim,ResourceClaimTemplate,DeviceClass) distintos a los complementos para dispositivos (resource.limits,resource.requests). La migración de los complementos para dispositivos a DRA requiere actualizar las especificaciones de la carga de trabajo. -
Los complementos para dispositivos siguen siendo totalmente compatibles con todas las versiones de Kubernetes. Si su clúster ejecuta una versión de Kubernetes anterior a la 1.34 o si utiliza Karpenter o el modo automático de EKS, siga usando los complementos para dispositivos. El controlador de DRA de NVIDIA no es compatible con Bottlerocket; usa el complemento de dispositivo NVIDIA en los nodos de Bottlerocket. Los controladores de DRA de EFA y Neuron son compatibles con Bottlerocket.
ResourceClaim frente a ResourceClaimTemplate de DRA
Cuando se utiliza DRA, se solicitan dispositivos a través de objetos ResourceClaim o ResourceClaimTemplate. Estos dos tipos de recursos tienen diferentes propósitos y tienen comportamientos de ciclo de vida diferentes.
- ResourceClaim
-
Una
ResourceClaimes un objeto de Kubernetes con nombre que se crea independientemente de cualquier pod. Se hace referencia a ella en una especificación de Pod por su nombre mediante el camporesourceClaimName. UnaResourceClaimtiene las siguientes características:-
Debe existir en el clúster antes de crear los pods que hacen referencia a ella. Si la reclamación no existe, el pod permanece en estado pendiente.
-
Persiste hasta que lo elimine de forma explícita, independientemente de si algún pod hace referencia a ella.
-
Varios pods pueden hacer referencia a la misma
ResourceClaim, lo que permite compartir dispositivos. Todos los pods que hacen referencia a la misma reclamación comparten el acceso a los mismos dispositivos asignados y están programados en el mismo nodo.Use una
ResourceClaimcuando necesite varios pods para compartir el acceso a los mismos dispositivos o cuando necesite una reclamación que exista más allá de la vida útil de un solo pod.
-
- ResourceClaimTemplate
-
Una
ResourceClaimTemplatedefine una plantilla que Kubernetes utiliza para generar automáticamente unaResourceClaimúnica para cada pod. Se hace referencia a ella en una especificación de Pod mediante el camporesourceClaimTemplateName. La plantillaResourceClaimTemplateen sí misma no está vinculada a ningún pod: es una plantilla reutilizable que permanece de forma independiente. UnaResourceClaimTemplatetiene las siguientes características:-
Kubernetes crea una nueva
ResourceClaimpara cada pod que hace referencia a la plantilla. Cada pod tiene su propio conjunto de dispositivos independiente. -
Cada
ResourceClaimgenerada está vinculada al ciclo de vida del pod que desencadenó su creación. Cuando se elimina el pod, también se elimina laResourceClaimgenerada asociada. LaResourceClaimTemplateen sí no se ve afectada y sigue generando nuevas reclamaciones para los pods futuros.Use una
ResourceClaimTemplatecuando cada pod de una carga de trabajo necesite sus propios dispositivos dedicados con configuraciones similares. Por ejemplo, use unaResourceClaimTemplatepara pods en un trabajo que utilice la ejecución paralela, donde cada pod necesite su propia GPU o dispositivos EFA.
-
En la tabla siguiente se resumen las diferencias entre ResourceClaim y ResourceClaimTemplate.
| Comportamiento | ResourceClaim | ResourceClaimTemplate |
|---|---|---|
|
Creación |
La crea manualmente antes de que los pods hagan referencia a ella. |
Kubernetes genera automáticamente una reclamación por pod. |
|
Ciclo de vida |
Persiste hasta que la elimina. |
La plantilla persiste hasta que la elimina. Cada |
|
Uso compartido de dispositivos entre los pods |
Soportado. Varios pods pueden hacer referencia a la misma reclamación. |
No admitido. Cada pod recibe una reclamación diferente. |
|
Campo de especificación de pod |
|
|
Para ver ejemplos del uso de objetos ResourceClaim para compartir dispositivos EFA entre pods, consulte Uso compartido de los dispositivos EFA entre varios pods. Para ver ejemplos del uso de objetos ResourceClaimTemplate con una asignación compatible con la topología, consulte Asignación de dispositivos GPU/Neuron y EFA según la topología.