Contribuisci a migliorare questa pagina
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ripara automaticamente i nodi nei cluster EKS
Questo argomento descrive in dettaglio il comportamento di riparazione automatica dei nodi EKS e come configurarlo per soddisfare le vostre esigenze. La riparazione automatica dei nodi EKS è abilitata di default nella modalità automatica EKS e può essere utilizzata con i gruppi di nodi gestiti da EKS e Karpenter.
Le azioni di riparazione automatica dei nodi EKS predefinite sono riassunte nella tabella seguente e si applicano al comportamento di EKS Auto Mode, dei gruppi di nodi gestiti da EKS e Karpenter. Quando si utilizza EKS Auto Mode o KarpenterReplace, tutte le azioni di AcceleratedHardwareReady riparazione sono supportate e solo i gruppi di nodi gestiti da EKS sono Reboot supportate come azioni di riparazione.
Per un elenco dettagliato dei problemi di salute dei nodi rilevati dall'agente di monitoraggio dei nodi EKS e le relative azioni di riparazione dei nodi, vedere. Rileva i problemi di integrità dei nodi con l'agente di monitoraggio dei nodi EKS
| Condizione del nodo | Description | Riparazione dopo | Azioni di riparazione |
|---|---|---|---|
|
AcceleratedHardwareReady |
AcceleratedHardwareReady indica se l'hardware accelerato (GPU, Neuron) sul nodo funziona correttamente. |
10 m |
Sostituisci o riavvia |
|
ContainerRuntimeReady |
ContainerRuntimeReady indica se il runtime del contenitore (containerd, ecc.) funziona correttamente ed è in grado di eseguire contenitori. |
30 m |
Replace (Sostituisci) |
|
DiskPressure |
DiskPressure è una condizione standard di Kubernetes che indica che il nodo sta subendo una pressione sul disco (spazio su disco insufficiente o I/O elevato). |
N/D |
Nessuno |
|
KernelReady |
KernelReady indica se il kernel funziona correttamente senza errori critici, attacchi di panico o esaurimento delle risorse. |
30 m |
Replace (Sostituisci) |
|
MemoryPressure |
MemoryPressure è una condizione standard di Kubernetes che indica che il nodo sta subendo una pressione della memoria (memoria disponibile insufficiente). |
N/D |
Nessuno |
|
NetworkingReady |
NetworkingReady indica se lo stack di rete del nodo funziona correttamente (interfacce, routing, connettività). |
30 m |
Replace (Sostituisci) |
|
StorageReady |
StorageReady indica se il sottosistema di archiviazione del nodo funziona correttamente (dischi, file system, I/O). |
30 m |
Replace (Sostituisci) |
|
Pronto |
Ready è la condizione standard di Kubernetes che indica che il nodo è integro e pronto ad accettare i pod. |
30 m |
Replace (Sostituisci) |
Le azioni di riparazione automatica dei nodi EKS sono disabilitate per impostazione predefinita nei seguenti scenari. Le azioni di riparazione dei nodi in corso continuano in ogni scenario. Scopri Configura la riparazione automatica dei nodi come sovrascrivere queste impostazioni predefinite.
Gruppi di nodi gestiti da EKS
-
Il gruppo di nodi ha più di cinque nodi e più del 20% dei nodi del gruppo di nodi non è integro.
-
Lo spostamento zonale del cluster viene attivato tramite l'Application Recovery Controller (ARC).
EKS Auto Mode e Karpenter
-
Oltre il 20% dei nodi presenti non NodePool sono sani.
-
In modalità standalone NodeClaims, il 20% dei nodi del cluster non è integro.
Configura la riparazione automatica dei nodi
La riparazione automatica dei nodi non può essere configurata quando si utilizza la modalità automatica EKS ed è sempre abilitata con le stesse impostazioni predefinite di Karpenter.
Karpenter
Per utilizzare la riparazione automatica dei nodi con Karpenter, abilita il feature gate. NodeRepair=true È possibile abilitare i feature gate tramite l'opzione --feature-gates CLI o la variabile di FEATURE_GATES ambiente nella distribuzione di Karpenter. Per ulteriori informazioni, consulta la documentazione di Karpenter
Gruppi di nodi gestiti
È possibile abilitare la riparazione automatica dei nodi durante la creazione di nuovi gruppi di nodi gestiti EKS o aggiornando i gruppi di nodi gestiti EKS esistenti.
-
Console Amazon EKS: seleziona la casella di controllo Abilita riparazione automatica del nodo per il gruppo di nodi gestito. Per ulteriori informazioni, consulta Creare un gruppo di nodi gestiti per il cluster.
-
AWS CLI: aggiungi
--node-repair-config enabled=trueal comandoeks create-nodegrouporeks update-nodegroup-config. -
eksctl — Configure
managedNodeGroups.nodeRepairConfig.enabled: true, vedi l'esempio in eksctl. GitHub
Quando si utilizzano i gruppi di nodi gestiti da EKS, è possibile controllare il comportamento di riparazione automatica dei nodi con le seguenti impostazioni.
Per controllare quando la riparazione automatica del nodo smette di agire, imposta una soglia basata sul numero di nodi non integri nel gruppo di nodi. Imposta il conteggio assoluto o la percentuale, ma non entrambi.
| Impostazione | Description |
|---|---|
|
|
Il numero assoluto di nodi non integri al di sopra dei quali si interrompe la riparazione automatica del nodo. Utilizzatelo per limitare l'ambito delle riparazioni. |
|
|
La percentuale di nodi non integri al di sopra della quale si interrompe la riparazione automatica del nodo (0-100). |
Per controllare quanti nodi vengono riparati contemporaneamente, puoi configurare il parallelismo di riparazione. Come per la soglia dei nodi non integri, imposta il conteggio assoluto o la percentuale, ma non entrambi.
| Impostazione | Description |
|---|---|
|
|
Il numero massimo di nodi da riparare contemporaneamente. |
|
|
La percentuale massima di nodi non integri da riparare contemporaneamente (0-100). |
ConnodeRepairConfigOverrides, è possibile personalizzare il comportamento di riparazione per condizioni specifiche. Utilizzalo quando hai bisogno di diverse azioni di riparazione o tempi di attesa per diversi tipi di problemi.
Ogni override richiede tutti i seguenti campi:
| Campo | Description |
|---|---|
|
|
Il tipo di condizione del nodo riportato dall'agente di monitoraggio del nodo. Ad esempio: |
|
|
Il codice causale specifico della condizione non salutare. Ad esempio, |
|
|
Il tempo minimo, in minuti, in cui la condizione deve persistere prima che il nodo diventi idoneo alla riparazione. Usalo per evitare di riparare i nodi per problemi temporanei. |
|
|
L'azione da intraprendere quando le condizioni sono soddisfatte. Valori validi: |
L'esempio AWS CLI seguente crea un gruppo di nodi con impostazioni di riparazione personalizzate.
aws eks create-nodegroup \ --cluster-name my-cluster \ --nodegroup-name my-nodegroup \ --node-role arn:aws:iam::111122223333:role/NodeRole \ --subnets subnet-0123456789abcdef0 \ --node-repair-config '{ "enabled": true, "maxUnhealthyNodeThresholdPercentage": 10, "maxParallelNodesRepairedCount": 3, "nodeRepairConfigOverrides": [ { "nodeMonitoringCondition": "AcceleratedHardwareReady", "nodeUnhealthyReason": "NvidiaXID64Error", "minRepairWaitTimeMins": 5, "repairAction": "Replace" }, { "nodeMonitoringCondition": "AcceleratedHardwareReady", "nodeUnhealthyReason": "NvidiaXID31Error", "minRepairWaitTimeMins": 15, "repairAction": "NoAction" } ] }'
Questa configurazione esegue le seguenti operazioni:
-
Abilita la riparazione automatica del nodo
-
Interrompe le azioni di riparazione quando più del 10% dei nodi non è integro
-
Ripara fino a 3 nodi alla volta
-
Sostituisce gli errori XID 64 (errore di rimappatura della memoria GPU) per sostituire il nodo dopo 5 minuti. L'impostazione predefinita è il riavvio dopo 10 minuti.
-
Sostituisce gli errori XID 31 (errore della pagina di memoria della GPU) per non intraprendere alcuna azione. L'impostazione predefinita è il riavvio dopo 10 minuti.