Configura la riparazione automatica dei nodi

Contribuisci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ripara automaticamente i nodi nei cluster EKS

Questo argomento descrive in dettaglio il comportamento di riparazione automatica dei nodi EKS e come configurarlo per soddisfare le vostre esigenze. La riparazione automatica dei nodi EKS è abilitata di default nella modalità automatica EKS e può essere utilizzata con i gruppi di nodi gestiti da EKS e Karpenter.

Le azioni di riparazione automatica dei nodi EKS predefinite sono riassunte nella tabella seguente e si applicano al comportamento di EKS Auto Mode, dei gruppi di nodi gestiti da EKS e Karpenter. Quando si utilizza EKS Auto Mode o KarpenterReplace, tutte le azioni di AcceleratedHardwareReady riparazione sono supportate e solo i gruppi di nodi gestiti da EKS sono Reboot supportate come azioni di riparazione.

Per un elenco dettagliato dei problemi di salute dei nodi rilevati dall'agente di monitoraggio dei nodi EKS e le relative azioni di riparazione dei nodi, vedere. Rileva i problemi di integrità dei nodi con l'agente di monitoraggio dei nodi EKS

Condizione del nodo	Description	Riparazione dopo	Azioni di riparazione
AcceleratedHardwareReady	AcceleratedHardwareReady indica se l'hardware accelerato (GPU, Neuron) sul nodo funziona correttamente.	10 m	Sostituisci o riavvia
ContainerRuntimeReady	ContainerRuntimeReady indica se il runtime del contenitore (containerd, ecc.) funziona correttamente ed è in grado di eseguire contenitori.	30 m	Replace (Sostituisci)
DiskPressure	DiskPressure è una condizione standard di Kubernetes che indica che il nodo sta subendo una pressione sul disco (spazio su disco insufficiente o I/O elevato).	N/D	Nessuno
KernelReady	KernelReady indica se il kernel funziona correttamente senza errori critici, attacchi di panico o esaurimento delle risorse.	30 m	Replace (Sostituisci)
MemoryPressure	MemoryPressure è una condizione standard di Kubernetes che indica che il nodo sta subendo una pressione della memoria (memoria disponibile insufficiente).	N/D	Nessuno
NetworkingReady	NetworkingReady indica se lo stack di rete del nodo funziona correttamente (interfacce, routing, connettività).	30 m	Replace (Sostituisci)
StorageReady	StorageReady indica se il sottosistema di archiviazione del nodo funziona correttamente (dischi, file system, I/O).	30 m	Replace (Sostituisci)
Pronto	Ready è la condizione standard di Kubernetes che indica che il nodo è integro e pronto ad accettare i pod.	30 m	Replace (Sostituisci)

Le azioni di riparazione automatica dei nodi EKS sono disabilitate per impostazione predefinita nei seguenti scenari. Le azioni di riparazione dei nodi in corso continuano in ogni scenario. Scopri Configura la riparazione automatica dei nodi come sovrascrivere queste impostazioni predefinite.

Gruppi di nodi gestiti da EKS

Il gruppo di nodi ha più di cinque nodi e più del 20% dei nodi del gruppo di nodi non è integro.
Lo spostamento zonale del cluster viene attivato tramite l'Application Recovery Controller (ARC).

EKS Auto Mode e Karpenter

Oltre il 20% dei nodi presenti non NodePool sono sani.
In modalità standalone NodeClaims, il 20% dei nodi del cluster non è integro.

Configura la riparazione automatica dei nodi

La riparazione automatica dei nodi non può essere configurata quando si utilizza la modalità automatica EKS ed è sempre abilitata con le stesse impostazioni predefinite di Karpenter.

Karpenter

Per utilizzare la riparazione automatica dei nodi con Karpenter, abilita il feature gate. NodeRepair=true È possibile abilitare i feature gate tramite l'opzione --feature-gates CLI o la variabile di FEATURE_GATES ambiente nella distribuzione di Karpenter. Per ulteriori informazioni, consulta la documentazione di Karpenter.

Gruppi di nodi gestiti

È possibile abilitare la riparazione automatica dei nodi durante la creazione di nuovi gruppi di nodi gestiti EKS o aggiornando i gruppi di nodi gestiti EKS esistenti.

Console Amazon EKS: seleziona la casella di controllo Abilita riparazione automatica del nodo per il gruppo di nodi gestito. Per ulteriori informazioni, consulta Creare un gruppo di nodi gestiti per il cluster.
AWS CLI: aggiungi --node-repair-config enabled=true al comando eks create-nodegroupor eks update-nodegroup-config.
eksctl — ConfiguremanagedNodeGroups.nodeRepairConfig.enabled: true, vedi l'esempio in eksctl. GitHub

Quando si utilizzano i gruppi di nodi gestiti da EKS, è possibile controllare il comportamento di riparazione automatica dei nodi con le seguenti impostazioni.

Per controllare quando la riparazione automatica del nodo smette di agire, imposta una soglia basata sul numero di nodi non integri nel gruppo di nodi. Imposta il conteggio assoluto o la percentuale, ma non entrambi.

Impostazione	Description
`maxUnhealthyNodeThresholdCount`	Il numero assoluto di nodi non integri al di sopra dei quali si interrompe la riparazione automatica del nodo. Utilizzatelo per limitare l'ambito delle riparazioni.
`maxUnhealthyNodeThresholdPercentage`	La percentuale di nodi non integri al di sopra della quale si interrompe la riparazione automatica del nodo (0-100).

Per controllare quanti nodi vengono riparati contemporaneamente, puoi configurare il parallelismo di riparazione. Come per la soglia dei nodi non integri, imposta il conteggio assoluto o la percentuale, ma non entrambi.

Impostazione	Description
`maxParallelNodesRepairedCount`	Il numero massimo di nodi da riparare contemporaneamente.
`maxParallelNodesRepairedPercentage`	La percentuale massima di nodi non integri da riparare contemporaneamente (0-100).

ConnodeRepairConfigOverrides, è possibile personalizzare il comportamento di riparazione per condizioni specifiche. Utilizzalo quando hai bisogno di diverse azioni di riparazione o tempi di attesa per diversi tipi di problemi.

Ogni override richiede tutti i seguenti campi:

Campo	Description
`nodeMonitoringCondition`	Il tipo di condizione del nodo riportato dall'agente di monitoraggio del nodo. Ad esempio:`AcceleratedHardwareReady`,`NetworkingReady`,`StorageReady`,`KernelReady`.
`nodeUnhealthyReason`	Il codice causale specifico della condizione non salutare. Ad esempio, `NvidiaXID31Error`, `IPAMDNotRunning`.
`minRepairWaitTimeMins`	Il tempo minimo, in minuti, in cui la condizione deve persistere prima che il nodo diventi idoneo alla riparazione. Usalo per evitare di riparare i nodi per problemi temporanei.
`repairAction`	L'azione da intraprendere quando le condizioni sono soddisfatte. Valori validi: `Replace` (terminare e sostituire il nodo), `Reboot` (riavviare il nodo) o `NoAction` (nessuna azione di riparazione).

L'esempio AWS CLI seguente crea un gruppo di nodi con impostazioni di riparazione personalizzate.


aws eks create-nodegroup \
  --cluster-name my-cluster \
  --nodegroup-name my-nodegroup \
  --node-role arn:aws:iam::111122223333:role/NodeRole \
  --subnets subnet-0123456789abcdef0 \
  --node-repair-config '{
    "enabled": true,
    "maxUnhealthyNodeThresholdPercentage": 10,
    "maxParallelNodesRepairedCount": 3,
    "nodeRepairConfigOverrides": [
      {
        "nodeMonitoringCondition": "AcceleratedHardwareReady",
        "nodeUnhealthyReason": "NvidiaXID64Error",
        "minRepairWaitTimeMins": 5,
        "repairAction": "Replace"
      },
      {
        "nodeMonitoringCondition": "AcceleratedHardwareReady",
        "nodeUnhealthyReason": "NvidiaXID31Error",
        "minRepairWaitTimeMins": 15,
        "repairAction": "NoAction"
      }
    ]
  }'

Questa configurazione esegue le seguenti operazioni:

Abilita la riparazione automatica del nodo
Interrompe le azioni di riparazione quando più del 10% dei nodi non è integro
Ripara fino a 3 nodi alla volta
Sostituisce gli errori XID 64 (errore di rimappatura della memoria GPU) per sostituire il nodo dopo 5 minuti. L'impostazione predefinita è il riavvio dopo 10 minuti.
Sostituisce gli errori XID 31 (errore della pagina di memoria della GPU) per non intraprendere alcuna azione. L'impostazione predefinita è il riavvio dopo 10 minuti.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Rilevamento dello stato dei nodi

Visualizzazione dello stato dei nodi