協助改進此頁面
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
若要為本使用者指南貢獻內容,請點選每個頁面右側面板中的在 GitHub 上編輯此頁面連結。
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
自動修復 EKS 叢集中的節點
本主題詳細說明 EKS 自動節點修復行為,以及如何將其設定為滿足您的需求。EKS 自動節點修復預設為在 EKS Auto 模式中啟用,可與 EKS 受管節點群組和 Karpenter 搭配使用。
預設 EKS 自動節點修復動作摘要如下表所示,適用於 EKS Auto Mode、EKS 受管節點群組和 Karpenter 的行為。使用 EKS Auto Mode 或 Karpenter 時,所有AcceleratedHardwareReady修復動作都是 Replace,只有 EKS 受管節點群組支援Reboot做為修復動作。
如需 EKS 節點監控代理程式偵測到的節點運作狀態問題及其對應節點修復動作的詳細清單,請參閱 使用 EKS 節點監控代理程式偵測節點運作狀態問題。
| 節點條件 | Description | 在 之後修復 | 修復動作 (多個) |
|---|---|---|---|
|
AcceleratedHardwareReady |
AcceleratedHardwareReady 指出節點上的加速硬體 (GPU、Neuron) 是否正常運作。 |
10m |
取代或重新啟動 |
|
ContainerRuntimeReady |
ContainerRuntimeReady 指出容器執行時間 (容器等) 是否正常運作且能夠執行容器。 |
30m |
取代 |
|
DiskPressure |
DiskPressure 是標準 Kubernetes 條件,表示節點遇到磁碟壓力 (磁碟空間不足或 I/O 高)。 |
N/A |
無 |
|
KernelReady |
KernelReady 指出核心是否正常運作,而不會發生嚴重錯誤、恐慌或資源耗盡。 |
30m |
取代 |
|
MemoryPressure |
MemoryPressure 是標準 Kubernetes 條件,表示節點正經歷記憶體壓力 (可用的記憶體不足)。 |
N/A |
無 |
|
NetworkingReady |
NetworkingReady 指出節點的網路堆疊是否正常運作 (介面、路由、連線能力)。 |
30m |
取代 |
|
StorageReady |
StorageReady 指出節點的儲存子系統是否正常運作 (磁碟、檔案系統、I/O)。 |
30m |
取代 |
|
備妥 |
Ready 是標準 Kubernetes 條件,表示節點運作狀態良好且已準備好接受 Pod。 |
30m |
取代 |
在下列情況下,EKS 自動節點修復動作預設為停用。在每個案例中,進行中的節點修復動作都會繼續。如需如何覆寫這些預設設定設定自動節點修復,請參閱 。
EKS 受管節點群組
-
節點群組有超過五個節點,且節點群組中超過 20% 的節點運作狀態不佳。
-
透過應用程式復原控制器 (ARC) 觸發叢集的區域轉移。
EKS 自動模式和 Karpenter
-
NodePool 中超過 20% 的節點運作狀態不佳。
-
對於獨立 NodeClaims,叢集中的 20% 節點運作狀態不佳。
設定自動節點修復
使用 EKS Auto Mode 時,無法設定自動節點修復,且一律以與 Karpenter 相同的預設設定啟用。
Karpenter
若要搭配 Karpenter 使用自動節點修復,請啟用功能閘道 NodeRepair=true。您可以透過 CLI --feature-gates 選項或 Karpenter 部署中的FEATURE_GATES環境變數來啟用功能閘道。如需詳細資訊,請參閱 Karpenter
受管節點群組
您可以在建立新的 EKS 受管節點群組或更新現有的 EKS 受管節點群組時啟用自動節點修復。
-
Amazon EKS 主控台 – 選取受管節點群組的啟用節點自動修復核取方塊。如需詳細資訊,請參閱建立叢集的受管節點群組。
-
AWS CLI –
--node-repair-config enabled=true新增至eks create-nodegroup或eks update-nodegroup-config命令。 -
eksctl – 設定
managedNodeGroups.nodeRepairConfig.enabled: true,請參閱 eksctl GitHub中的範例。
使用 EKS 受管節點群組時,您可以使用下列設定控制節點自動修復行為。
若要控制節點自動修復何時停止採取動作,請根據節點群組中運作狀態不佳的節點數目來設定閾值。設定絕對計數或百分比,但不能同時設定兩者。
| 設定 | Description |
|---|---|
|
|
節點自動修復停止運作狀態不佳的節點絕對數量。使用此項目來限制修復的範圍。 |
|
|
節點自動修復停止運作狀態不佳的節點百分比 (0-100)。 |
若要控制同時修復的節點數量,您可以設定修復平行處理。如同運作狀態不佳的節點閾值,請設定絕對計數或百分比,但不能同時設定兩者。
| 設定 | Description |
|---|---|
|
|
要同時修復的節點數目上限。 |
|
|
要同時修復的不良節點百分比上限 (0-100)。 |
使用 nodeRepairConfigOverrides,您可以針對特定條件自訂修復行為。當您需要不同的修復動作或不同問題類型的等待時間時,請使用此選項。
每個覆寫都需要下列所有欄位:
| 欄位 | Description |
|---|---|
|
|
節點監控代理程式報告的節點條件類型。例如: |
|
|
狀況不良的特定原因代碼。例如: |
|
|
在節點符合修復資格之前,條件必須保留的最短時間,以分鐘為單位。使用此選項可避免針對暫時問題修復節點。 |
|
|
符合條件時要採取的動作。有效值: |
下列 AWS CLI 範例會建立具有自訂修復設定的節點群組。
aws eks create-nodegroup \ --cluster-name my-cluster \ --nodegroup-name my-nodegroup \ --node-role arn:aws:iam::111122223333:role/NodeRole \ --subnets subnet-0123456789abcdef0 \ --node-repair-config '{ "enabled": true, "maxUnhealthyNodeThresholdPercentage": 10, "maxParallelNodesRepairedCount": 3, "nodeRepairConfigOverrides": [ { "nodeMonitoringCondition": "AcceleratedHardwareReady", "nodeUnhealthyReason": "NvidiaXID64Error", "minRepairWaitTimeMins": 5, "repairAction": "Replace" }, { "nodeMonitoringCondition": "AcceleratedHardwareReady", "nodeUnhealthyReason": "NvidiaXID31Error", "minRepairWaitTimeMins": 15, "repairAction": "NoAction" } ] }'
此組態會執行下列動作:
-
啟用節點自動修復
-
當超過 10% 的節點運作狀態不佳時,停止修復動作
-
一次最多可修復 3 個節點
-
覆寫 XID 64 錯誤 (GPU 記憶體重新映射失敗),以在 5 分鐘後取代節點。預設值為 10 分鐘後重新啟動。
-
覆寫 XID 31 錯誤 (GPU 記憶體頁面錯誤) 不採取任何動作。預設值為 10 分鐘後重新啟動。