

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon EMR 叢集錯誤：拒絕列出的節點
<a name="emr-troubleshoot-error-resource-3"></a>

NodeManager 協助程式負責於核心節點和任務節點啟動和管理容器。該容器是由主節點上執行的 ResourceManager 協助程式分配給 NodeManager 協助程式。ResourceManager 透過活動訊號監控 NodeManager 節點。

在幾種情況下，ResourceManager 常駐程式會將 NodeManager 節點列入拒絕清單，將其從可用於處理任務的節點集區中移除：
+ 如果 NodeManager 尚未在過去 10 分鐘 (60 萬毫秒) 內傳送活動訊號至 ResourceManager 常駐程式。可使用 `yarn.nm.liveness-monitor.expiry-interval-ms` 組態以設定此期間。如需有關變更 Yarn 組態設定的詳細資訊，請參閱《Amazon EMR 版本指南》**中的[設定應用程式](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps.html)。
+ NodeManager 檢查由 `yarn.nodemanager.local-dirs` 和 `yarn.nodemanager.log-dirs` 所決定的磁碟運作狀態。此檢查包含權限和可用磁碟空間 (< 90%)。如果某個磁碟未通過檢查，該 NodeManager 將停止使用該特定磁碟，但仍會回報該節點的運作狀態良好。如果多個磁碟未通過檢查，該節點會回報為運作狀態不佳至 ResourceManager，且新的容器不會指派給該節點。

如果出現超過三個以上的失敗任務，該應用程式主控也可以將 NodeManager 節點列入拒絕清單。您可以使用 `mapreduce.job.maxtaskfailures.per.tracker` 組態參數將此變更為較高數值。您可能變更的其他組態設定，控制了在將任務標記為失敗之前嘗試執行任務的次數：`mapreduce.map.max.attempts` 用於對應任務和 `mapreduce.reduce.maxattempts` 用於減少任務。如需有關變更組態設定的詳細資訊，請參閱《Amazon EMR 版本指南》**中的[設定應用程式](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps.html)。