

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 建议的弹性配置
<a name="sagemaker-hyperpod-eks-resiliency-config-tips"></a>

启用深度运行状况检查后，每当向 HyperPod 集群添加新实例时（无论是在创建集群期间还是通过自动节点替换），新实例都会经过大约几个小时的深度运行状况检查过程（实例级别的压力测试）。以下是根据可能的情况建议的弹性配置组合。

1. **案例**：当集群内有额外的备用节点作为后备资源时（未使用全部容量），或者可以等待约 2 个小时的深度运行状况检查过程，以获得较少出错的实例。

   **建议**：在整个集群生命周期启用深度运行状况检查配置。节点自动恢复配置默认已启用。

1. **案例**：没有额外的备份节点时（某些训练负载的容量已全部使用）。您希望尽快获得替代节点，以恢复训练作业。

   **建议**：在创建集群时启用深度运行状况检查，然后在创建集群后关闭深度运行状况检查配置。节点自动恢复配置默认已启用。

1. **案例**：没有额外的备份节点，也不想等待约 2 小时的深度运行状况检查过程（小型集群）。

   **建议**：在整个集群生命周期中禁用深度运行状况检查配置。节点自动恢复配置默认已启用。

如果您要立即从故障中恢复训练作业，请确保集群中有额外的备用节点作为备份资源。