

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Configurações sugeridas de resiliência
<a name="sagemaker-hyperpod-eks-resiliency-config-tips"></a>

Quando as verificações profundas de integridade são habilitadas, sempre que uma nova instância é adicionada ao HyperPod cluster (seja durante a criação do cluster ou por meio da substituição automática de nós), a nova instância passa pelo processo de verificação profunda de integridade (testes de estresse no nível da instância) por cerca de algumas horas. A seguir, são sugeridas combinações de configuração de resiliência, dependendo dos casos possíveis.

1. **Caso**: quando você tem nós sobressalentes adicionais em um cluster como atributos de backup (sem usar a capacidade total) ou se você pode esperar cerca de 2 horas pelo processo de verificação de integridade profunda para obter as instâncias menos propensas a erros.

   **Recomendação**: habilite a configuração de verificação de integridade profunda em todo o ciclo de vida do cluster. A configuração de recuperação automática do nó está habilitada por padrão.

1. **Caso**: Quando você não tem nós de backup adicionais (a capacidade é totalmente usada para alguma carga de treinamento). Você deseja obter os nós de substituição o mais rápido possível para retomar o trabalho de treinamento. 

   **Recomendação**: ative a verificação de integridade profunda durante a criação do cluster e, em seguida, desative a configuração da verificação de integridade profunda após a criação do cluster. A configuração de recuperação automática do nó está habilitada por padrão.

1. **Caso**: quando você não tem nós de backup adicionais e não quer esperar pelo processo de verificação de integridade profunda de aproximadamente 2 horas (pequenos clusters).

   **Recomendação**: desative a configuração de verificação de integridade profunda em todo o ciclo de vida do cluster. A configuração de recuperação automática do nó está habilitada por padrão.

Se você quiser retomar o trabalho de treinamento após uma falha imediatamente, certifique-se de ter nós sobressalentes adicionais como atributos de backup no cluster.