As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Agente de monitoramento de saúde
Esta seção descreve o conjunto de verificações de integridade SageMaker HyperPod usado para monitorar regularmente a integridade da instância do cluster em busca de problemas com dispositivos como aceleradores (núcleos de GPU e Trainium) e redes (EFA). SageMaker HyperPod o agente de monitoramento de saúde (HMA) monitora continuamente o status de saúde de cada instância baseada em GPU ou Trainium. Ao detectar qualquer falha na instância ou na GPU, o agente marca a instância como não íntegra.
SageMaker HyperPod O HMA realiza as mesmas verificações de integridade para os orquestradores EKS e Slurm. Para obter mais informações sobre o HMA, consulteSistema de monitoramento de saúde.