View a markdown version of this page

Agente de monitoramento de saúde - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Agente de monitoramento de saúde

Esta seção descreve o conjunto de verificações de integridade SageMaker HyperPod usado para monitorar regularmente a integridade da instância do cluster em busca de problemas com dispositivos como aceleradores (núcleos de GPU e Trainium) e redes (EFA). SageMaker HyperPod o agente de monitoramento de saúde (HMA) monitora continuamente o status de saúde de cada instância baseada em GPU ou Trainium. Ao detectar qualquer falha na instância ou na GPU, o agente marca a instância como não íntegra.

SageMaker HyperPod O HMA realiza as mesmas verificações de integridade para os orquestradores EKS e Slurm. Para obter mais informações sobre o HMA, consulteSistema de monitoramento de saúde.