

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Solución de problemas
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-troubleshoot"></a>

La siguiente página contiene soluciones conocidas para solucionar problemas de sus clústeres de HyperPod EKS.

**Topics**
+ [Pestaña Panel](#hp-eks-troubleshoot-dashboard)
+ [Pestaña Tareas](#hp-eks-troubleshoot-tasks)
+ [Políticas](#hp-eks-troubleshoot-policies)
+ [Eliminación de clústeres](#hp-eks-troubleshoot-delete-policies)
+ [Uso compartido de recursos no asignados](#hp-eks-troubleshoot-unallocated-resource-sharing)

## Pestaña Panel
<a name="hp-eks-troubleshoot-dashboard"></a>

**El complemento de EKS no se instala**

Para que la instalación del complemento de EKS se realice correctamente, necesita una versión de Kubernets >= 1.30. Para actualizar, consulte [Actualización del clúster existente a la nueva versión de Kubernetes](https://docs.aws.amazon.com/eks/latest/userguide/update-cluster.html).

Para que la instalación del complemento de EKS se realice correctamente, todos los nodos deben tener el estado **Listo** y todos los pods deben tener el estado **En ejecución**. 

Para comprobar el estado de los nodos, utilice el [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-cluster-nodes.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-cluster-nodes.html) AWS CLI comando o navegue hasta el clúster de EKS en la [consola de EKS](https://console.aws.amazon.com/eks/home#/clusters) y consulte el estado de los nodos. Resuelva el problema de cada nodo o póngase en contacto con su administrador. Si el estado del nodo es **Desconocido**, elimínelo. Cuando todos los estados de los nodos estén **listos**, vuelva a intentar instalar el complemento EKS HyperPod desde la consola [Amazon SageMaker AI](https://console.aws.amazon.com/sagemaker/).

Para comprobar el estado de los pods, utilice el comando `kubectl get pods -n cloudwatch-agent` [de la CLI de Kubernetes](https://kubernetes.io/docs/reference/kubectl/) o navegue hasta el clúster de EKS en la [consola de EKS](https://console.aws.amazon.com/eks/home#/clusters) y consulte el estado de los pods con el espacio de nombres `cloudwatch-agent`. Resuelve el problema de los pods o contacte con su administrador para resolverlo. Cuando todos los estados de los pods estén en **ejecución**, vuelve a intentar instalar el complemento EKS HyperPod desde la consola [Amazon SageMaker AI](https://console.aws.amazon.com/sagemaker/).

Para obtener más información sobre la solución de problemas, consulte [Solución de problemas del complemento Amazon CloudWatch Observability EKS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html#Container-Insights-setup-EKS-addon-troubleshoot).

## Pestaña Tareas
<a name="hp-eks-troubleshoot-tasks"></a>

Si aparece un mensaje de error que indica que la **definición de recurso personalizada (CRD) no está configurada en el clúster**, asígnele las políticas `EKSAdminViewPolicy` y `ClusterAccessRole` a su rol de ejecución de dominio. 
+ Para obtener información sobre cómo obtener el rol de ejecución, consulte [Obtención del rol de ejecución](sagemaker-roles.md#sagemaker-roles-get-execution-role).
+ Para obtener más información acerca de cómo asociar políticas a un grupo o usuario de IAM, consulte [Adición y eliminación de permisos de identidad de IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html).

## Políticas
<a name="hp-eks-troubleshoot-policies"></a>

A continuación se enumeran las soluciones a los errores relacionados con las políticas que utilizan la consola HyperPod APIs o.
+ Si la política tiene los estados `CreateFailed` o `CreateRollbackFailed`, deberá eliminar la política fallida y crear una nueva.
+ Si la política tiene el estado `UpdateFailed`, vuelva a intentar la actualización con el mismo ARN de política.
+ Si la política tiene el estado `UpdateRollbackFailed`, deberá eliminar la política fallida y crear una nueva.
+ Si la política tiene los estados `DeleteFailed` y `DeleteRollbackFailed`, vuelva a intentar la eliminación con el mismo ARN de política.
  + Si se ha producido un error al intentar eliminar la política de clústeres o de **priorización de procesamiento** mediante la HyperPod consola, intente eliminarla `cluster-scheduler-config` mediante la API. Para comprobar el estado del recurso, vaya a la página de detalles de una asignación de recursos de computación.

Para ver más detalles sobre el error, usa la API de descripción.

## Eliminación de clústeres
<a name="hp-eks-troubleshoot-delete-policies"></a>

A continuación se enumeran las soluciones conocidas a los errores relacionados con la eliminación de clústeres.
+ Si se produce un error al eliminar un clúster debido a las políticas de control de SageMaker HyperPod tareas adjuntas, tendrás que hacerlo[Eliminación de políticas](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete.md).
+ Si se produce un error al eliminar el clúster debido a la falta de los siguientes permisos, tendrá que actualizar el conjunto mínimo de permisos del administrador del clúster. Consulte la pestaña **Amazon EKS** en la sección [Usuarios de IAM para la administración de clústeres](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin).
  + `sagemaker:ListComputeQuotas`
  + `sagemaker:ListClusterSchedulerConfig`
  + `sagemaker:DeleteComputeQuota`
  + `sagemaker:DeleteClusterSchedulerConfig`

## Uso compartido de recursos no asignados
<a name="hp-eks-troubleshoot-unallocated-resource-sharing"></a>

Si la capacidad de su fondo de recursos no asignado es inferior a la esperada:

1. **Compruebe el estado del nodo listo**

   ```
   kubectl get nodes
   ```

   Compruebe que todos los nodos muestren `Ready` su estado en la columna STATUS.

1. **Compruebe el estado programable del nodo**

   ```
   kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulable
   ```

   Compruebe si los nodos se muestran `<none>` o `false` no`true`.

1. **Listar el uso compartido ClusterQueues de recursos no asignados:**

   ```
   kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharing
   ```

   Muestra todos los recursos compartidos no asignados. ClusterQueues Si no ClusterQueues aparecen, compruebe la `FailureReason` siguiente ClusterSchedulerConfig política para ver si hay algún mensaje de error para continuar con la depuración.

1. **Compruebe la cuota de uso compartido de recursos no asignada:**

   ```
   kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>
   ```

   Consulte la `spec.resourceGroups[].flavors[].resources` sección para ver la cuota asignada a cada tipo de recurso.

    ClusterQueues Es posible que se compartan varios recursos no asignados en función del número de tipos de recursos del clúster. 

1. **Compruebe el estado de la configuración de MIG (nodos de GPU):**

   ```
   kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'
   ```

   Compruebe que los nodos habilitados para MIG muestren su estado. `success`