Ampliación en la nube para la computación de investigación

El grupo de investigación en computación de una institución de investigación estadounidense R1 (universidades de doctorado con una actividad investigadora muy elevada) llevaba muchos años ejecutando clústeres de computación de alto rendimiento (HPC) en las instalaciones con el programador Slurm. A excepción de algunas semanas de mantenimiento programado, los clústeres funcionaban con un porcentaje de uso del 80 % al 95 % y la mayoría de sus colas estaban llenas.

El creciente número de actividades de investigación en la institución generó desafíos en materia de capacidad. Algunos investigadores de alto perfil siempre efectuaban simulaciones de larga duración en determinadas colas, lo que aumentaba el tiempo de espera para otros usuarios. Los profesores recién contratados necesitaban ejecutar un gran número de simulaciones meteorológicas para crear un novedoso modelo de inteligencia artificial y machine learning (IA y ML) para la previsión meteorológica, pero necesitaban más capacidad de la disponible. El grupo de investigación en computación también estaba recibiendo más solicitudes de las últimas unidades de procesamiento gráfico (GPUs) para entrenar modelos de aprendizaje automático. A pesar de contar con financiación para nuevas GPUs unidades, el equipo tendría que esperar meses para obtener la aprobación necesaria para ampliar el espacio de los racks en el centro de datos.

Muchos investigadores no estaban dispuestos a eliminar los datos antiguos, por lo que la capacidad de almacenamiento local también suponía un desafío. Se necesitaba una opción de almacenamiento a largo plazo más escalable para liberar espacio de almacenamiento valioso y de alto rendimiento en las instalaciones.

La nube aborda estos desafíos con soluciones híbridas de computación y almacenamiento que permiten ampliar la computación para investigación en la nube cuando la capacidad en las instalaciones no sea suficiente. En el siguiente diagrama de arquitectura, se ilustran algunos enfoques basados en el uso intensivo de recursos de computación y de almacenamiento mediante herramientas como AWS ParallelCluster y AWS Storage Gateway.

Arquitectura para la ampliación en la nube para la computación de investigación

Esta arquitectura sigue estas recomendaciones:

Seleccione un proveedor de nube principal y estratégico. Esta arquitectura utiliza un proveedor de nube principal para evitar las restricciones del enfoque de mínimo común denominador. De esta forma, la institución puede aprovechar la innovación y los servicios nativos de computación y almacenamiento que ofrece el proveedor de nube principal. El equipo de investigación en computación puede centrarse en optimizar las cargas de trabajo en el entorno proporcionado por el proveedor de nube principal, y no en cómo trabajar en diferentes entornos de nube.
Establezca los requisitos de seguridad y gobernanza para cada proveedor de servicios en la nube. Cada servicio y herramienta utilizados en esta arquitectura se puede configurar para cumplir con los requisitos de seguridad y gobernanza del equipo de computación de investigación, que incluyen la conectividad privada, el cifrado de datos en tránsito y en reposo, el registro de actividades, etc.
Adopte servicios administrados nativos en la nube siempre que sea posible y práctico. Esta arquitectura ofrece la posibilidad de utilizar servicios de almacenamiento y computación administrados, así como herramientas para simplificar la administración de clústeres. De esta forma, el equipo de investigación en computación no tiene que preocuparse por administrar los clústeres o la infraestructura subyacente por sí solo, lo que puede resultar complejo y llevar mucho tiempo.
Implemente arquitecturas híbridas cuando las inversiones en las instalaciones existentes incentiven el uso continuado. Esta arquitectura permite a la institución continuar utilizando los recursos en las instalaciones y aprovechar la nube para aumentar la capacidad y ampliar la potencia de computación bajo demanda. Con la nube, la institución puede ajustar el tipo de computación para maximizar la relación entre precio y rendimiento y acceder a la tecnología más reciente a fin de promover la innovación sin tener que efectuar una gran inversión inicial en hardware adicional en las instalaciones.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Federación de identidades e inicio de sesión único

Siguientes pasos