Descripción general

La versión actual de Magerit consiste en un clúster de propósito general compuesto por 72 nodos ThinkSystem SD530, cada uno de ellos equipado con procesadores Intel® Xeon® Gold 6230 y 192 GiB de RAM, y 48 nodos ThinkSystem SD530, cada uno de ellos equipado con procesadores Intel® Xeon® Gold 6240R y 768 GiB de RAM, Esta configuración es capaz de proporcionar una potencia pico de 370.49 TFLOPS (DP).

Adicionalmente, se dispone de nodos ThinkSystem SR670 con aceleradores (GPU) específicos.

Tabla 1. Configuración de nodos que componen Magerit
Cantidad Procesador RAM HD Aceleradores

72 nodos

2 × Intel® Xeon® Gold 6230

(20 cores @ 2.1 GHz)

192 GiB

480 GiB

(SSD SATA)

48 nodos

2 × Intel® Xeon® Gold 6240R

(24 cores @ 2.4 GHz)

768 GiB

120 GiB

(SSD M.2)

4 nodos

2 × Intel® Xeon® Gold 6240R

(24 cores @ 2.4 GHz)

192 GiB

128 GiB

(SSD M.2)

4 × NVIDIA A100

2 nodos

2 × Intel® Xeon® Gold 6230

(20 cores @ 2.1 GHz)

192 GiB

128 GiB

(SSD M.2)

2 × NVIDIA V100

Nodos

Aunque todos los nodos son idénticos, existen nodos con dos funciones muy diferenciadas:

Nodo Descripción

Interactivos

Son nodos virtualizados que permiten el acceso a la infraestructura desde cualquier dispositivo y lugar del mundo. Desde ellos se realiza gestión de trabajos y el intercambio de datos y resultados.

El acceso se realiza mediante SSH a magerit.cesvima.upm.es utilizando las credenciales de usuario que se facilitan con el alta de la cuenta.

Las sesiones abiertas se cancelan tras 8 horas de inactividad y, dado que no están pensados para ejecución, se ha establecido un límite de 10 minutos de CPU para cada proceso que ejecute en ellos.

Cómputo

Son los nodos en los que se ejecutan los trabajos y que se encuentran aislados del exterior.

Las ejecuciones en estos nodos se realizan mediante trabajos por lotes batch gestionados por un planificador de recursos.

Todos los nodos se interconectan con redes 100 GbE de baja latencia.

Almacenamiento

Todos los nodos de Magerit tienen acceso a un espacio de almacenamiento compartido implementado sobre un sistema de ficheros paralelo denominado BeeGFS.

Cada actividad tiene asignado 1 TB de almacenamiento compartido por todos los miembros y una carpeta de proyecto con el formato /home/<code>/ para almacenar la información.

El sistema de ficheros se encuentra controlado por un sistema de cuotas asignadas a cada grupo, es decir, se considera el total de espacio usado independientemente del miembro que lo utiliza.

La coordinación del uso de este espacio de almacenamiento recae sobre el responsable de la actividad.

Bajo esa carpeta aparecen tres tipos de entradas:

Nodo Descripción

Home de usuario

Cada miembro de proyecto tendrá una cuenta de usuario cuya carpeta principal tiene la forma /home/<code>/<user>/ donde puede almacenar su configuración y datos personales.

Datos compartidos

Los datos, resultados o códigos que sean utilizados por varios miembros del proyecto se pueden almacenar en /home/<code>/PROJECT/.

Temporal

Para información temporal (logs de ejecuciones, resultados parciales…​) existe la ubicación scratch en /home/<code>/SCRATCH/.

Cualquier información alojada en una carpeta SCRATCH o .cache se considera temporal y será ignorada.

No se proporciona backup garantizado para ninguna de las ubicaciones. Es responsabilidad de cada usuario y responsable del proyecto realizar y gestionar sus propias copias.

CeSViMaCentro de Supercomputación y Visualización de Madrid