Preguntas frecuentes (FAQ) Magerit

Acceso al sistema

He enviado un trabajo al sistema ¿Cómo puedo saber el estado en el que se encuentra?

Cada usuario puede ver sus trabajos enviados al sistema con squeue.

También es posible generar un informe más detallado junto al desempeño con sstat (si está ejecutando) o con sacct (si ya ha finalizado la ejecución).

¿Puedo hacer que mi trabajo esté menos tiempo esperando?

Una forma de reducir el tiempo de espera es ajustando al máximo los recursos solicitados: reduciendo al máximo el número de tareas (directivas --ntasks y --cpus-per-task) así como la duración del trabajo (directiva --time). De esta forma será más fácil que el planificador pueda poner en ejecución un trabajo que precisa una ventana de tiempo más pequeña.

Se recomienda ajustar la duración del trabajo dejando siempre un margen de seguridad (5 % o 10 % extra) para evitar que se aborte por falta de tiempo.

¿Cuál es la mejor forma de ejecutar varios trabajos que tienen dependencias entre ellos?

Para definir las dependencias se utiliza la directiva --dependency indicando los identificadores de trabajo de los que depende y cómo deben haber acabado. Hay más información en el manual de sbatch o ejecutando man sbatch en un nodo.

Aplicaciones

Necesito una aplicación que no aparece instalada en el sistema

Las aplicaciones de terceros, para evitar que existan múltiples copias de la misma aplicación en el sistema, son instaladas por el equipo de administración. Solicite su instalación a través del Centro de Atención a Usuarios (CAU).

Las aplicaciones que son instaladas por el usuario son los desarrollos propios del usuario o aquellas que por su diseño no permitan el uso compartido por múltiples usuarios.

Necesito una aplicación que precisa licencia

El software con licencia debe ser siempre controlado por el equipo de administración y el acceso al mismo estará permitido únicamente a aquellos proyectos/usuarios que hayan acreditado disponer de una licencia válida.

Para que se habilite el acceso al software es necesario enviar una copia de la misma al equipo de administración a través del Centro de Atención a Usuarios (CAU).

No funciona CUDA en una sesión interactiva

Los nodos interactivos son máquinas virtuales sin soporte de CUDA. Por ello no tienen instaladas las bibliotecas.

Sin embargo, desde estos nodos es posible ver qué aplicaciones soportan cuda ejecutando module avail cuda.

Para usar cualquier programa CUDA, se debe enviar un trabajo solicitando recursos CUDA y ejecutando los mandatos en el jobfile.

Errores típicos

bad interpreter: No such file or directory

La codificación del retorno de carro es incorrecta, posiblemente usa la codificación de Windows, y el sistema no es capaz de interpretarlo.

En este caso basta con ejecutar dos2unix sobre fichero para subsanar el problema.

ssh_exchange_identification: Connection closed by remote host

Debido a los ataques recibidos en el sistema, existe un mecanismo de bloqueo automático de las IPs que intentan realizar accesos fraudulentos. Cuando una IP queda bloqueada se recibe ese mensaje en la conexión.

El bloqueo se produce cuando se realizan múltiples intentos de acceso (más de tres) con credenciales incorrectas (nombre de usuario inválido o contraseña incorrecta). Al detectar cualquiera de estas condiciones se bloquea el acceso a cualquier servicio desde esa IP en todos los nodos de login del sistema.

Para liberar el bloqueo, debe enviarse la dirección IP desde la que se realiza la conexión al Centro de Atención a Usuarios (CAU).

Miscelánea

¿Cómo puedo contactar con el CeSViMa?

La principal fuente de información es la página web del CeSViMa o ponerse en contacto con Centro de Atención a Usuarios (CAU).

CeSViMaCentro de Supercomputación y Visualización de Madrid