PROTEUS scientific computing cloud -- Instituto Carlos I de Física Teórica y Computacional

Información General

PROTEUS es el servicio de computación que el Instituto Carlos I de Física Teórica y Computacional ofrece a sus miembros y colaboradores. Proporciona un entorno optimizado para cálculos intensivos de problemas generales e incorpora las últimas tendencias en computación. Está formado por un cluster de computación de alto rendimiento con servicios de cloud computing y cloud storage que da servicio a más de 50 investigadores de varios países, entre ellos España, Italia, México y Estados Unidos.

El servicio de cálculo se complementa con servicios de asistencia al investigador, apoyo a congresos, consultoría informática, etc.

Junto al Alhambra, sitúan a la UGR en los primeros puestos de supercomputación científica española.

Especificaciones y Datos de Interés

Algunos datos sobre PROTEUS:

Potencia de cómputo: ~27 Teraflops (27*10¹² operaciones en doble precisión por segundo)
Memoria principal: 4 Terabytes (nodos con 256, 96, 64, 48, 16 y 8GB)
Almacenamiento: 80 Terabytes de espacio compartido y 140TB para backups
Núcleos de ejecución: +1300 núcleos (repartidos en nodos de 8, 12, 20 y 32 núcleos, de 2,33GHz a 3,45GHz)
Número de nodos: 134 nodos
Red de comunicación: Infiniband FDR para comunicación entre procesos de cálculo, GigaEthernet para gestión y E/S con 10Gb troncales entre switches y nodos de almacenamiento
Trabajos ejecutados desde 2007: 1.800.000
Duración media de estos trabajos: 35 días
Número de usuarios: 50
Ranking: entre los primeros de España en computación científica

Historia

PROTEUS, desde su nacimiento, ha tenido una gran acogida y demanda, por lo que ha sido necesaria una constante serie de mejoras y ampliaciones.

El servicio de supercomputación en el iC1 se inaguró en 1997. En aquel entonces, se contaba con 24 procesadores y una potencia de 200 GFLOPs. El entorno de ejecución se basaba en MOSIX y las cuentas de los usuarios estaban compartidas por NFS.

En 2004 se amplió a 48 procesadores, con una potencia de unos 500 GFLOPs.

Fue en 2007 cuando se produjo una mejora más radical. Además de un considerable aumento de la potencia (160 procesadores y 1500 GFLOPs), se incorporó al iC1 un ingeniero informático que realizó grandes cambios en el sistema: se empieza a utilizar el gestor de colas Condor y el sistema de archivos distribuido GlusterFS.

En 2008, hubo una nueva ampliación. Pasamos a tener 600 procesadores y 5500 GLOPs. Como mejoras en el entorno, se cuentan con puntos de restauración de los programas, redundancia de datos y almacenamiento secundario para copias de seguridad.

En 2012 se amplia la potencia hasta 1100 procesadores y 13000 GFLOPs. Las novedades en el sistema son un mejor control sobre programas paralelos y con grandes necesidades de memoria, almacenamiento en la nube y la incorporación de tarjetas gráficas programables. El sistema de archivos pasa a estar basado en CephFS.

La última ampliación hasta el momento fue en 2015. Nuevamente, se amplia el número de procesadores y memoria. Se crea una red de baja latencia, Infiniband FDR, que conecta los últimos nodos para la ejecución de trabajos distribuidos mediante MPI.

En 2016 se refuerzan los servidores de gestión para que el cluster sea más robusto frente a fallos hardware, pudiendo seguir funcionando a pesar de que estos provoquen la caída de algunos nodos, obtenido mediante la virtualización de los nodos de gestión. Se mejora la red troncal de E/S con conexiones de 10G. Los backups se hacen sobre cintas. Y se crea el sistema de archivos LUSTRE para alto ratio de E/S y escrituras paralelas.