Destrabando cómputo y almacenamiento con pequeñas compras

Durante los primeros meses del año compramos de manera muy conveniente muchos elementos para mantenimiento, mejora y ampliación de las capacidades de cómputo y almacenamiento

Hagamos una lista de compras casi de supermercado y luego veamos para que:

Las compras las hicimos en los lugares más convenientes para aprovechar al máximo los recursos económicos de UNC Supercómputo. Algunos fueron proveedores argentinos como SIASA y Multitech y el resto en el forwarder TiendaMía y la tienda China AliExpress.

IOM6, 2 paquetes de memoria, puentes NVLINK y 12 discos mecánicos.

Los 12 HDD servirán para ampliar la capacidad del almacenamiento de MendietaF2 que, por el volumen de cómputo que está teniendo, el almacenamiento viejo quedó chico. Ahora vamos a tener 240 TB en RAID6, lo que permitirá que fallen simultáneamente dos discos mecánicos sin que se pierdan datos.

El módulo NetApp IOM6, es para hacer un hack raro. A principios de 2023, la oficina Córdoba de Mercado Libre nos donó equipamiento en desuso. Entre los elementos había un storage NetApp DS4246 que estaba brickeado, ya que el software de control es con licencia y la tenía vencida. Carlos Bederián consigió en AliExpress un IOM6 que es un módulo para esta generación de almacenamientos que lo transforma en un JBOD o «cajón de discos», sin necesidad alguna de software de control, ya que se presenta como un dispositivo SAS2 y lo podemos conectar directamente a nuestros servidores de almacenamiento.

Luego viene un combo para el problemático nodo rome07 de Serafín. Durante mucho tiempo este nodo estuvo sin funcionar, ya que no detectaba la RAM de los slots de DIMM . Luego de muchas pruebas se determinó que uno de los procesadores fallaba, pero en el mientras tanto, se fue canibalizando para proveer de repuestos al resto de los nodos, sacando RAM, un procesador y la placa de red de alta velocidad. Compramos todo nuevamente y finalmente tenemos los 64 nodos de Serafín funcionando, 60 que se compraron originalmente y 4 con el aporte del SNCAD.

Se merece un apartado especial el precio de los EPYC 7532. Cuando fueron lanzados, el precio unitario de cada procesador era de 3000 USD, la empresa AMD hizo una oferta irresistible con sus procesadores y los 120 procesadores de Serafín costaron alrededor de 1500 USD cada uno. Los procesadores de repuesto se compraron a 162 USD cada uno. Esto es casi 10x más barato que lo que pagamos y 20x de lo que era el precio de mercado. Estamos viendo la Ley de Moore en todo su esplendor.
Serafín es nuestro cluster más nuevo, pero sus procesadores ya valen poco y nada, mostrando de manera cruda porque se dice que un equipo de supercómputo tiene una vida útil de 5 años.

El resto de los materiales va para «Gordito«, por un lado tenemos 8×64 GiB de RAM para sumarle a los que ya tenía y totalizar 1 TiB de memoria dinámica de alta velocidad. Los puentes NVLINK nos permiten, con un costo muy bajo, «pegar» de a dos placas NVIDIA A30 pasando de 32 GiB/s de tasa de comunicación a través de PCIe 4.0 16x a 200 GiB/s por el puente NVLINK. Este 6x en velocidad de comunicación inter-placa nos permite poner LLMs y que los pesos de éstos se distribuyan entre dos placas de 24 GiB y que el desempeño no caiga, es decir modelos más grandes con mejor desempeño.

«Gordito» por dentro con 4 GPUs NVIDIA A30 conectadas de a 2 con NVLINK.