El Laboratorio Nacional oak Ridge ha publicado la descripción general de su sistema HPC Crusher, que funciona con CPU EPYC optimizadas de 3.ª generación de AMD y las GPU Instinct MI250X.
El sistema Crusher es una plataforma de prueba para la próxima supercomputadora Frontier de ORNL, que contará con las últimas CPU AMD EPYC ‘Trento’ y las GPU Instinct MI250X ‘Aldebaran’. Como tal, tiene un número menor de nodos, pero aun así, tiene mucho impacto dada la gran cantidad de núcleos de CPU / GPU que se integran dentro de él.
Crusher es un sistema de seguridad moderada del Centro Nacional de Ciencias Computacionales (NCCS) que contiene hardware idéntico y software similar al próximo sistema Frontier. Se utiliza como banco de pruebas de acceso temprano para los equipos del Centro para la Preparación Acelerada de Aplicaciones (CAAR) y el Proyecto de Computación Exaescala (ECP), así como para el personal de NCCS y nuestros socios proveedores.
vía ORNL
La descripción general publicada por ORNL establece que el HPC de prueba Crushes constará de 2 gabinetes, uno con 128 nodos de cómputo y el otro con 64 nodos de cómputo, totalizando 192 nodos de cómputo en la configuración completa. Cada nodo cuenta con una sola CPU AMD EPYC 7A53 de 64 núcleos que se basa en la arquitectura de CPU EPYC optimizada de 3.ª generación. Sabemos que Frontier va a ser alimentado por las CPU Trento de AMD, que es una versión optimizada del chip Milan. Cuenta con los mismos 64 núcleos y 128 hilos, pero optimizaciones para los relojes y la eficiencia energética. Cada CPU tendrá acceso a 512 GB de memoria DDR4.
Para el lado de la GPU, cada nodo contará con cuatro GPU AMD Instinct MI250X, que incluyen 2 GCD y cada nodo trata el GCD como una GPU separada, por lo que Crusher tendrá acceso a 8 GPU. en total. Cada GPU MI250X ofrece hasta 52 TFLOP de potencia de cómputo pico FP64, 220 unidades de cómputo (110 por GCD) y 128 GB de memoria HBM2e (64 GB por GPU) para un ancho de banda de hasta 3,2 TB/s por acelerador MI250X. Cada GCD se conecta entre sí a través de un enlace Infinity Fabric que ofrece un ancho de banda bidireccional de 200 GB/s.
Hablando de interconexiones, las CPU AMD EPYC están conectadas a la GPU con Infinity Fabric con un ancho de banda pico de 36 + 36 GB / s. Los nodos Crusher se conectan a través de cuatro NIC HPE Slingshot de 200 Gbit por segundo (25 GB/s) que proporcionan un ancho de banda de inyección de nodos de 800 Gbps (100 GB/s).
Hay [4x] dominios NUMA por nodo y [2x] regiones de caché L3 por NUMA para un total de [8x] regiones de caché L3. Las 8 GPU están asociadas a una de las regiones L3 de la siguiente manera:
- NUMA 0:
- subprocesos de hardware 000-007, 064-071 | GPU 4
- subprocesos de hardware 008-015, 072-079 | GPU 5
- NUMA 1:
- subprocesos de hardware 016-023, 080-087 | GPU 2
- subprocesos de hardware 024-031, 088-095 | GPU 3
- NUMA 2:
- subprocesos de hardware 032-039, 096-103 | GPU 6
- subprocesos de hardware 040-047, 104-111 | GPU 7
- NUMA 3:
- subprocesos de hardware 048-055, 112-119 | GPU 0
- subprocesos de hardware 056-063, 120-127 | GPU 1
Además de eso, el HPC Crusher también usa 250 PB de almacenamiento con una velocidad de escritura máxima de 2.5 TB/s, con acceso al sistema de archivos basado en NFS en todo el centro. Espere ver más de las plataformas EPYC CPU e Instinct GPU de AMD cuando entren en funcionamiento en la supercomputadora Frontier este año.