Tested_es
HPC Crusher con AMD Epyc y GPU Instinct MI250X HPC Crusher con AMD Epyc y GPU Instinct MI250X
El HPC Crusher del Laboratorio Nacional oak Ridge integra CPU EPYC optimizadas de 3.ª generación de AMD y las GPU Instinct MI250X. HPC Crusher con AMD Epyc y GPU Instinct MI250X

El Laboratorio Nacional oak Ridge ha publicado  la descripción general de su sistema HPC Crusher, que funciona con CPU EPYC optimizadas de 3.ª generación de AMD y las GPU Instinct MI250X.

El sistema Crusher es una plataforma de prueba para la próxima supercomputadora Frontier de ORNL, que contará con las últimas CPU AMD EPYC ‘Trento’ y las GPU Instinct MI250X ‘Aldebaran’. Como tal, tiene un número menor de nodos, pero aun así, tiene mucho impacto dada la gran cantidad de núcleos de CPU / GPU que se integran dentro de él.

Crusher es  un  sistema de seguridad moderada del Centro  Nacional de  Ciencias Computacionales  (NCCS)  que  contiene hardware idéntico  y software similar al  próximo  sistema Frontier.    Se    utiliza  como  banco de pruebas de acceso temprano para los equipos del Centro para la Preparación  Acelerada de Aplicaciones  (CAAR) y el Proyecto de Computación Exaescala  (ECP),  así  como  para  el personal de NCCS y  nuestros  socios   proveedores.

 vía ORNL

La descripción general publicada por ORNL establece que el HPC de prueba Crushes constará de 2 gabinetes, uno con 128 nodos de cómputo y el otro con 64 nodos de cómputo, totalizando 192 nodos de cómputo en la configuración completa. Cada nodo cuenta con una sola CPU AMD EPYC 7A53 de 64 núcleos que se basa en la arquitectura de CPU EPYC optimizada de 3.ª generación. Sabemos que Frontier va a ser alimentado por las CPU Trento de AMD, que es una versión optimizada del chip Milan. Cuenta con los mismos 64 núcleos y 128 hilos, pero optimizaciones para los relojes y la eficiencia energética. Cada CPU tendrá acceso a 512 GB de memoria DDR4.

Para el lado de la GPU,  cada  nodo  contará  con  cuatro GPU AMD  Instinct  MI250X, que  incluyen  2  GCD  y  cada  nodo  trata el GCD como una GPU separada,  por lo que  Crusher  tendrá    acceso  a  8  GPU. en total. Cada  GPU MI250X  ofrece hasta  52  TFLOP de potencia de  cómputo pico FP64, 220 unidades de  cómputo  (110 por GCD) y 128 GB  de memoria   HBM2e  (64 GB por GPU)  para un ancho de banda  de hasta  3,2 TB/s por acelerador   MI250X.  Cada  GCD  se conecta entre sí a través    de un  enlace  Infinity  Fabric que  ofrece un ancho de banda bidireccional de 200 GB/s.

HPC AMD 2022 CPU EPYC

Hablando  de interconexiones, las CPU AMD EPYC están conectadas    a la GPU  con  Infinity  Fabric  con  un ancho de banda pico  de  36 + 36 GB / s. Los  nodos Crusher  se  conectan  a través de  cuatro NIC HPE  Slingshot  de 200 Gbit por  segundo    (25 GB/s)  que proporcionan  un ancho de banda de inyección de nodos  de  800 Gbps (100 GB/s).

Hay [4x] dominios NUMA por nodo y [2x] regiones de caché L3 por NUMA para un total de [8x] regiones de caché L3. Las 8 GPU están asociadas a una de las regiones L3 de la siguiente manera:

  • NUMA 0:
  • subprocesos de hardware 000-007, 064-071 | GPU 4
    • subprocesos de hardware 008-015, 072-079 | GPU 5
  • NUMA 1:
  • subprocesos de hardware 016-023, 080-087 | GPU 2
    • subprocesos de hardware 024-031, 088-095 | GPU 3
  • NUMA 2:
  • subprocesos de hardware 032-039, 096-103 | GPU 6
    • subprocesos de hardware 040-047, 104-111 | GPU 7
  • NUMA 3:
  • subprocesos de hardware 048-055, 112-119 | GPU 0
    • subprocesos de hardware 056-063, 120-127 | GPU 1

Además de eso, el HPC Crusher también usa 250 PB de almacenamiento con una velocidad de escritura máxima de 2.5 TB/s, con acceso al sistema de archivos basado en NFS en todo el centro. Espere ver más de las plataformas EPYC CPU e Instinct GPU de AMD cuando entren en funcionamiento en la supercomputadora Frontier este año.

Tested