Consideraciones para las fábricas de IA

Por Michael Schulman, gerente senior de comunicaciones corporativas en Supermicro

El nuevo y moderno centro de datos no es simplemente una ampliación de un centro de datos existente. En muchos casos, añadir capacidades de IA a una empresa requiere una planificación precisa y un nuevo comienzo. La simple incorporación de un nuevo servidor optimizado para GPU a una infraestructura existente no proporcionará los resultados que las organizaciones necesitan. Las fábricas de IA generan conocimiento a partir de datos existentes y requieren un nuevo pensamiento para obtener resultados óptimos.

Mentalidad a nivel de rack

En el pasado, se agregaban servidores individuales a un conjunto existente de sistemas en un rack en función de algunas capacidades (velocidad de la CPU, GHz de la CPU, cantidad de memoria y una elección de GPU).

Con el tiempo, esta construcción de un centro de datos dio lugar a un bastidor que contenía muchos sistemas diferentes para distintas cargas de trabajo, y cada servidor era básicamente autónomo. Si bien algunas aplicaciones se diseñaron para ejecutarse en varios servidores (HPC), esto incluía un conocimiento de los protocolos de red, software adicional y demoras mientras los sistemas se comunicaban.

La nueva forma de pensar es que “el rack es el nuevo servidor” y permite a los operadores de centros de datos crear una solución escalable pensando a nivel de rack.

Dentro de un rack, una solución completa para entrenamiento de IA puede ser autónoma, con ampliaciones disponibles para necesidades mayores de rendimiento.

Un solo rack puede contener hasta ocho servidores, cada uno con ocho GPU interconectadas. Después, cada GPU puede comunicarse con muchas otras GPU ubicadas en el rack, ya que los conmutadores pueden estar incluidos en el rack. La misma comunicación se puede configurar entre racks para escalar más allá de un solo rack, lo que permite que una sola aplicación use miles de GPU.

En una fábrica de IA se pueden utilizar distintas GPU. No todas las aplicaciones ni sus acuerdos de nivel de servicio (SLA) requieren las GPU más rápidas del mercado actual. Las GPU menos potentes pueden ser totalmente adecuadas para muchos entornos y, por lo general, consumirán menos electricidad.

Además, estos servidores muy densos con GPU requieren refrigeración líquida, lo que es óptimo si la unidad de distribución de refrigerante (CDU) también está ubicada dentro del rack, lo que reduce las longitudes de los tubos.

El ensamblaje y la prueba de clústeres completos son importantes para la rápida puesta en marcha de una nueva fábrica de IA. La capacidad de un único proveedor para probar todos los componentes que se utilizan en una fábrica de IA según los requisitos de los clientes reduce la posibilidad de que surjan problemas al instalar los distintos componentes por primera vez en las instalaciones de un cliente.

La integración L12 (clúster) no solo prueba los componentes de hardware y red, sino que también prueba el entorno de software que se ejecuta en todo el clúster, no solo en un solo servidor.

Obtenga más información sobre la integración a escala de rack.

Refrigeración líquida

Las últimas generaciones de CPU y GPU están impulsando a los servidores hacia la refrigeración líquida. La capacidad del aire forzado para enfriar servidores que pronto superarán los 10 kW se está volviendo más difícil con cada nueva tecnología de CPU y GPU.

Los racks se están acercando a los sistemas de alojamiento que, en total, requieren cerca de 100 kW de potencia y, por lo tanto, el calor que se debe eliminar del sistema para mantenerlo funcionando al rendimiento designado. Aquí es donde entra en juego la refrigeración líquida, que se está volviendo cada vez más común, especialmente para entornos de IA y HPC, donde se espera que las CPU y GPU funcionen a velocidad máxima (o a máxima velocidad) de forma continua. La refrigeración líquida tiene la capacidad de eliminar cientos de veces más calor que el aire y, al mismo tiempo, reduce los requisitos de infraestructura de refrigeración del centro de datos.

Obtenga más información sobre la refrigeración líquida del centro de datos.

Contrariamente a muchas creencias, la construcción de un centro de datos refrigerado por líquido no cuesta más que la de un centro de datos refrigerado por aire y, gracias a un menor OPEX (se reduce la PUE), los ahorros serán evidentes durante años después de la construcción. Los beneficios de un centro de datos refrigerado por líquido se pueden resumir de la siguiente manera:

Menor efectividad en el uso de energía (PUE): se utiliza menos energía fuera de los servidores, el almacenamiento y la infraestructura de red.
Más potencia de cómputo: con un consumo de energía reducido (menor PUE), se pueden instalar más servidores con el mismo presupuesto para una determinada potencia de entrada al centro de datos.
Computación más rápida: la refrigeración líquida puede permitir que la CPU funcione a su velocidad de "impulso" durante más tiempo, ya que las CPU se pueden mantener más frías, por lo tanto, sin limitación.

Una solución completa de refrigeración líquida debe tener placas de refrigeración que reemplacen los disipadores de calor que se encuentran sobre las CPU y GPU. Se necesitan kits de mangueras para llevar el líquido frío al hardware correcto y sacarlo del mismo hardware.

Los colectores de distribución de refrigerante llevan el líquido frío a los servidores y devuelven el líquido caliente a las unidades de distribución de refrigerante (CDU). A continuación, la CDU envía el líquido caliente a una torre de refrigeración o de agua para que la temperatura del fluido vuelva a la temperatura necesaria para enviarlo a los servidores.

Resumen

Una nueva fábrica de IA no es como un centro de datos existente. Con servidores de alta gama que contienen múltiples GPU, un rack se convierte en la unidad base para una mayor expansión. Después, estas unidades base se pueden ampliar a centros de datos completos, con cada GPU conectada directamente a otras GPU para una máquina de entrenamiento de IA masivamente paralela. La refrigeración líquida es fundamental para estos servidores altamente densos a medida que el TDP de las CPU y GPU continúa aumentando.

Obtenga más información sobre las soluciones de refrigeración líquida de Supermicro